Tuesday 20 May 2014

LANGANA-E İngilizce cümle parçalayıcısında son gelişmeler

Güzel haber!  LANGANA-e İngilizce parser projemde WEBSTER ingilizce sözlükten parse ile kelime tiplerini ayırma çalışmamda
yaklaşık 60 bin kelime ve yaklaşık 470 bin sözlük saturuna ulaştım.  WEBSTER sözlüğün tümü 1 milyon satır.

Çalışmamın sonuçlarını SOURCE-FORGE'ta yayınlamaya devam ediyorum.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/

Bu çalışmanın önemi İngilizce'de NLP uygulaması olarak yapılacak bütün çalışmalar kelime tiplerine ihtiyaç duyar.
Sanıyorum, yaptığım kelime tipi çalışması bir çok kişinin işine yarayacak.

Çalışmam tamamlandıktan sonra, 100 bin satırlık bir kısmını eksik olarak yayınlayıp, ilgilenenlerin e-mail ile
başvurmalarını ve kullanım amaçlarının ticari olmamasını rica edeceğim.

Ali R+

Not: Türkçe'de ÖZNE - NESNE ayrımı umduğumun çok üstünde zorluklar içeriyormuş.  Sağlam ama yavaş bir ilerleme ile
tek nesen/özne içeren fiilimsi/fiil gruplarında ayrım yapabiliyorum.  Bir örnek:

SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık
730 2 tasla yan ------------adjectiveFromVerb type=-i
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok
730 8 gör düm --------------------verbExt type=-i
.END-SENTENCE)
730 9


Process structure*****************************

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 2 tasla yan ------------adjectiveFromVerb type=-i #endSO=1 #punct=0 #conj=0

---------------------------------------------Phenemonon List
phenom data[1]=0 ben null tasla yan -i ÖZNE ö ö ö genel3--->MULTI CONJ=1 0 0


;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 8 gör düm --------------------verbExt type=-i #endSO=1 #punct=0 #conj=0

---------------------------------------------Phenemonon List
phenom data[1]=6 insan ları gör düm -i--->MULTI CONJ=1 0 0
 NESNE -ii-ii-ii-ii-ii-ii-ii-ii-ii

Friday 9 May 2014

LANGANA-E İngilizce cümle parçalayıcısı programı ilerliyor Mayıs 2014

Güzel haber!  Webster Dictionary'nin S-T-U-V harfleri ile başlayan kelimelerini parse ettim, daha önceki W-X-Y-Z'in üstüne.  W-X-Y-Z açıklamalarının toplamı 33 bin civarındaydı. S-T-U-V ise s=116 bin, T=52 bin, U=19 bin, V=17 bin satır, toplam S-T-U-V=204 bin tutuyor.

Webster Dictionary'nin toplam açıklama satır sayısı 1 milyon civarında.  Şimdiye kadar benim parse ettiğim miktar 238 bin civarında.  Güzel haber artık parserı değiştirmekten çok Webster'in edit kurallarına uymayan durumları temizlemekle uğraşıyorum.  Başlangıçta 300-400 satırlık ilerlemelr vardı şimdi 4 bin satıra kadar sıçramalar olabiliyor.  Tahminim en geç 1-2 ay içinde İngilizce sözlük veritabanı hazırlama çalışmam bitmiş
olacak.

Hazırlayacağım veri tabanı (şu anda da) İngilizce kelimlerin tiplerinin ve tekil-çoğul, transitive-intransitive gibi bilgileri içerecek.  Şu ana kadar ki çalışmamda deneme olarak kelime tiplerini seçip kolaylıkla döktürdüm.  Yaklaşık 30 bin kelime için.

Amacım bu sözlüğü kullanarak bir İngilizce cümle parserı yazmak.  Bu parser ile parse ettiğim İngilizce  metinleri bir ara dile dönüştürüp, kullanıcının sorduğu ilgili soruları otomatik olarak cevaplamak.

Tıp kitapları cazip bir uygulama alanı olacak, hele WEsbter'in çok detaylı tıp deyimlerini içerdiğini düşünürsek.  Bir diğer uygulama alanı da uçak bakımında kullanılan manueller...

Parser'ımın çıktısını aşağıda bulabilirsiniz.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/

Niyetim, Webster'in kelime+kelime tanımı şeklinde bir dönüşüm çıktısını NON-PROFIT koşulu ile public yapmak.

Fark ettiğim bir konu da, sözlük ya da benzer şekilde belirli bir formatı olan metin hazırlanmasında birden çok kişi çalışırken bir parser kullanılırsa ortak metnin sabit formatta çıkması sağlanabilir ya da bu şekilde metin kontrol edilebilir.

Aslında, bir user interface ile formatı alıp ilgili parser otomatik olarak yazılabilir. ;-))

LANGANA-E English Language Parser project progresses May 2014

This is part of a dictionary that indicates the types of English words only.  Only the words beginning with the letters W-X-Y-Z are included.  The other letters will be posted as the work progresses.

This effort is part of an ongoing process in parallel with my Turkish Language processing package LANGANA.  I have two aims for LANGANA.  The first one is to make a program that reads texts and parses-converts them to a pseudo language output which it can later use to answer questions about the text.  The second is to make a quality Turkish-English and vise versa translation motor.

I parsed the last 30 000 lines of the Webster dictionary which is publicly available.  The I did a small converter mechanism to exclude the word names and types.  My parser is approx. 1000 lines.  I progressed with 30-40 lines successes in the beginning and it took many  hours to do this.  Recently I have seen 2000 lines successess in a matter of 10 minutes.  I am looking forward to more improvements  and finish this dictionary in a couple of months at most.

 -----------------------------------------------
 The second group of chars namely S-T-U-V has been added. This has been a considerable endeavour as these chars are explained in  approx. 240 000 lines in Webster(1910ver.)  My current parser parses approx. 270 000 lines and lists the word types of 25 - 30 000  English words.  The whole of Webster is 1 000 000 lines.  I have reached a point of saturation in the development of the parser and  it has become fairly facile if not easy to proceed.  I am looking forward to finish the parser in 1-2 months time.

 After the parser is finished I will do fine tuning to decide what items will be included to the output.  I will put the output into  a MySQL database afterwards and proceed with the rest of my plans.

 I will make the output publicly available as the Webster 1910 ver. but I will provide letter S by e-mail, only to requests clearly  identified as non-profit.