Friday 9 May 2014

LANGANA-E İngilizce cümle parçalayıcısı programı ilerliyor Mayıs 2014

Güzel haber!  Webster Dictionary'nin S-T-U-V harfleri ile başlayan kelimelerini parse ettim, daha önceki W-X-Y-Z'in üstüne.  W-X-Y-Z açıklamalarının toplamı 33 bin civarındaydı. S-T-U-V ise s=116 bin, T=52 bin, U=19 bin, V=17 bin satır, toplam S-T-U-V=204 bin tutuyor.

Webster Dictionary'nin toplam açıklama satır sayısı 1 milyon civarında.  Şimdiye kadar benim parse ettiğim miktar 238 bin civarında.  Güzel haber artık parserı değiştirmekten çok Webster'in edit kurallarına uymayan durumları temizlemekle uğraşıyorum.  Başlangıçta 300-400 satırlık ilerlemelr vardı şimdi 4 bin satıra kadar sıçramalar olabiliyor.  Tahminim en geç 1-2 ay içinde İngilizce sözlük veritabanı hazırlama çalışmam bitmiş
olacak.

Hazırlayacağım veri tabanı (şu anda da) İngilizce kelimlerin tiplerinin ve tekil-çoğul, transitive-intransitive gibi bilgileri içerecek.  Şu ana kadar ki çalışmamda deneme olarak kelime tiplerini seçip kolaylıkla döktürdüm.  Yaklaşık 30 bin kelime için.

Amacım bu sözlüğü kullanarak bir İngilizce cümle parserı yazmak.  Bu parser ile parse ettiğim İngilizce  metinleri bir ara dile dönüştürüp, kullanıcının sorduğu ilgili soruları otomatik olarak cevaplamak.

Tıp kitapları cazip bir uygulama alanı olacak, hele WEsbter'in çok detaylı tıp deyimlerini içerdiğini düşünürsek.  Bir diğer uygulama alanı da uçak bakımında kullanılan manueller...

Parser'ımın çıktısını aşağıda bulabilirsiniz.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/

Niyetim, Webster'in kelime+kelime tanımı şeklinde bir dönüşüm çıktısını NON-PROFIT koşulu ile public yapmak.

Fark ettiğim bir konu da, sözlük ya da benzer şekilde belirli bir formatı olan metin hazırlanmasında birden çok kişi çalışırken bir parser kullanılırsa ortak metnin sabit formatta çıkması sağlanabilir ya da bu şekilde metin kontrol edilebilir.

Aslında, bir user interface ile formatı alıp ilgili parser otomatik olarak yazılabilir. ;-))