Langana-T’de Önemli Bir Adım
Langana-T başlığı altında topladığım Türkçe NLP çalışmamın CORPUS (referans metinler dağarcığı) oluşturma çalışmam 1 milyon kelimeyi aştı. Langana-T CORPUS’u çeşitli konular ve dönemler Türkçesi içeren 16 kitaptan oluşuyor. Kitapların listesi aşağıda...
Langana-T çerçevesinde yaptığım Türkçe parserın kelime morfolojisi parserında ise başarı oranım %99.98’in üzerinde. Hata oranı ise % 0.18 yani binde 2’nin altında. Bu oran çok eski dil kullanan Tanpınar’ın Saatleri Ayarlama Enstitüsünde bile %0.44 yani binde 5’in altında*.
Çalışmamın bu aşamasında kelime morfolojisi parserını iyileştirme işlemini biraz yavaşlatarak cümle morfolojisi için benzer bir başarı yüzdesi yakalama çabasına başlayacağım. Öncelikle isim, sıfat, zarf gruplamalarının belirlenmesi, daha sonra özne-fiil belirlenmesi ve cümle yapısı kalıplarının dağarcığının oluşturulması...
Yaptığım işin kalitesi daha da yükseltilebilir fakat bu tek kişinin bunların hepsini birlikte yapması açısından imkansız. Bir TUBITAK desteği alabilmem ve ekip kurabilmem için elinden gelenlerin yardımcı olması dileğimi saygıyla sunarım**.
Ali Riza SARAL
Dip notlar:
**Geliştirmeyi hedeflediğim sistem şu amaçlarla kullanılabilir:
- Konu analizi
- Çeşitli çok detaylı arama işlemleri
- Yüksek duyarlıklı sentiment analizi
- Metin karşılaştırma
- Bir referans metne göre otomatik soru cevaplama
- Türkçe İngilizce tercüme
- Log vb uzun yazı metinlerinin güvenlik ve kanun uygulaması için akıllı taranması
*Sistemin bilmediği
bir kelime ile karşılaşması durumunda:
- Online bir uygulama durumunda kullanıcıya sorarak
- Offline ise %0.2 olasılık 90bin kelimelik bir kitapta 180 kelime eder. Bu ise birkaç saatlik tek kişinin yapabileceği bir düzenleme.