Monday, 28 September 2020

Langana-T’de Önemli Bir Adım

 

Langana-T’de Önemli Bir Adım

Langana-T başlığı altında topladığım Türkçe NLP çalışmamın CORPUS (referans metinler dağarcığı) oluşturma çalışmam 1 milyon kelimeyi aştı.  Langana-T CORPUS’u çeşitli konular ve dönemler Türkçesi içeren 16 kitaptan oluşuyor. Kitapların listesi aşağıda...


Langana-T çerçevesinde yaptığım Türkçe parserın kelime morfolojisi parserında ise başarı oranım %99.98’in üzerinde.  Hata oranı ise % 0.18 yani binde 2’nin altında.  Bu oran çok eski dil kullanan Tanpınar’ın Saatleri Ayarlama Enstitüsünde bile %0.44 yani binde 5’in altında*.


Çalışmamın bu aşamasında kelime morfolojisi parserını iyileştirme işlemini biraz yavaşlatarak cümle morfolojisi için benzer bir başarı yüzdesi yakalama çabasına başlayacağım.  Öncelikle isim, sıfat, zarf gruplamalarının belirlenmesi, daha sonra özne-fiil belirlenmesi ve cümle yapısı kalıplarının dağarcığının oluşturulması...


Yaptığım işin kalitesi daha da yükseltilebilir fakat bu tek kişinin bunların hepsini birlikte yapması açısından imkansız.  Bir TUBITAK desteği alabilmem ve ekip kurabilmem için elinden gelenlerin yardımcı olması dileğimi saygıyla sunarım**.


Ali Riza SARAL


Dip notlar:

**Geliştirmeyi hedeflediğim sistem şu amaçlarla kullanılabilir:

  •           Konu analizi
  •           Çeşitli çok detaylı arama işlemleri
  •           Yüksek duyarlıklı sentiment analizi
  •           Metin karşılaştırma
  •           Bir referans metne göre otomatik soru cevaplama
  •           Türkçe İngilizce tercüme
  •           Log vb uzun yazı metinlerinin güvenlik ve kanun uygulaması için akıllı taranması

 

*Sistemin bilmediği bir kelime ile karşılaşması durumunda:

  •       Online bir uygulama durumunda kullanıcıya sorarak
  •       Offline ise %0.2 olasılık 90bin kelimelik bir kitapta 180 kelime eder.  Bu ise birkaç saatlik tek kişinin yapabileceği bir düzenleme.
İnceMemed2 108000 26422 % 0.26?
İnceMemed1 86000 21425 % 0.62
İkiŞehir 74000 25608 % 0.66
Hawking 42000 12335 % 0.88
Utopia 51000 18462 % 0.41
Masumiyet 141000 35430 % 0.54
İhtiyarBalıkçı 49000 6830 % 0.61
GarpCephesi 43000 17251 % 0.61
AdımKırmızı 120000 32300 % 0.47
1984 68000 23068 % 0.51
-------------------------
              757000
#words #distinct #NOT FOUND #distinct
words    words roots

Yüzüklerin_Efendisi
Sineklerin_Tanrısı      51759 15204 % 0.19
Savaş_Sanatı_Tzu 31548 11847 % 0.84 (% 0.29 typing mistakes removed)
Saatler_Tanpınar 92382 26135 % 0.44 (old language ... 3dots char mistake)
insanNeileYaşarTolstoy 18093 8775 % 0.27
Huzur_Tanpınar
Gulliverin_Gezileri 72409 23408 % 0.45 (% 0.18 imaginary beings etc. removed)
DokuzuncuHariciye 17747 8192 % 0.78 (old language)
-------------------------------
              283,938
#words #distinct #NOT FOUND #distinct
words    words roots