Tuesday 26 November 2013

Mutlu son! Türkçe yazıları okuyup anlayabilen bilgisayar programı

Mutlu son! Türkçe yazıları okuyup anlayabilen bilgisayar programı ilk meyvelerini vermeye başladı.

Hemingway'in Fareler ve İnsanlara Dair romanının TÜMÜNÜ parse ettim.  Ekteki resimlere bakınız.



Program
işlenen kelime sayısı   = 27873
işlenmeyen kelime sayısı  =  1678

işlenmiş kelime sayısı  = 26195

işlenmiş kelime anlamları  = 27661
ikircikli anlam sayısı  =  1466

ikirciklilik %si   =  0.05

Daha önce yine Fareler ve İnsanların ilk 10 sahifesinde yaptığım çalışmada %2.5'a ulaşmıştım.  Burada sorun ilk defa kitabın bütününü parse etmemden kaynaklanıyor.

Geçtiğimiz süre içerisinde parserda önemli iyileştirmeler yaptım. 

Sözlükten deyim aramak için kelimeleri ikişer ikişer kontrol etmek gibi.  Ayrıca, sorulara cevap vermek mekanizması için, parser çıktılarını bir MySQL database table'ına atan bir modül ekledim.
Daha önce yaptığım, cümle içi kelime seçeneklerini matrix kombinezonu alarak değerlendirme mekanizmasını kullanmaktan vazgeçtim.

Ayrıca, soru cevaplama mekanizmasını bir JavaCC parserı yerine kendi yapacağım parser benzeri program ile gerçekleştirmeğe karar verdim.  Bir DB table ile birlikte çalışacak bu program çok daha etkin ANLAM ARAMALARIna imkan verecek.

Daha önce bütün kitap için 4.5 saat olan ilk işlem süresini 8 dakikaya indirdim.  Diğer işlem aşamaları da en çok 1-2 dakika seviyesinde artık.

Bundan sonra yapılacaklar:
1- Parser'ın bütünü üzerinde Fareler ve İnsanlar kitabının tümünü kullanarak tailoring/iyileştirme çalışması.
2- Parser çıktısı olan DB table'ı kullanarak basit sorulara nasıl cevap verilebilir araştırması.

Saygılar.

Ali R+