Thursday 26 December 2013

Çok güzel haber! Türkçe kitap okuyup ilgili soruları cevaplayan pprogramım LANGANA

Çok güzel haber!  Türkçe kitap okuyup ilgili soruları cevaplayan pprogramım LANGANA ilk cevaplarını verdi.

İlk olarak STEINBECK’in ‘Fareler ve İnsanlara Dair’ adlı romanını okuyup parse etti.  Sonuçları bir pseuodo dile convert edip bir MySQL database’ine sakladı.  Daha sonra benim şimdilik elle hazırladığım bir soruyu, ‘Lennie nereye gitti?’ cevapladı.    

Aşağıda ilk sütun SENTENCE_NO ikinci sütun WORD_NO, üçüncü sütun OPTION_NO’dur.
Dördüncü sütun ROOT_TYPE, altıncı sütun ROOT , sekizinci sütun ek-RAW_EXT vb...dir.

Görüldüğü gibi, basit bir 3 seviyeli SQL querysi dizisi ile, sorunun cevabını içeren cümleleri yaklaşık 30 bin kelime (100 sayfa) içinden çekip çıkardı, LANGANA...

LENNİE NEREYE GİTTİ?

****************************************
33333333333333333333333 1561              6             0             29356    İsim       null        kerevet               nounExt              ine         %%?in%&e
-----------------------------------------------------------------
1561      0             0             0            Özelİsim              null        Lennie  null        null        null
1561      1             0             30488    Zamir    null        kimse    pronounExt       nin         +ni+n
1561      2             0             13520    İsim       null        dikkat   nounExt              ini           %%?in%&i
1561      3             0             10344    Fiil          -i,-e       çek        nounFromVerbExt         memeye             -meme-ye
1561      4             0             9754      Fiil          nsz        çalış      gerundFromVerbExt     arak       ;;-ar;.ak
1561      5             0             53348    Zarf        null       usulcacık             null        null        null
1561      6             0             29356    İsim       null        kerevet               nounExt              ine         %%?in%&e
1561      7             0             19913    Fiil          -den,-e  git           verbExt                ti             ::-ti:
1561      8             0             54481    Bağlaç   null        ve           null        null        null
1561      9             0             39490    Fiil          -e           otur       verbExt                du          ::-du:
*****************************************
33333333333333333333333 2015              13           0             48386    İsim       null        şehr       nounExt              e             %%%&e
-------------------------------------------------------------------
2015      0             0             0            Özelİsim              null        Lennie  null        null        null
2015      1             0             37999    Zamir    null        ne          null        null        null
2015      2             0             55685    Fiil          -i           yap        nounFromVerbExt         acağını  -acağ-ın-ı
2015      3             0             48299    Fiil          -i           şaşır       gerundFromVerbExt     arak       ;;-ar;.ak
2015      4             0             30799    Sıfat       null       kocaman             null        null        null
2015      5             0             15879    İsim       null        el            nounExt              lerini      #ler%%?in%&i
2015      6             0             10392    Sıfat       null       çelimsiz                null        null        null
2015      7             0             6880      İsim       null        bir          null        null        null
2015      9             0             6906      Zamir    null        birbir     pronounExt       lerine    +lerine
2015      10           0             10027    Fiil          -i,-e       çarp       verbExt                tı             ::-tı:
2015      11           0             54481    Bağlaç   null       ve           null        null        null
2015      12           0             22578    İsim       null        Herkes null        null        null
2015      13           0             48386    İsim       null        şehr       nounExt              e             %%%&e
2015      14           0             19913    Fiil          -den,-e git           verbExt                ti             ::-ti:
2015      15           0             12648    Fiil         de          verbExt                di            ::-di:



****************************************
1.       QUERY:
query = "SELECT * FROM text_read_tst WHERE ROOT = '"+convertToCharSet("git","Windows-1254", "Cp1252")
            +"' AND RAW_EXT = '"+convertToCharSet("ti","Windows-1254", "Cp1252")+"'" ;
2.       QUERY:
query = "SELECT * FROM text_read_tst WHERE SENTENCE_NO = '"+convertToCharSet(ref_sentence_no,"Windows-1254", "Cp1252")
            +"' AND ROOT = '"+convertToCharSet("Lennie","Windows-1254", "Cp1252") +"' ";
3.       QUERY:
query = "SELECT * FROM text_read_tst WHERE SENTENCE_NO = '"+convertToCharSet(ref_sentence_no,"Windows-1254", "Cp1252")
            +"' AND (RAW_EXT = '"+convertToCharSet("ye","Windows-1254", "Cp1252")
             +"' OR RAW_EXT = '"+convertToCharSet("e","Windows-1254", "Cp1252")
            +"') ";

Projemin bundan sonraki aşaması:
1     1.     Bir kaç gün dinlenme...
2     2.      Bankalar, özel şirketler ve TUBITAK’tan destek arayışı...
3     3.      Referans olarak herkesin kullanımına açmak için Fareler ve İnsanlara Dair’in LANGANA-PARSER çıktısını 0 ambiguity ve %100 doğruluğa getirmek.  (En son değişikliklerle bugün %5 ambiguity’ye indirdim).
4     4.      Öncelikle soru algoritmaları geliştirmek gerek.
5     5.      Yaptığım DB’yi kullanarak ÖZNE, NESNE, İSİM-SIFAT TAMLAMALARI ayrışımını yapmak gerek.
6     6.      Geliştirdiğim soru algoritmalarını kullanıcı sorularına göre tetikleyen userinterface’i geliştirmek.

Ham olsa da elimdeki ürünü görmek denemek isteyenlere her zaman kapım açık...  Bilgisayar ortamındaki yazıların giderek arttığı günümüz ortamında yaptığım programın çarpıcı avantajlar oluşturacağından kuşkum yok.  Tıp, hukuk, basın, bankacılık vb bir çok alanda çok faydalı uygulamalar geliştirilebilir.

Saygılarımla.


Ali R+ SARAL