Saturday, 1 August 2020

LANGANAt de Son Durum

LANGANAt'de Son Durum

State of the Art at LANGANAt morphological parser

 

Geçmişte bir İngilizce - Türkçe tercüme motoru geliştirme çabalarımı destekleyen herkese teşekkür etmeyi bir borç bilirim.  Malesef, ben işimi bitirmeden önce GOOGLE yeni ber sürüm çıkarda ve ben girişimimi durdurmak zorunda kaldım.  TUBITAK ta bu konuya ilgi gösterebilecek olgunluğa sahip değildi.

I would like to thank all who supported my previous efforts to produce a high quality Englih to Turkish language translator.   Unfortunately, GOOGLE released a new version before I finished my work and I had to stop that endeavour.  TUBITAK was not able to get interested in that subject matter either.

 

Onun yerine, bir çok amaçla kullanılabilecek Türkçe morfolojik dil parçalayıcı üzerinde çalışmaya başladım.

Instead I began to work on a Turkish morphological language parser which can be used for various purposes.

 

Bir morfolojik parçalayıcı kelimeleri kök ve olası eklerine ayırır.

Örneğin:

gidiyorum

gitmek + iyor + um  şimdiki zaman 1. şahıs (continuous tense 1st person)

 

A morphological parser parses words to their root and possible extensions.

For example, the word 'going' is parsed as:

to go + ing continuous tense or gerund

 

Bir morfolojik parçalayıcı çeşitli amaçlarla kullanılabilir:

1-      Konu analizi

2-      Çeşitli çok detayl ı arama işlemleri

3-      Yüksek duyarlıklı sentiment analizi

4-      Metin karşılaştırma

5-      Bir referans metne göre otomatik soru cevaplama

6-      Türkçe İngilizce tercüme

Log vb uzun yazı metinlerinin güvenlik ve kanun uygulaması için akıllı taranması 

A morphological parser can be used for making:

1- Subject analysis

2- Various types of sophisticated search

3- High precision Sentiment analysis

4- Text compare

5- Automatic question answering based on a reference text

6- Translation

7- Scanning of large texts such as logs for security and law enforcement

Yapay Sinir Ağları teknolojisi ile çoklu ve karışık cümleler yüksek duyarlılıkla işlenememektedir.

%99.5 ‘ten daha başarılı bir kural tabanlı yaklaşım gereklidir.  LANAGANt morfolojik parçalayıcı bu yönde ilk adımdır.

High precision for multiple and complex sentences can not be achieved with Neural Networks.  A rule based approach with higher than %99.5 percent is necessary.  LANGANAt morphological parser is the first step in this direction.

Türkçe kelimeleri güvenilir şekilde parçalamak için gerekli kuralları çıkartacak bir corpus 8metinler dağarcığı) en azından 1 milyon kelimeden oluşabilir.

A corpus for producing the reliable rules to parse Turkish words is probably more than 1 million words. 

 Metin dağarcığının birleşimi de önemlidir.  Eğer metinler belirli bir konu ya da ortamdan geliyorsa parçalayıcının güvenilirliği azalmaktadır.  LANGANAt çeşitli yazarlara ait 15’in üzerinde edebi kitaba dayanacak.  Yazarlar arasındaki dil farkı bileparçalayıcının öğrenmesini ve güvenilirliğini etkileyebilmektedir.

The composure of the corpus is also important.  If texts come from a certain subject area or medium such as Internet the reliability of the parser descreases.   LANGANAt uses more than 15 pieces of literature belonging to various writers.  Even the language difference between writers effects the learning and the reliability of the parser.

 

Test birden çok alanda yapılmalıdır.

1-      Bulunmayan kelime sayısı

2-      Parçalanan fakat küçük hatalar içeren kelime sayısı

Testing has to be done in more than one areas. 

1- # of words not found

2- # of words parsed but with minor extension mistakes

 

Test işlemi yeteri kadar büyük metinler üzerinde yapılmalıdır.  Ben 50 bin ile 120 bin kelime içeren metinler kullandım.

Testing has to be done with large enough texts.  I used 50 thousand to 120 thousandwords large texts.

 

LANGANt bulunmayan kelime sayısı cinsinden %99.5-6 başarılı oldu.  Binde 4-5 hatanın yarısı yazar tarafından kullanılan özel kelimeler ve yanlış yazım vb.’den kaynaklanıyor.

LANGANAt is %99.5-6 succesful in # of words not found is approximately.  Half of this error comes from the special words used by the author and misspellings etc.

 

LANAGANAt 49 bin kelimelik bir test metninde Parçalanan fakat küçük hatalar içeren kelime sayısı cinsinden % 95-98 arasında bir başarı sağladı.

LANGANAt is %95-98 succesful in # of words parsed but with minor extension mistakes.

 

Son bir söz, metin parçalayıcılar veya tercüme motorları %85 gibi başarı sonuçları ilan etmekle kalmayıp ilgili test sonuçlarını da açıklamalıdır.

Last but not the least, text parsers or translators should present the test data instead of indicating %85 percents success, very doubtful indeed.

 

LANGANt has completed more than 430 thousand words

İnceMemed2                    108000  26422

İnceMemed1                    86000   21425

İkiŞehir                                 49000   25608

Hawking                                              42000

Utopia                                  51000

Masumiyet                        141000  35430

İhtiyarBalıkçı                      49000   6830

GarpCephesi                     43000

AdımKırmızı                       120000

1984                                      68000

-------------------------

                757000

İlk sütun kitap içindeki kelime sayısını belirtir.  İkinci sütun Farklı kelime sayısını belirtir, aynı kök fakat farklı ekler dahil.

The first column indicates corpus words ready to be processed.   The second column indicates the number of distinct words that may have same root but different extensions.

 

There will be a 250 tousand words testing data that has to be prepared.

Yaklaşık 250 bin kelimelik bir corpus arttırımı yapacağım.

 

Bu çalışma çok bu aşamada yüksek bir teknoloji içermese de büyük bir emek zorunlu.

This is a not very high tech but highly reliable approach that requires a lot of labour. 

 

İki Şehirin Hikayesi ile ilgil yaptığım çalışmanın sonuçlarına sourceforge'tan ulaşabilirsiniz.

You can reach the outputs of my work on İki Şehrin Hikayesi at sourceforge:

 

https://sourceforge.net/projects/turkishlanguageparser/files/iki__sehirin_hikayesi/