TEKNE - TECHNE: August 2020

LANGANAt'de Son Durum

State of the Art at LANGANAt morphological parser

Geçmişte bir İngilizce - Türkçe tercüme motoru geliştirme çabalarımı destekleyen herkese teşekkür etmeyi bir borç bilirim. Malesef, ben işimi bitirmeden önce GOOGLE yeni ber sürüm çıkarda ve ben girişimimi durdurmak zorunda kaldım. TUBITAK ta bu konuya ilgi gösterebilecek olgunluğa sahip değildi.

I would like to thank all who supported my previous efforts to produce a high quality Englih to Turkish language translator. Unfortunately, GOOGLE released a new version before I finished my work and I had to stop that endeavour. TUBITAK was not able to get interested in that subject matter either.

Onun yerine, bir çok amaçla kullanılabilecek Türkçe morfolojik dil parçalayıcı üzerinde çalışmaya başladım.

Instead I began to work on a Turkish morphological language parser which can be used for various purposes.

Bir morfolojik parçalayıcı kelimeleri kök ve olası eklerine ayırır.

Örneğin:

gidiyorum

gitmek + iyor + um şimdiki zaman 1. şahıs (continuous tense 1st person)

A morphological parser parses words to their root and possible extensions.

For example, the word 'going' is parsed as:

to go + ing continuous tense or gerund

Bir morfolojik parçalayıcı çeşitli amaçlarla kullanılabilir:

1- Konu analizi

2- Çeşitli çok detayl ı arama işlemleri

3- Yüksek duyarlıklı sentiment analizi

4- Metin karşılaştırma

5- Bir referans metne göre otomatik soru cevaplama

6- Türkçe İngilizce tercüme

Log vb uzun yazı metinlerinin güvenlik ve kanun uygulaması için akıllı taranması

A morphological parser can be used for making:

1- Subject analysis

2- Various types of sophisticated search

3- High precision Sentiment analysis

4- Text compare

5- Automatic question answering based on a reference text

6- Translation

7- Scanning of large texts such as logs for security and law enforcement

Yapay Sinir Ağları teknolojisi ile çoklu ve karışık cümleler yüksek duyarlılıkla işlenememektedir.

%99.5 ‘ten daha başarılı bir kural tabanlı yaklaşım gereklidir. LANAGANt morfolojik parçalayıcı bu yönde ilk adımdır.

High precision for multiple and complex sentences can not be achieved with Neural Networks. A rule based approach with higher than %99.5 percent is necessary. LANGANAt morphological parser is the first step in this direction.

Türkçe kelimeleri güvenilir şekilde parçalamak için gerekli kuralları çıkartacak bir corpus 8metinler dağarcığı) en azından 1 milyon kelimeden oluşabilir.

A corpus for producing the reliable rules to parse Turkish words is probably more than 1 million words.

Metin dağarcığının birleşimi de önemlidir. Eğer metinler belirli bir konu ya da ortamdan geliyorsa parçalayıcının güvenilirliği azalmaktadır. LANGANAt çeşitli yazarlara ait 15’in üzerinde edebi kitaba dayanacak. Yazarlar arasındaki dil farkı bileparçalayıcının öğrenmesini ve güvenilirliğini etkileyebilmektedir.

The composure of the corpus is also important. If texts come from a certain subject area or medium such as Internet the reliability of the parser descreases. LANGANAt uses more than 15 pieces of literature belonging to various writers. Even the language difference between writers effects the learning and the reliability of the parser.

Test birden çok alanda yapılmalıdır.

1- Bulunmayan kelime sayısı

2- Parçalanan fakat küçük hatalar içeren kelime sayısı

Testing has to be done in more than one areas.

1- # of words not found

2- # of words parsed but with minor extension mistakes

Test işlemi yeteri kadar büyük metinler üzerinde yapılmalıdır. Ben 50 bin ile 120 bin kelime içeren metinler kullandım.

Testing has to be done with large enough texts. I used 50 thousand to 120 thousandwords large texts.

LANGANt bulunmayan kelime sayısı cinsinden %99.5-6 başarılı oldu. Binde 4-5 hatanın yarısı yazar tarafından kullanılan özel kelimeler ve yanlış yazım vb.’den kaynaklanıyor.

LANGANAt is %99.5-6 succesful in # of words not found is approximately. Half of this error comes from the special words used by the author and misspellings etc.

LANAGANAt 49 bin kelimelik bir test metninde Parçalanan fakat küçük hatalar içeren kelime sayısı cinsinden % 95-98 arasında bir başarı sağladı.

LANGANAt is %95-98 succesful in # of words parsed but with minor extension mistakes.

Son bir söz, metin parçalayıcılar veya tercüme motorları %85 gibi başarı sonuçları ilan etmekle kalmayıp ilgili test sonuçlarını da açıklamalıdır.

Last but not the least, text parsers or translators should present the test data instead of indicating %85 percents success, very doubtful indeed.

LANGANt has completed more than 430 thousand words

İnceMemed2 108000 26422

İnceMemed1 86000 21425

İkiŞehir 49000 25608

Hawking 42000

Utopia 51000

Masumiyet 141000 35430

İhtiyarBalıkçı 49000 6830

GarpCephesi 43000

AdımKırmızı 120000

1984 68000

-------------------------

757000

İlk sütun kitap içindeki kelime sayısını belirtir. İkinci sütun Farklı kelime sayısını belirtir, aynı kök fakat farklı ekler dahil.

The first column indicates corpus words ready to be processed. The second column indicates the number of distinct words that may have same root but different extensions.

There will be a 250 tousand words testing data that has to be prepared.

Yaklaşık 250 bin kelimelik bir corpus arttırımı yapacağım.

Bu çalışma çok bu aşamada yüksek bir teknoloji içermese de büyük bir emek zorunlu.

This is a not very high tech but highly reliable approach that requires a lot of labour.

İki Şehirin Hikayesi ile ilgil yaptığım çalışmanın sonuçlarına sourceforge'tan ulaşabilirsiniz.

You can reach the outputs of my work on İki Şehrin Hikayesi at sourceforge:

https://sourceforge.net/projects/turkishlanguageparser/files/iki__sehirin_hikayesi/

TEKNE - TECHNE

INFORMATION

Blog Archive

About Me

Saturday, 1 August 2020

LANGANAt de Son Durum