LANGANAt'de Son Durum
State of the Art at LANGANAt morphological
parser
Geçmişte bir
İngilizce - Türkçe tercüme motoru geliştirme çabalarımı destekleyen herkese
teşekkür etmeyi bir borç bilirim.
Malesef, ben işimi bitirmeden önce GOOGLE yeni ber sürüm çıkarda ve ben
girişimimi durdurmak zorunda kaldım.
TUBITAK ta bu konuya ilgi gösterebilecek olgunluğa sahip değildi.
I
would like to thank all who supported my previous efforts to produce a high
quality Englih to Turkish language translator.
Unfortunately, GOOGLE released a new version before I finished my work
and I had to stop that endeavour.
TUBITAK was not able to get interested in that subject matter either.
Onun yerine,
bir çok amaçla kullanılabilecek Türkçe morfolojik dil parçalayıcı üzerinde çalışmaya
başladım.
Instead
I began to work on a Turkish morphological language parser which can be used
for various purposes.
Bir
morfolojik parçalayıcı kelimeleri kök ve olası eklerine ayırır.
Örneğin:
gidiyorum
gitmek +
iyor + um şimdiki zaman 1. şahıs
(continuous tense 1st person)
A
morphological parser parses words to their root and possible extensions.
For
example, the word 'going' is parsed as:
to
go + ing continuous tense or gerund
Bir
morfolojik parçalayıcı çeşitli amaçlarla kullanılabilir:
1-
Konu analizi
2-
Çeşitli çok detayl ı arama
işlemleri
3-
Yüksek duyarlıklı sentiment
analizi
4-
Metin karşılaştırma
5-
Bir referans metne göre
otomatik soru cevaplama
6- Türkçe İngilizce tercüme
A
morphological parser can be used for making:
1-
Subject analysis
2-
Various types of sophisticated search
3-
High precision Sentiment analysis
4-
Text compare
5-
Automatic question answering based on a reference text
6-
Translation
7- Scanning
of large texts such as logs for security and law enforcement
Yapay Sinir
Ağları teknolojisi ile çoklu ve karışık cümleler yüksek duyarlılıkla işlenememektedir.
%99.5 ‘ten
daha başarılı bir kural tabanlı yaklaşım gereklidir. LANAGANt morfolojik parçalayıcı bu yönde ilk
adımdır.
High
precision for multiple and complex sentences can not be achieved with Neural
Networks. A rule based approach with
higher than %99.5 percent is necessary.
LANGANAt morphological parser is the first step in this direction.
Türkçe
kelimeleri güvenilir şekilde parçalamak için gerekli kuralları çıkartacak bir
corpus 8metinler dağarcığı) en azından 1 milyon kelimeden oluşabilir.
A
corpus for producing the reliable rules to parse Turkish words is probably more
than 1 million words.
The
composure of the corpus is also important.
If texts come from a certain subject area or medium such as Internet the
reliability of the parser descreases. LANGANAt uses more than 15 pieces of
literature belonging to various writers.
Even the language difference between writers effects the learning and the
reliability of the parser.
Test birden
çok alanda yapılmalıdır.
1-
Bulunmayan kelime sayısı
2-
Parçalanan fakat küçük
hatalar içeren kelime sayısı
Testing
has to be done in more than one areas.
1-
# of words not found
2-
# of words parsed but with minor extension mistakes
Test işlemi
yeteri kadar büyük metinler üzerinde yapılmalıdır. Ben 50 bin ile 120 bin kelime içeren metinler
kullandım.
Testing
has to be done with large enough texts.
I used 50 thousand to 120 thousandwords large texts.
LANGANt
bulunmayan kelime sayısı cinsinden %99.5-6 başarılı oldu. Binde 4-5 hatanın yarısı yazar tarafından
kullanılan özel kelimeler ve yanlış yazım vb.’den kaynaklanıyor.
LANGANAt is %99.5-6 succesful in # of
words not found is approximately. Half
of this error comes from the special words used by the author and misspellings
etc.
LANAGANAt 49
bin kelimelik bir test metninde Parçalanan fakat küçük hatalar içeren kelime
sayısı cinsinden % 95-98 arasında bir başarı sağladı.
LANGANAt
is %95-98 succesful in # of words parsed but with minor extension mistakes.
Son bir söz,
metin parçalayıcılar veya tercüme motorları %85 gibi başarı sonuçları ilan
etmekle kalmayıp ilgili test sonuçlarını da açıklamalıdır.
Last
but not the least, text parsers or translators should present the test data instead
of indicating %85 percents success, very doubtful indeed.
LANGANt has
completed more than 430 thousand words
İnceMemed2 108000 26422
İnceMemed1 86000 21425
İkiŞehir 49000 25608
Hawking 42000
Utopia 51000
Masumiyet 141000 35430
İhtiyarBalıkçı 49000
6830
GarpCephesi 43000
AdımKırmızı 120000
1984 68000
-------------------------
757000
İlk sütun
kitap içindeki kelime sayısını belirtir.
İkinci sütun Farklı kelime sayısını belirtir, aynı kök fakat farklı
ekler dahil.
The
first column indicates corpus words ready to be processed. The
second column indicates the number of distinct words that may have same root
but different extensions.
There will
be a 250 tousand words testing data that has to be prepared.
Yaklaşık 250
bin kelimelik bir corpus arttırımı yapacağım.
Bu çalışma
çok bu aşamada yüksek bir teknoloji içermese de büyük bir emek zorunlu.
This
is a not very high tech but highly reliable approach that requires a lot of
labour.
İki Şehirin Hikayesi ile ilgil yaptığım çalışmanın
sonuçlarına sourceforge'tan ulaşabilirsiniz.
You
can reach the outputs of my work on İki Şehrin Hikayesi at sourceforge:
https://sourceforge.net/projects/turkishlanguageparser/files/iki__sehirin_hikayesi/