Wednesday, 9 May 2018

LANGANA-T üzerine


LANGANA-T Türkçe Dil Ayrıştırıcısı (Turkish Language Parser)'nı geliştirme
sürecine ilişkin bazı rakamsal bilgiler:

1- Geliştirme parserlar konusunda 5 yıl tecrübesi olan tek programcı
ile 9 ay sürdü.

2-Program satır sayıları ve fonksiyon sayıları:
NbParseWords.java  8414 lines 112 functions
NbMorphoAnalysis.java 4381 lines 47 functions
NbMorphoAnalysisSub1.java 1229 lines 4 functions
NbMorphoNoun.java 3599 lines 6 functions

3- Kabaca program yapısı:
3.1. Syntax parçalayıcı
3.2. Morfolojik analiz
3.3. 3 aşamada parse

4- Program rule-based'tir ve Özne - Nesne belirleyabilmektedir.

Son söz: 9 ayda toplam 20 bin satırdan az bir miktarda tek kişi
bunu yapabildiyse niye şimdiye kadar bu iş yapılmamıştır anlamak zor.
Bir sorun üniversiteler ve akademik çevrelerdeki yaklaşımdan
kaynaklanmaktadır kanımca.  Günümüzde populer olan yaklaşım
neural networks(NNW)'tür.  Dolayısıyla, akademik olarak bir başarıya
ulaşmak için NNW kullanmak bir zorunluluk oluyor. Hatta,
rule-based yaklaşımla yapılmış bir iş bilimsel açıdan orta veya
aşağı olarak görülmekte. NNW ile  elde edilen sonuçlar ise çok tartışmalı.

Oysa, rule-based sistemle yaklaşık 100 bin satır yazıldığı takdirde
ülkemiz için çok faydalı olabilecek bir dil alt yapısı oluşturulabilirdi.
Almanya'da 5 yıl çalıştığım Hava Trafik Kontrolü sisteminde PL1 olarak
1 milyon 200 bin satır assembler olarak yaklaşık 300 bin satır vardı.
Günde (o zaman) 1200 uçak binlerce yolcu güvenliğini sağlayan rule-based
bir sistemdi.

TUBITAK'ın desteği ile oluşturulabilecek bir Türkçe dil alt yapısı ile
büyük yazı dosyalarından bilgi alma, binlerce sayfalık hukuk davalarında
tutarsızlık vb arama, kanuni telefon kayıtlarının taranması, uçak bakım
sürelerinin kısaltılması, internet üzerinden sorulan sorulara otomatik
cevap verme vb bir çok yeni imkan ülkemizin hizmetine girebilir.
girebilir.