Bir Türkçe dil parçalayıcısının (language parser) doğruluğu
nasıl ölçülmeli?
HATA ORANLARI:
1-
Öncelikle morpholojik
doğruluk hatalı kelime sayısının toplam kelime sayısına oranı olarak
belirtilmeli.
2-
Özne, nesne hatası hata sayısının
toplam cümle sayısına oranı olarak belirtilmeli.
3-
Bu alanda çalışma yapan kişilerin
ortak olarak kabul ettikleri hata belirtme yöntemleri olmalı.
DENEME METİNLERİ:
1-
%82 gibi doğruluk rakamları
verirken buna ilişkin test metinleri ve hata bildirim yaklaşımları da
açıklanmalıdır. Bu konuda öncül niteliği
taşıyan makalelerin Türkçe’nin özelliklerine değinmesi doğal fakat bilimsel
açıdan yalnızca kullanılan yöntemlerin anlatılması yeterli değil. Nitekim aradan 10 yıllar geçtiği halde bu
çalışmaların pratik ya da ticari sonuçlarının olmaması şaşırtıcı değil.
2-
Test metinleri ortak bir
corpusta Türkçe metinler genel ve özel konular için toplanmalı. Böylece farklı araştırmacıların aynı test datası
üzerinde deney yapıp sonuçları karşılaştırması mümkün olabilir.
JARGON:
1-
Program içinde kullanılan
ve parser çıktısında gözüken ‘isim, sıfat, Tamlayan, İyelik’ vb isimler ortak
bir referans oluşturularak standartlaştırılmalı.
PERFORMANS:
1-
Performans ölçümü için
standartlar belirlenmeli, test metinleri oluşturulmalı.