Daha önce 3 dakika zaman alan lithium-manic-aynı cümle içinde koşulunu şu anda 1-2 saniye içinde gerçekleştirebiliyor.
Sorunun kaynağı kullandığım MySQL veritabanı değil, kullanmış olduğum arama algoritmasının yavaşlığıydı. Yine de eğer 'mental-disease' gibi çok geçerli bir arama kriteri seçilirse 10-15 snlik bir gecikme olabilir. Arama yaptığım kitap Kandel'in 1230 sayfa, 720000 kelime, 60 küsur bölümlük 'Principles of Neural Science'i.
Şimdi bu hızla, kelime tipleri, deyimler, tümleçler, özne-nesne gibi cümle içi fonksiyonlar yönünde ilerleme imkanı doğmuş oldu.
Glasfish Server 3.1 log
-----------------------
INFO: WEB0671: Loading application [nbAccessKANDEL] at [/nbAccessKANDEL]
INFO: nbAccessKANDEL was successfully deployed in 501 milliseconds.
INFO: title=<-- br="">INFO: 2177 0 0 S manic-depressive 0 56 0
INFO: title=<-- br="">INFO: 2251 0 0 S( manic-depressive 0 58 0
INFO: title=<-- br="">INFO: 39574 0 0 ,S manic- 0 1189 0
INFO: title=<-- br="">INFO: 39574 0 0 S lithium 0 1189 0
INFO: found in sentence depth 39574 39574
INFO: title=<-- br="">INFO: 39639 0 0 S manic 0 1192 0
INFO: title=<-- br="">INFO: 39674 0 0 S manic-depressive 0 1193 0
INFO: title=<-- br="">INFO: 39786 0 0 S manic 0 1197 0
INFO: title=<-- br="">INFO: 40375 0 0 S( manic-depressive 0 1211 0
INFO: title=<-- br="">INFO: 40375 0 0 S manic 0 1211 0
INFO: title=<-- br="">INFO: 40376 0 0 S manic 0 1211 0
INFO: title=<-- br="">INFO: 40381 0 0 S manic 0 1211 0
INFO: title=<-- br="">INFO: 40392 0 0 S manic 0 1212 0
INFO: title=<-- br="">INFO: 40398 0 0 S manic- 0 1212 0
INFO: title=<-- br="">INFO: 40399 0 0 S manic-depressive 0 1212 0
INFO: title=<-- br="">INFO: 40413 0 0 S manic 0 1213 0
INFO: title=T<-- br="">INFO: 40427 0 0 S manic-depressive 0 1213 0
INFO: title=<-- br="">INFO: 40428 0 0 ,S lithium 0 1213 0
INFO: title=<-- br="">INFO: 40454 0 0 S manic 0 1214 0
INFO: title=<-- br="">INFO: 40469 0 0 RN lithium 0 1216 0
INFO: title=<-- br="">INFO: 40469 0 0 S manic-depressive 0 1216 0
INFO: found in sentence depth 40469 40469
INFO: title=<-- br="">INFO: 40469 0 0 S manic 0 1216 0
INFO: title=<-- br="">INFO: 40470 0 0 S lithium 0 1216 0
INFO: title=<-- br="">INFO: 40470 0 0 S manic 0 1216 0
INFO: found in sentence depth 40470 40470
INFO: title=<-- br="">INFO: 40471 0 0 .S lithium 0 1216 0
INFO: title=<-- br="">INFO: 40600 0 0 S lithium 0 1220 0
INFO: title=<-- br="">INFO: 40601 0 0 ,S lithium 0 1220 0
INFO: title=<-- br="">INFO: 40604 0 0 .S lithium 0 1220 0
INFO: title=<-- br="">INFO: 40609 0 0 ,S lithium 0 1220 0
INFO: title=<-- br="">INFO: 40612 0 0 S lithium 0 1220 0
INFO: title=<-- br="">INFO: 40793 0 0 .S manic-depressive 0 1225 0
INFO: title=<-- br="">INFO: 40950 0 0 S manic 0 1226 0
INFO: title=<-- br="">INFO: 40950 0 0 S lithium 0 1226 0
INFO: found in sentence depth 40950 40950
INFO: title=<-- br="">INFO: 42345 0 0 S manic-depressive 0 1277 0
INFO: title=<-- br="">INFO: 43859 0 0 SRN lithium 0 1365 0
INFO: title=<-- br="">INFO: 43859 0 0 SRN manic-depressive 0 1366 0
INFO: title=<-- br="">INFO: 43859 0 0 SRN manic-depressive 0 1366 0
system output log
-----------------
ant -f C:\\Users\\ars\\ARSlanganae\\bookMaint\\nbAppletCallTest -Dbrowser.context=C:\\Users\\ars\\ARSlanganae\\bookMaint\\nbAppletCallTest\\web\\CallAppletKANDEL.html -DforceRedeploy=false -Dclient.urlPart=/CallAppletKANDEL.html -Ddirectory.deployment.supported=true -Dnb.wait.for.caches=true -Dnb.internal.action.name=run.single run
init:
deps-module-jar:
deps-ear-jar:
deps-jar:
library-inclusion-in-archive:
library-inclusion-in-manifest:
compile:
compile-jsps:
Incrementally deploying nbAppletCallTest
Completed incremental distribution of nbAppletCallTest
run-deploy:
Browsing: http://localhost:8080/nbAppletCallTest/CallAppletKANDEL.html
run-display-browser:
run:
BUILD SUCCESSFUL (total time: 1 second)-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->-->
Tuesday, 28 October 2014
Monday, 20 October 2014
ADVANCED SEARCH TOOL - ONLINE İLERİ ARAŞTIRMA ARACI - INTERNET ÜZERİNDEN
ADVANCED SEARCH TOOL - ONLINE
İLERİ ARAŞTIRMA ARACI - INTERNET ÜZERİNDEN
Bir örnek olarak KANDEL'in 1230 sayfalık PRINCIPLES OF NEURAL SCIENCE
kitabını alarak geliştirdiğim İleri Araştırma Aracı programını
intener üzerinden çalışır hale getirdim.
Uygun bir internet konumu bulabilirsem sizlerin de internet üzerinden
kullanımınıza açacağım. Şimdilik yalnız ilgili resimleri sunuyorum.
Bundan sonra talebe bağlı olarak FAA Aircraft Maintenance Manual'ı
yapacağım. Ayrıca bu aracı geliştirmek amacı ile, eşanlamlı kelimeler,
cümle içi alt cümleler, ve
http://tekne-techne.blogspot.com.tr/2014/10/kandelin-psikiyatri-kitab-icin-ileri.html
yazımda belirttiğim yönde ilerleyeceğim.
Bir aramanın başarılı olması bir takım anahtar kelimelere yakınlıktan öte
onların belirttiği anlam ve kavramların aranıp bulunmasına bağlıdır.
Ancak bu tür bir arama binlerce sayfalık referans metinler içinden
bir kaç sonucu eleyip çıkartabilir. Ancak bu duyarlıkta bir arama
işi başından aşkın bir doktorun ya da mühendisin çalışmasına
faydalı olabilir.
İLERİ ARAŞTIRMA ARACI - INTERNET ÜZERİNDEN
Bir örnek olarak KANDEL'in 1230 sayfalık PRINCIPLES OF NEURAL SCIENCE
kitabını alarak geliştirdiğim İleri Araştırma Aracı programını
intener üzerinden çalışır hale getirdim.
Uygun bir internet konumu bulabilirsem sizlerin de internet üzerinden
kullanımınıza açacağım. Şimdilik yalnız ilgili resimleri sunuyorum.
Bundan sonra talebe bağlı olarak FAA Aircraft Maintenance Manual'ı
yapacağım. Ayrıca bu aracı geliştirmek amacı ile, eşanlamlı kelimeler,
cümle içi alt cümleler, ve
http://tekne-techne.blogspot.com.tr/2014/10/kandelin-psikiyatri-kitab-icin-ileri.html
yazımda belirttiğim yönde ilerleyeceğim.
Bir aramanın başarılı olması bir takım anahtar kelimelere yakınlıktan öte
onların belirttiği anlam ve kavramların aranıp bulunmasına bağlıdır.
Ancak bu tür bir arama binlerce sayfalık referans metinler içinden
bir kaç sonucu eleyip çıkartabilir. Ancak bu duyarlıkta bir arama
işi başından aşkın bir doktorun ya da mühendisin çalışmasına
faydalı olabilir.
Friday, 17 October 2014
Advanced Search Tool for KANDEL's Principles of Neural Science (INTRO)
Advanced Search Tool for KANDEL's Principles of Neural Science
This tool searches KANDEL's book for two words and if it catches
the occurrence of these words within a given depth in terms of
sentence, page or chapter, it prints the related sentences.
As an option, you can search the figure texts or titles or
plain text sections only.
This tool searches KANDEL's book for two words and if it catches
the occurrence of these words within a given depth in terms of
sentence, page or chapter, it prints the related sentences.
As an option, you can search the figure texts or titles or
plain text sections only.
Wednesday, 1 October 2014
KANDEL'in Psikiyatri kitabı için İleri Arama Aracı
KANDEL'in PRICIPLES's of NEURAL SCIENCE adlı elimdeki PDF kitabı toplam 1230 sahife.
Principles of Neural Science, 4/e
Copyright © 2000 by The McGraw-Hill Companies,
Bu kitabı işlemeye uygun şekilde düzenleyip bir mySQL veri tabanına yükledim. Daha sonra bir örnek olarak, aynı cümle içinde geçen iki kelime kökünü arayan bir program yaptım.
Bu programla 'manic' ve 'lithium' kelimelerinin her ikisini de içeren cümleleri yazdırdım. İlgili
çıktı aşağıdadır. Daha sonra her iki kelimeyi aynı vererek, yalnızca 'manic' kelimesini içeren cümleleri arattırdım. İlgili çıktı aşağıdadır.
Kandel'in kitabını veri tabanına yüklerken yalnızca basit bir kelime kelime yüklemeden öte
cümle aidiyetini de belirlediğim için bu aramaları yaptırmak çok kolay oldu (1.5 yıllık NLP çabasından sonra (:-)
Veritabanına yükleme sırasında bilgi işlemekten öte, bilginin veri tabanında belirli bir düzen kazanması nedeni ile şimdi:
1-page num indication
2-chapter num indication
3-title-text
4-figure-text
5-paragraph num indication
bilgilerini de yine veritabanına eklemek mümkün.
Bunlardan başka:
1-wordtype (hazırlamış olduğum Webster sözlüğü veritabanından)
2-kelime ekinin belirlenmesi (Webster'den faydalanarak)
3-idiom-deyim kontrolü (Webster'den)
Yukarıdaki bilgileri kullanarak en son aşama:
4-phrase-tümleç belirlenmesi
5-cümle içindeki fonksiyon (özne,nesne, fiil, zarf vb).
Bu aşamaların hepsi geçilince arama işlevi basit bir kelimeden öte anlama yaklaşan işlevsellliğe kavuşabilir. Örneğin:
Ali okula gitti.
Ahmet Ali'ye gitti.
cümlelerinde Ali yer zarfı olarak aranırsa başka sonuç, özne olarak aranırsa başka sonuç çıkar.
Tabii, arama duyarlılığı bu kadar arttığında, kullanıcıyı olayın karışıklığından kurtarmak için
NLP ile yazılmış doğal dilli soruları anlayan bir kullanıcı arayüzü geliştirmek gerekir.
Bu arayüz ilk olarak, aynen yukarıdaki algoritmaları kullanarak soruyu parse ederek
Ali nereye gitti?
Ali[ÖZNE] nereye[yer zarfı-e,a] gitti[fiil-dili geçmiş]
şeklinde parse etmeli. Buradan çıkarttığı bilgi ile hem Ali kelimesini hem de onun ÖZNE işlevinde olanını vb aramalı.
KANDEL için geliştirdiğim bu İLERİ ARAMA ARACI, her türlü kitap için belirli bir uyarlama(paragraf,başlık stilleri vb) ile kullanılabilir.
Bu aracın kitap dönüştürme kısmını kullanıcıya vermeye gerek yok. Kullanıcı kitabını verecek ve kitabın dönüşmüş hali ile soru sorma aracı kısmını alacak. Kitabın ilgisiz kimselerin eline geçmemesi için de bir güvenlikönlemi olacak.
Saygılarımla.
SEARH 'MANIC' and 'LITHIUM' IN THE SAME SENTENCE---------------------------------------------
run:
38765. sentence = For example, manic-
depressive illness responds to lithium, but other mental illnesses do not.
•
39640. sentence = P.1215
P.1216
Lithium salts, first reported in the psychiatric treatment of manic-depressive illness in 1949 by John Cade, are effective in terminating manic episodes and are used
as mood stabilizers.
39641. sentence = Moreover, maintenance therapy with lithium is of significant prophylactic value in preventing or attenuating recurrent manic and, to a lesser
extent, depressive episodes.
40109. sentence = The treatment of manic psychoses by the administration of lithium salts.
BUILD SUCCESSFUL (total time: 3 minutes 6 seconds)
SEARCH SENTENCES WITH 'MANIC' ONLY -----------------------------------------------
run:
2012. sentence = Most common multigenic diseases, such as diabetes, coronary artery disease, asthma, schizophrenia,
P.56
and manic-depressive disorder, are thought to represent a variety of disorders both etiologically and genetically.
2081. sentence = Similarly, bipolar affective disorder (manic-depressive illness) frequently occurs in both siblings if they are monozygotic twins, but it occurs less frequently in both
siblings if they are dizygotic twins.
3774. sentence = Zemanick MC, Strick PL, Dix RD.
38765. sentence = For example, manic-
depressive illness responds to lithium, but other mental illnesses do not.
•
38828. sentence = Kraepelin called the second newly defined syndrome manic - depressive psychosis.
38860. sentence = In diagnosing schizophrenia it is important to exclude a disorder of mood, especially manic-depressive illness or a drug-induced psychosis resulting from the use of
amphetamine, PCP, or other psychostimulants.
38966. sentence = In 1951 this idea was tested by John Delay and Pierre Deniker, who found that a high dosage of
chlorpromazine calmed highly agitated and aggressive patients who had either schizophrenic or manic depressive symptoms.
39546. sentence = Bipolar Depressive (Manic-Depressive) Disorders Give Rise to Alternating Euphoria and Depression
About 25% of patients with major depression (or two million people in the United States) will also experience a manic episode, if only a mild one.
39547. sentence = Patients who
experience both depressive and manic episodes have a distinct disorder called bipolar mood disorder.
39552. sentence = The manic episodes are characterized by an elevated, expansive, or
irritable mood lasting at least one week, together with several of the following symptoms:
39563. sentence = During the depressive phase of the bipolar disease activity is decreased, while during the manic phase it is increased.
39569. sentence = Seymour Kety, Paul Wender, and David Rosenthal extended their studies of patterns of schizophrenia in the families of adoptees (Chapter 60) to include manic-
depressive disorders.
39570. sentence = They found that the rate of mood disorders among the biological parents of adoptees with depressive or manic-depressive illness was higher
than among the adoptive parents (and higher than the rate among biological and adoptive parents of mentally healthy adoptees).
39584. sentence = In contrast, in patients with bipolar disease this region shows an
increase in activity during the manic phase of the illness.
39598. sentence = Unipolar Depressive and Manic-Depressive Disorders Can Be Treated Effectively
There are four effective treatments for unipolar and bipolar illnesses:
39625. sentence = Patients with bipolar depression occasionally become manic during treatment with either class of antidepressant drugs.
39640. sentence = P.1215
P.1216
Lithium salts, first reported in the psychiatric treatment of manic-depressive illness in 1949 by John Cade, are effective in terminating manic episodes and are used
as mood stabilizers.
39641. sentence = Moreover, maintenance therapy with lithium is of significant prophylactic value in preventing or attenuating recurrent manic and, to a lesser
extent, depressive episodes.
39952. sentence = Manic-Depressive Illness.
40109. sentence = The treatment of manic psychoses by the administration of lithium salts.
41464. sentence = There is now substantial evidence that the susceptibility to major psychotic illnessesschizophrenia and manic-depressive disordersis heritable and is due to allelic
variations.
BUILD SUCCESSFUL (total time: 3 minutes 11 seconds)
Principles of Neural Science, 4/e
Copyright © 2000 by The McGraw-Hill Companies,
Bu kitabı işlemeye uygun şekilde düzenleyip bir mySQL veri tabanına yükledim. Daha sonra bir örnek olarak, aynı cümle içinde geçen iki kelime kökünü arayan bir program yaptım.
Bu programla 'manic' ve 'lithium' kelimelerinin her ikisini de içeren cümleleri yazdırdım. İlgili
çıktı aşağıdadır. Daha sonra her iki kelimeyi aynı vererek, yalnızca 'manic' kelimesini içeren cümleleri arattırdım. İlgili çıktı aşağıdadır.
Kandel'in kitabını veri tabanına yüklerken yalnızca basit bir kelime kelime yüklemeden öte
cümle aidiyetini de belirlediğim için bu aramaları yaptırmak çok kolay oldu (1.5 yıllık NLP çabasından sonra (:-)
Veritabanına yükleme sırasında bilgi işlemekten öte, bilginin veri tabanında belirli bir düzen kazanması nedeni ile şimdi:
1-page num indication
2-chapter num indication
3-title-text
4-figure-text
5-paragraph num indication
bilgilerini de yine veritabanına eklemek mümkün.
Bunlardan başka:
1-wordtype (hazırlamış olduğum Webster sözlüğü veritabanından)
2-kelime ekinin belirlenmesi (Webster'den faydalanarak)
3-idiom-deyim kontrolü (Webster'den)
Yukarıdaki bilgileri kullanarak en son aşama:
4-phrase-tümleç belirlenmesi
5-cümle içindeki fonksiyon (özne,nesne, fiil, zarf vb).
Bu aşamaların hepsi geçilince arama işlevi basit bir kelimeden öte anlama yaklaşan işlevsellliğe kavuşabilir. Örneğin:
Ali okula gitti.
Ahmet Ali'ye gitti.
cümlelerinde Ali yer zarfı olarak aranırsa başka sonuç, özne olarak aranırsa başka sonuç çıkar.
Tabii, arama duyarlılığı bu kadar arttığında, kullanıcıyı olayın karışıklığından kurtarmak için
NLP ile yazılmış doğal dilli soruları anlayan bir kullanıcı arayüzü geliştirmek gerekir.
Bu arayüz ilk olarak, aynen yukarıdaki algoritmaları kullanarak soruyu parse ederek
Ali nereye gitti?
Ali[ÖZNE] nereye[yer zarfı-e,a] gitti[fiil-dili geçmiş]
şeklinde parse etmeli. Buradan çıkarttığı bilgi ile hem Ali kelimesini hem de onun ÖZNE işlevinde olanını vb aramalı.
KANDEL için geliştirdiğim bu İLERİ ARAMA ARACI, her türlü kitap için belirli bir uyarlama(paragraf,başlık stilleri vb) ile kullanılabilir.
Bu aracın kitap dönüştürme kısmını kullanıcıya vermeye gerek yok. Kullanıcı kitabını verecek ve kitabın dönüşmüş hali ile soru sorma aracı kısmını alacak. Kitabın ilgisiz kimselerin eline geçmemesi için de bir güvenlikönlemi olacak.
Saygılarımla.
SEARH 'MANIC' and 'LITHIUM' IN THE SAME SENTENCE---------------------------------------------
run:
38765. sentence = For example, manic-
depressive illness responds to lithium, but other mental illnesses do not.
•
39640. sentence = P.1215
P.1216
Lithium salts, first reported in the psychiatric treatment of manic-depressive illness in 1949 by John Cade, are effective in terminating manic episodes and are used
as mood stabilizers.
39641. sentence = Moreover, maintenance therapy with lithium is of significant prophylactic value in preventing or attenuating recurrent manic and, to a lesser
extent, depressive episodes.
40109. sentence = The treatment of manic psychoses by the administration of lithium salts.
BUILD SUCCESSFUL (total time: 3 minutes 6 seconds)
SEARCH SENTENCES WITH 'MANIC' ONLY -----------------------------------------------
run:
2012. sentence = Most common multigenic diseases, such as diabetes, coronary artery disease, asthma, schizophrenia,
P.56
and manic-depressive disorder, are thought to represent a variety of disorders both etiologically and genetically.
2081. sentence = Similarly, bipolar affective disorder (manic-depressive illness) frequently occurs in both siblings if they are monozygotic twins, but it occurs less frequently in both
siblings if they are dizygotic twins.
3774. sentence = Zemanick MC, Strick PL, Dix RD.
38765. sentence = For example, manic-
depressive illness responds to lithium, but other mental illnesses do not.
•
38828. sentence = Kraepelin called the second newly defined syndrome manic - depressive psychosis.
38860. sentence = In diagnosing schizophrenia it is important to exclude a disorder of mood, especially manic-depressive illness or a drug-induced psychosis resulting from the use of
amphetamine, PCP, or other psychostimulants.
38966. sentence = In 1951 this idea was tested by John Delay and Pierre Deniker, who found that a high dosage of
chlorpromazine calmed highly agitated and aggressive patients who had either schizophrenic or manic depressive symptoms.
39546. sentence = Bipolar Depressive (Manic-Depressive) Disorders Give Rise to Alternating Euphoria and Depression
About 25% of patients with major depression (or two million people in the United States) will also experience a manic episode, if only a mild one.
39547. sentence = Patients who
experience both depressive and manic episodes have a distinct disorder called bipolar mood disorder.
39552. sentence = The manic episodes are characterized by an elevated, expansive, or
irritable mood lasting at least one week, together with several of the following symptoms:
39563. sentence = During the depressive phase of the bipolar disease activity is decreased, while during the manic phase it is increased.
39569. sentence = Seymour Kety, Paul Wender, and David Rosenthal extended their studies of patterns of schizophrenia in the families of adoptees (Chapter 60) to include manic-
depressive disorders.
39570. sentence = They found that the rate of mood disorders among the biological parents of adoptees with depressive or manic-depressive illness was higher
than among the adoptive parents (and higher than the rate among biological and adoptive parents of mentally healthy adoptees).
39584. sentence = In contrast, in patients with bipolar disease this region shows an
increase in activity during the manic phase of the illness.
39598. sentence = Unipolar Depressive and Manic-Depressive Disorders Can Be Treated Effectively
There are four effective treatments for unipolar and bipolar illnesses:
39625. sentence = Patients with bipolar depression occasionally become manic during treatment with either class of antidepressant drugs.
39640. sentence = P.1215
P.1216
Lithium salts, first reported in the psychiatric treatment of manic-depressive illness in 1949 by John Cade, are effective in terminating manic episodes and are used
as mood stabilizers.
39641. sentence = Moreover, maintenance therapy with lithium is of significant prophylactic value in preventing or attenuating recurrent manic and, to a lesser
extent, depressive episodes.
39952. sentence = Manic-Depressive Illness.
40109. sentence = The treatment of manic psychoses by the administration of lithium salts.
41464. sentence = There is now substantial evidence that the susceptibility to major psychotic illnessesschizophrenia and manic-depressive disordersis heritable and is due to allelic
variations.
BUILD SUCCESSFUL (total time: 3 minutes 11 seconds)
Sunday, 28 September 2014
Work in Progress - Advanced Search Tool for Professionals
Profesyonellerin kullandığı İngilizce teknik referans kitapların kullanımını kolaylaştıracak ve çok hızlandıracak İLERİ ARAMA ALETİ geliştirme çalışmam yeni bir aşamaya ulaştı.
Bu aşamada KANDEL'in ~1200 sayfalık psikiyatri referans kitabını bir MySQL tabanına attım. Aşağıda görüldüğü gibi her kelime için ayrı bir kayıt koydum. Ayrıca kelime bilgisini içeren sütundan önce bir başka sütunda S=space R=carriage return N=Newline gibi metinin
formatına ilişkin bilgileri koydum. Böylece, Kandel'in kitabının orjinalinde bir paragraf ya da satır sonu varsa veri tabanında bu bilgiyi de korumuş oldum.
Aşağıda 2006 cümle sıra nosu, alt-cümle sıras nosı, kelime sıra nosu, .S bir önceki cümlenin noktası ve boşluk, kelime ve kelime tanıtım sayısıdır.
System.out.println(sentenceCount+"\t"+sub_sentence_no+"\t"+word_no+"\t"+pre_word+"\t"+word
+"\t"+word_type+"\t"+word_id+"\t"+idiom+"\t"+phrase+"\t"+function);
Ayrıca, kelime tipi, deyim, tümleç ve cümle içindeki işlev belirtmek amacıyla alanlar bıraktım.
i=33761---->2006 0 0 .S As 0
i=33762---->2006 0 0 S in 0
i=33763---->2006 0 0 S Huntington 0
i=33764---->2006 0 0 S disease 0
i=33765---->2006 0 0 ,S progressive 0
i=33766---->2006 0 0 S death 0
i=33767---->2006 0 0 S of 0
i=33768---->2006 0 0 S specific 0
i=33769---->2006 0 0 SRN subpopulations 0
i=33770---->2006 0 0 S of 0
i=33771---->2006 0 0 S neurons 0
i=33772---->2006 0 0 S or 0
i=33773---->2006 0 0 S muscle 0
i=33774---->2006 0 0 S cells 0
i=33775---->2006 0 0 S occurs 0
i=33776---->2006 0 0 S in 0
i=33777---->2006 0 0 S many 0
i=33778---->2006 0 0 S of 0
i=33779---->2006 0 0 S these 0
i=33780---->2006 0 0 S diseases 0
sentenceCount=2006 SENTENCEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeee
As in Huntington disease, progressive death of specific
subpopulations of neurons or muscle cells occurs in many of these diseases.
Ek bir tabloda ise:
CREATE TABLE `kandelext` (
`WORD_SEQ` int(8) NOT NULL,
`SENTENCE_NO` int(6) NOT NULL,
`SUB_SENTENCE_NO` int(2) NOT NULL,
`WORD_NO` int(3) NOT NULL,
`TITLE` varchar(7) NOT NULL DEFAULT '',
`CHAPTER` varchar(8) NOT NULL DEFAULT '',
`PAGE_NO` varchar(8) NOT NULL,
`FIGURE_TEXT` varchar(5) DEFAULT NULL,
PRIMARY KEY (`SENTENCE_NO`,`SUB_SENTENCE_NO`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
Kelimenin bir başlık parçası, içinde bulunduğu bölüm ve sayfa nosu, şekil açıklaması parçası olduğuna ilişkin bilgiler olacak.
Şimdi, bu bilgileri, veri tabanına yazmış olduğum Kandel kaba verilerinden çıkarıp üretmek aşamasındayım. Sayfa no, kelime tipi, deyim vb nispeten kolay. Tümleç, cümle içindeki işlev çok zor.
Turkis Language Parser çalışmamdan edindiğim tecrübe ile, bu sefer çalışma sonuçlarını en kısa zamanda internette görünür kılmaya çalışacağım. İlk işim tek cümle içinde birden çok kelime bulmaya yönelik basit bit alet yapıp internetten ulaşılabilir kılmak, Kandel'in Psikiyatri referansı için...
i=33906---->2012 0 0 .RNRN Most 0
i=33907---->2012 0 0 S common 0
i=33908---->2012 0 0 S multigenic 0
i=33909---->2012 0 0 S diseases 0
i=33910---->2012 0 0 ,S such 0
i=33911---->2012 0 0 S as 0
i=33912---->2012 0 0 S diabetes 0
i=33913---->2012 0 0 ,S coronary 0
i=33914---->2012 0 0 S artery 0
i=33915---->2012 0 0 S disease 0
i=33916---->2012 0 0 ,S asthma 0
i=33917---->2012 0 0 ,S schizophrenia 0
i=33918---->2012 0 0 ,SRN P 0
ACRONYMMMMMMMmmmmmmmmmmmmmmmmmm
PAGEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeeeeeeeee
i=33919---->2012 0 0 . 56 0
i=33920---->2012 0 0 RN and 0
i=33921---->2012 0 0 S manic-depressive 0
i=33922---->2012 0 0 S disorder 0
i=33923---->2012 0 0 ,S are 0
i=33924---->2012 0 0 S thought 0
i=33925---->2012 0 0 S to 0
i=33926---->2012 0 0 S represent 0
i=33927---->2012 0 0 S a 0
i=33928---->2012 0 0 S variety 0
i=33929---->2012 0 0 S of 0
i=33930---->2012 0 0 S disorders 0
i=33931---->2012 0 0 S both 0
i=33932---->2012 0 0 S etiologically 0
i=33933---->2012 0 0 S and 0
i=33934---->2012 0 0 S genetically 0
sentenceCount=2012 SENTENCEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeee
Most common multigenic diseases, such as diabetes, coronary artery disease, asthma, schizophrenia,
P.56
and manic-depressive disorder, are thought to represent a variety of disorders both etiologically and genetically.
Bu aşamada KANDEL'in ~1200 sayfalık psikiyatri referans kitabını bir MySQL tabanına attım. Aşağıda görüldüğü gibi her kelime için ayrı bir kayıt koydum. Ayrıca kelime bilgisini içeren sütundan önce bir başka sütunda S=space R=carriage return N=Newline gibi metinin
formatına ilişkin bilgileri koydum. Böylece, Kandel'in kitabının orjinalinde bir paragraf ya da satır sonu varsa veri tabanında bu bilgiyi de korumuş oldum.
Aşağıda 2006 cümle sıra nosu, alt-cümle sıras nosı, kelime sıra nosu, .S bir önceki cümlenin noktası ve boşluk, kelime ve kelime tanıtım sayısıdır.
System.out.println(sentenceCount+"\t"+sub_sentence_no+"\t"+word_no+"\t"+pre_word+"\t"+word
+"\t"+word_type+"\t"+word_id+"\t"+idiom+"\t"+phrase+"\t"+function);
Ayrıca, kelime tipi, deyim, tümleç ve cümle içindeki işlev belirtmek amacıyla alanlar bıraktım.
i=33761---->2006 0 0 .S As 0
i=33762---->2006 0 0 S in 0
i=33763---->2006 0 0 S Huntington 0
i=33764---->2006 0 0 S disease 0
i=33765---->2006 0 0 ,S progressive 0
i=33766---->2006 0 0 S death 0
i=33767---->2006 0 0 S of 0
i=33768---->2006 0 0 S specific 0
i=33769---->2006 0 0 SRN subpopulations 0
i=33770---->2006 0 0 S of 0
i=33771---->2006 0 0 S neurons 0
i=33772---->2006 0 0 S or 0
i=33773---->2006 0 0 S muscle 0
i=33774---->2006 0 0 S cells 0
i=33775---->2006 0 0 S occurs 0
i=33776---->2006 0 0 S in 0
i=33777---->2006 0 0 S many 0
i=33778---->2006 0 0 S of 0
i=33779---->2006 0 0 S these 0
i=33780---->2006 0 0 S diseases 0
sentenceCount=2006 SENTENCEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeee
As in Huntington disease, progressive death of specific
subpopulations of neurons or muscle cells occurs in many of these diseases.
Ek bir tabloda ise:
CREATE TABLE `kandelext` (
`WORD_SEQ` int(8) NOT NULL,
`SENTENCE_NO` int(6) NOT NULL,
`SUB_SENTENCE_NO` int(2) NOT NULL,
`WORD_NO` int(3) NOT NULL,
`TITLE` varchar(7) NOT NULL DEFAULT '',
`CHAPTER` varchar(8) NOT NULL DEFAULT '',
`PAGE_NO` varchar(8) NOT NULL,
`FIGURE_TEXT` varchar(5) DEFAULT NULL,
PRIMARY KEY (`SENTENCE_NO`,`SUB_SENTENCE_NO`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
Kelimenin bir başlık parçası, içinde bulunduğu bölüm ve sayfa nosu, şekil açıklaması parçası olduğuna ilişkin bilgiler olacak.
Şimdi, bu bilgileri, veri tabanına yazmış olduğum Kandel kaba verilerinden çıkarıp üretmek aşamasındayım. Sayfa no, kelime tipi, deyim vb nispeten kolay. Tümleç, cümle içindeki işlev çok zor.
Turkis Language Parser çalışmamdan edindiğim tecrübe ile, bu sefer çalışma sonuçlarını en kısa zamanda internette görünür kılmaya çalışacağım. İlk işim tek cümle içinde birden çok kelime bulmaya yönelik basit bit alet yapıp internetten ulaşılabilir kılmak, Kandel'in Psikiyatri referansı için...
i=33906---->2012 0 0 .RNRN Most 0
i=33907---->2012 0 0 S common 0
i=33908---->2012 0 0 S multigenic 0
i=33909---->2012 0 0 S diseases 0
i=33910---->2012 0 0 ,S such 0
i=33911---->2012 0 0 S as 0
i=33912---->2012 0 0 S diabetes 0
i=33913---->2012 0 0 ,S coronary 0
i=33914---->2012 0 0 S artery 0
i=33915---->2012 0 0 S disease 0
i=33916---->2012 0 0 ,S asthma 0
i=33917---->2012 0 0 ,S schizophrenia 0
i=33918---->2012 0 0 ,SRN P 0
ACRONYMMMMMMMmmmmmmmmmmmmmmmmmm
PAGEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeeeeeeeee
i=33919---->2012 0 0 . 56 0
i=33920---->2012 0 0 RN and 0
i=33921---->2012 0 0 S manic-depressive 0
i=33922---->2012 0 0 S disorder 0
i=33923---->2012 0 0 ,S are 0
i=33924---->2012 0 0 S thought 0
i=33925---->2012 0 0 S to 0
i=33926---->2012 0 0 S represent 0
i=33927---->2012 0 0 S a 0
i=33928---->2012 0 0 S variety 0
i=33929---->2012 0 0 S of 0
i=33930---->2012 0 0 S disorders 0
i=33931---->2012 0 0 S both 0
i=33932---->2012 0 0 S etiologically 0
i=33933---->2012 0 0 S and 0
i=33934---->2012 0 0 S genetically 0
sentenceCount=2012 SENTENCEEEEEEEEEEEEEEEEEEEEEEeeeeeeeeeeeeeee
Most common multigenic diseases, such as diabetes, coronary artery disease, asthma, schizophrenia,
P.56
and manic-depressive disorder, are thought to represent a variety of disorders both etiologically and genetically.
Monday, 1 September 2014
word types extracted from WEBSTER DICTIONARY(1910)
/**
* word types extracted from WEBSTER DICTIONARY(1910) with webst9 JAVACC Parser
* and other JAVA programs by: Ali Riza SARAL
*
* Copyright (C) 2014 Ali Riza SARAL
* Copyright (C) Creative Commons - Attribution-NonCommercial-NoDerivs 3.0 Unported
*
* You are not allowed to use this word types dictionary without getting
* prior written consent from me. I will be supporting non-profit efforts.
*
* Author: Ali Riza SARAL
* E-mail: arsaral (at) yahoo.com
* Date: 1/8/2014
*
* This dictionary is produced by parsing WEBSTER DICTIONARY's 1910 version as input
* writing a JAVACC parser which can handle the complete dictionary and
* extract only word types. A JAVA program is used to extract p. p. of xxxx
* xxxx values and synnonyms again from the main input file WEBSTER dictionary.
* The first parsing output is used to get the anchor points in the dictionary.
* The anchor points are ıused by the batch JAVA program to extract detail info.
* The output at this point is parsed again to produce the semi-final output as
* is below. This semi-final output will be used to put the wordtype data into
* a mySQL database.
*
* I will use this DB data to extract wordtypes of books both word and context(functional)wise.
* This data will be used to extract meaning and advanced search very thick reference books
* in medicine and aviation.
*
* You can find in depth analysis and examples o(f|n) this parser at
* http://tekne-techne.blogspot.com/
*/
http://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
* word types extracted from WEBSTER DICTIONARY(1910) with webst9 JAVACC Parser
* and other JAVA programs by: Ali Riza SARAL
*
* Copyright (C) 2014 Ali Riza SARAL
* Copyright (C) Creative Commons - Attribution-NonCommercial-NoDerivs 3.0 Unported
*
* You are not allowed to use this word types dictionary without getting
* prior written consent from me. I will be supporting non-profit efforts.
*
* Author: Ali Riza SARAL
* E-mail: arsaral (at) yahoo.com
* Date: 1/8/2014
*
* This dictionary is produced by parsing WEBSTER DICTIONARY's 1910 version as input
* writing a JAVACC parser which can handle the complete dictionary and
* extract only word types. A JAVA program is used to extract p. p. of xxxx
* xxxx values and synnonyms again from the main input file WEBSTER dictionary.
* The first parsing output is used to get the anchor points in the dictionary.
* The anchor points are ıused by the batch JAVA program to extract detail info.
* The output at this point is parsed again to produce the semi-final output as
* is below. This semi-final output will be used to put the wordtype data into
* a mySQL database.
*
* I will use this DB data to extract wordtypes of books both word and context(functional)wise.
* This data will be used to extract meaning and advanced search very thick reference books
* in medicine and aviation.
*
* You can find in depth analysis and examples o(f|n) this parser at
* http://tekne-techne.blogspot.com/
*/
http://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
Thursday, 5 June 2014
LANGANA Türkçe parser projesinde son durum Haz 2014
LANGANA Türkçe yazıları okuyup ilgili soruları cevaplayan bilgisayar programı çalışmamda en son ÖZNE ile NESNE'yi diğer kelimelerden ayırmıştım. Daha sonra, bu çalışmanın sonuçlarını kullanarak ÖZNE ile NESNE'yi birbirlerinden ayırma çalışmasına başlamıştım.
LANGANA - ÖZNE ile NESNE ayrımı yapan programım başarı ile bitmeye yaklaşıyor.
Bu çalışmamın sonunda, STEINBECK'in "Farelere ve İnsanlara Dair" kitabının ilk
1000 cümlesi aşağıdaki şekilde minimum hata ile çıkmış olacak. Elde iki dosya olacak.
Bir dosya yalnız (özne) ve {nesne} şeklinde cümleleri ve cümle numarasını verecek.
İkinci dosyada bu cümle nosunu kullanarak, yapılan işlemlerin ayrıntılarına erişilecek.
Bir örnek olması için en altta bir örneğin iki türlü bilgilerini sundum.
Daha sonra, ÖZNE-NESNE ayrımında deyimin son kelimesinin tespit edilmiş olmasından
faydalanarak ÖZNE ve NESNE'yi oluşturan kelime grupları belirlenecek. Böylece
ÖZNE ve NESNE belirleme çalışması tamamlanmış olacak.
Bir ara aşama olarak bu ana kadar yapılmış olan bütün LANGANA modüllerinin temizlenmesi
düzenlenmesi gerekiyor.
Daha sonra, elde edilmiş olan ÖZNE, NESNE ve FİİL/FİİLİMSİ'den faydalanarak
yer-zaman TÜMLEÇLERİ ve diğer TÜMLEÇLER belirlenecek.
Bu aşamaya ulaşınca, "Farelere ve İnsanlara Dair" kitabının tümünü bir pseudo dile
dönüştürmüş olacağım. LANAGANA bu ara mamül kitabı kullanarak, bu kitaba ilişkin
sorulara doğru cevap verecek. Demo amaçlı, bir WEB arayüzü yazmak gerekecek.
Türkçe - İngilizce tercüme makinası yazma çalışması da bu aşamadan sonra başlayacak.
468------------------------------------------------------------
Âdi keten bezinden mavi renkte bir {tulum} giymiş,
sol elinde kocaman bir {süpürge} vardı,
ihtiyarın arkasından (George),
onun
da arkasından (Lennie) içeri girmişlerdi,
(ihtiyar):
(Patron),
dün gece geleceksiniz diye bekliyordu,
dedi
285------------------------------------------------------------
Lennienin (yüzü),
dehşetten şekil
ve {ifadesini} kayıp etmişti
274------------------------------------------------------------
(Lennie),
yanan ateşin üstünden,
karşısında duran Georgea bakarak sabırlı bir sesle:
(Ben) {fasulyeyi} domates salçasıyla severim,
dedi
400------------------------------------------------------------
(George) biraz durduktan sonra:
(Ben)
de
amma
da saçmalıyorum ha,
dedi
ve cebinden {çakısını} çıkararak:
Artık alt {tarafını} anlatmaya {vaktim} yok,
diye ilâve etti
320------------------------------------------------------------
Bir an {gözlerini} ateşten ayırarak ırmağın karşı tarafındaki karanlıklara baktı
ve:
George,
dedi,
{seni} bırakıp gitmemi,
{seni} yalnız başına {bırakmamı} mı istiyorsun
SENTENCE NO = 439 *************28**167*****************************************
439------------------------------------------------------------
Ateşin (alevleri) alçaldıkça aydınlık (yerler) azalıyordu;
eğri (dallar) artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin {seçilmesi} mümkün olabiliyordu
buf_sub_struct_list()------------------------------------------------------------
439 0 SENTENCE( SUB(
439 0 0 3569 İsim null Ateş nounExt in %%?in% null null null
ÖZNE-NESNE =====> alevleri
ARS i=1 k=1
439 1 0 1722 İsim null alev nounExt leri #ler%%?i% null null null
439 2 0 1652 Fiil nsz alçal nounFromVerbExt dıkça -dı-k-ça null null null
ÖZNE-NESNE =====> aydınlık yerler
ARS i=3 k=2
439 3 0 3924 İsim null aydınlık null null null null null null
439 4 0 56679 İsim null yer nounExt ler #ler%%% null null null
439 5 0 4152 Fiil nsz azal verbExt ıyordu ::-ıyor-du: null null null
439 6 ;SUB(
439 6 0 15642 Sıfat null eğri null null null null null null
ÖZNE-NESNE =====> dallar
ARS i=7 k=1
439 7 0 11896 İsim null dal nounExt lar #lar%%% null null null
439 8 0 3113 Sıfat null artık null null null null null null
439 9 0 20376 Fiil nsz,-e görün nounFromVerbExt memeye -meme-ye null null null
439 10 0 5335 Fiil -e başla verbExt mış ::-mış: null null null
439 11 ,SUB(
439 11 0 48754 Zarf null şimdi null null null null null null
439 12 0 43474 Zarf null sadece null null null null null null
439 13 0 21315 Sıfat null hafif null null null null null null
439 14 0 6880 İsim null bir null null null null null null
439 15 0 40853 İsim null parıltı nounExt dan %%%&dan null null null
439 16 0 23888 Sıfat null ibaret null null null null null null
439 17 0 27013 Fiil nsz kal adjectiveFromVerbExt an .an null null null
439 18 0 3569 İsim null ateş nounExt te %%%&te null null null
439 19 ==>CONJUNCTSUB(
439 19 0 2311 Bağlaç null ancak null null null null null null
439 20 0 729 İsim null ağaç null null null null null null
439 21 0 20457 İsim null gövde nounExt lerinin #ler%%?in%?in null null null
ÖZNE-NESNE =====> seçilmesi
ARS i=22 k=1
439 22 0 44676 Fiil nsz seçil nounFromVerbExt mesi -me-si null null null
439 23 0 37261 Fiil null mümkün null null null begFiil 37261 1
439 24 0 38929 Fiil nsz ol verbExt abiliyordu +abil::-iyor-du: endFiil 37261 1
439 25 .END-SENTENCE)
buf_verbose_list()------------------------------------------------------------
Ateşin alevleri alçaldıkça aydınlık yerler azalıyordu;
eğri dallar artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin seçilmesi mümkün olabiliyordu
buf_struct_only_list()------------------------------------------------------------
SENTENCE( SUB(
439 0 ateş in
439 1 alev leri begso ending-ext=leri
439 2 alçal dıkça ------------nounFromVerb type=nsz
439 3 aydınlık begso
439 4 yer ler endso ending-ext=ler
439 5 azal ıyordu --------------------verbExt type=nsz
;SUB(
439 6 eğri
439 7 dal lar begso ending-ext=lar
439 8 artık
439 9 görün memeye ------------nounFromVerb type=nsz,-e
439 10 başla mış --------------------verbExt type=-e
,SUB(
439 11 şimdi
439 12 sadece
439 13 hafif
439 14 bir
439 15 parıltı dan
439 16 ibaret
439 17 kal an ------------adjectiveFromVerb type=nsz
439 18 ateş te
==>CONJUNCTSUB(
439 19 ancak
439 20 ağaç
439 21 gövde lerinin
439 22 seçil mesi begso ending-ext=mesi------------nounFromVerb type=nsz
439 23 mümkün
439 24 ol abiliyordu --------------------verbExt type=nsz
.END-SENTENCE)
439 25
Process structure*****************************
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
439 0 ateş in
439 1 alev leri begso ending-ext=leri
439 2 alçal dıkça ------------nounFromVerb type=nsz #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=1 alev leri alçal dıkça nsz--->MULTI CONJ=1 0 0
ÖZNE nszzzzezezez3
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
439 3 aydınlık begso
439 4 yer ler endso ending-ext=ler
439 5 azal ıyordu --------------------verbExt type=nsz #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=4 yer ler azal ıyordu nsz--->MULTI CONJ=1 0 0
ÖZNE nszzze1
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
;SUB(
439 6 eğri
439 7 dal lar begso ending-ext=lar
439 8 artık
439 9 görün memeye ------------nounFromVerb type=nsz,-e #endSO=1 #punct=1 #conj=0
439 10 başla mış --------------------verbExt type=-e #endSO=1 #punct=1 #conj=0
---------------------------------------------Phenemonon List
phenom data[2]=7 dal lar başla mış -e--->MULTI CONJ=1 1 0
ÖZNE nszzze1
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
,SUB(
439 11 şimdi
439 12 sadece
439 13 hafif
439 14 bir
439 15 parıltı dan
439 16 ibaret
439 17 kal an ------------adjectiveFromVerb type=nsz #endSO=0 #punct=1 #conj=0
439 18 ateş te
==>CONJUNCTSUB(
439 19 ancak
439 20 ağaç
439 21 gövde lerinin
439 22 seçil mesi begso ending-ext=mesi------------nounFromVerb type=nsz #endSO=1 #punct=1 #conj=1
439 23 mümkün --------------------verbRoot type=null #endSO=1 #punct=1 #conj=1
439 24 ol abiliyordu --------------------verbExt type=nsz #endSO=1 #punct=1 #conj=1
---------------------------------------------Phenemonon List
phenom data[3]=22 seçil mesi ol abiliyordu nsz--->MULTI CONJ=1 1 1
NESNE nszzzzezezez3
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
439------------------------------------------------------------
439------------------------------------------------------------
Ateşin (alevleri) alçaldıkça aydınlık (yerler) azalıyordu;
eğri (dallar) artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin {seçilmesi} mümkün olabiliyordu
LANGANA - ÖZNE ile NESNE ayrımı yapan programım başarı ile bitmeye yaklaşıyor.
Bu çalışmamın sonunda, STEINBECK'in "Farelere ve İnsanlara Dair" kitabının ilk
1000 cümlesi aşağıdaki şekilde minimum hata ile çıkmış olacak. Elde iki dosya olacak.
Bir dosya yalnız (özne) ve {nesne} şeklinde cümleleri ve cümle numarasını verecek.
İkinci dosyada bu cümle nosunu kullanarak, yapılan işlemlerin ayrıntılarına erişilecek.
Bir örnek olması için en altta bir örneğin iki türlü bilgilerini sundum.
Daha sonra, ÖZNE-NESNE ayrımında deyimin son kelimesinin tespit edilmiş olmasından
faydalanarak ÖZNE ve NESNE'yi oluşturan kelime grupları belirlenecek. Böylece
ÖZNE ve NESNE belirleme çalışması tamamlanmış olacak.
Bir ara aşama olarak bu ana kadar yapılmış olan bütün LANGANA modüllerinin temizlenmesi
düzenlenmesi gerekiyor.
Daha sonra, elde edilmiş olan ÖZNE, NESNE ve FİİL/FİİLİMSİ'den faydalanarak
yer-zaman TÜMLEÇLERİ ve diğer TÜMLEÇLER belirlenecek.
Bu aşamaya ulaşınca, "Farelere ve İnsanlara Dair" kitabının tümünü bir pseudo dile
dönüştürmüş olacağım. LANAGANA bu ara mamül kitabı kullanarak, bu kitaba ilişkin
sorulara doğru cevap verecek. Demo amaçlı, bir WEB arayüzü yazmak gerekecek.
Türkçe - İngilizce tercüme makinası yazma çalışması da bu aşamadan sonra başlayacak.
468------------------------------------------------------------
Âdi keten bezinden mavi renkte bir {tulum} giymiş,
sol elinde kocaman bir {süpürge} vardı,
ihtiyarın arkasından (George),
onun
da arkasından (Lennie) içeri girmişlerdi,
(ihtiyar):
(Patron),
dün gece geleceksiniz diye bekliyordu,
dedi
285------------------------------------------------------------
Lennienin (yüzü),
dehşetten şekil
ve {ifadesini} kayıp etmişti
274------------------------------------------------------------
(Lennie),
yanan ateşin üstünden,
karşısında duran Georgea bakarak sabırlı bir sesle:
(Ben) {fasulyeyi} domates salçasıyla severim,
dedi
400------------------------------------------------------------
(George) biraz durduktan sonra:
(Ben)
de
amma
da saçmalıyorum ha,
dedi
ve cebinden {çakısını} çıkararak:
Artık alt {tarafını} anlatmaya {vaktim} yok,
diye ilâve etti
320------------------------------------------------------------
Bir an {gözlerini} ateşten ayırarak ırmağın karşı tarafındaki karanlıklara baktı
ve:
George,
dedi,
{seni} bırakıp gitmemi,
{seni} yalnız başına {bırakmamı} mı istiyorsun
SENTENCE NO = 439 *************28**167*****************************************
439------------------------------------------------------------
Ateşin (alevleri) alçaldıkça aydınlık (yerler) azalıyordu;
eğri (dallar) artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin {seçilmesi} mümkün olabiliyordu
buf_sub_struct_list()------------------------------------------------------------
439 0 SENTENCE( SUB(
439 0 0 3569 İsim null Ateş nounExt in %%?in% null null null
ÖZNE-NESNE =====> alevleri
ARS i=1 k=1
439 1 0 1722 İsim null alev nounExt leri #ler%%?i% null null null
439 2 0 1652 Fiil nsz alçal nounFromVerbExt dıkça -dı-k-ça null null null
ÖZNE-NESNE =====> aydınlık yerler
ARS i=3 k=2
439 3 0 3924 İsim null aydınlık null null null null null null
439 4 0 56679 İsim null yer nounExt ler #ler%%% null null null
439 5 0 4152 Fiil nsz azal verbExt ıyordu ::-ıyor-du: null null null
439 6 ;SUB(
439 6 0 15642 Sıfat null eğri null null null null null null
ÖZNE-NESNE =====> dallar
ARS i=7 k=1
439 7 0 11896 İsim null dal nounExt lar #lar%%% null null null
439 8 0 3113 Sıfat null artık null null null null null null
439 9 0 20376 Fiil nsz,-e görün nounFromVerbExt memeye -meme-ye null null null
439 10 0 5335 Fiil -e başla verbExt mış ::-mış: null null null
439 11 ,SUB(
439 11 0 48754 Zarf null şimdi null null null null null null
439 12 0 43474 Zarf null sadece null null null null null null
439 13 0 21315 Sıfat null hafif null null null null null null
439 14 0 6880 İsim null bir null null null null null null
439 15 0 40853 İsim null parıltı nounExt dan %%%&dan null null null
439 16 0 23888 Sıfat null ibaret null null null null null null
439 17 0 27013 Fiil nsz kal adjectiveFromVerbExt an .an null null null
439 18 0 3569 İsim null ateş nounExt te %%%&te null null null
439 19 ==>CONJUNCTSUB(
439 19 0 2311 Bağlaç null ancak null null null null null null
439 20 0 729 İsim null ağaç null null null null null null
439 21 0 20457 İsim null gövde nounExt lerinin #ler%%?in%?in null null null
ÖZNE-NESNE =====> seçilmesi
ARS i=22 k=1
439 22 0 44676 Fiil nsz seçil nounFromVerbExt mesi -me-si null null null
439 23 0 37261 Fiil null mümkün null null null begFiil 37261 1
439 24 0 38929 Fiil nsz ol verbExt abiliyordu +abil::-iyor-du: endFiil 37261 1
439 25 .END-SENTENCE)
buf_verbose_list()------------------------------------------------------------
Ateşin alevleri alçaldıkça aydınlık yerler azalıyordu;
eğri dallar artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin seçilmesi mümkün olabiliyordu
buf_struct_only_list()------------------------------------------------------------
SENTENCE( SUB(
439 0 ateş in
439 1 alev leri begso ending-ext=leri
439 2 alçal dıkça ------------nounFromVerb type=nsz
439 3 aydınlık begso
439 4 yer ler endso ending-ext=ler
439 5 azal ıyordu --------------------verbExt type=nsz
;SUB(
439 6 eğri
439 7 dal lar begso ending-ext=lar
439 8 artık
439 9 görün memeye ------------nounFromVerb type=nsz,-e
439 10 başla mış --------------------verbExt type=-e
,SUB(
439 11 şimdi
439 12 sadece
439 13 hafif
439 14 bir
439 15 parıltı dan
439 16 ibaret
439 17 kal an ------------adjectiveFromVerb type=nsz
439 18 ateş te
==>CONJUNCTSUB(
439 19 ancak
439 20 ağaç
439 21 gövde lerinin
439 22 seçil mesi begso ending-ext=mesi------------nounFromVerb type=nsz
439 23 mümkün
439 24 ol abiliyordu --------------------verbExt type=nsz
.END-SENTENCE)
439 25
Process structure*****************************
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
439 0 ateş in
439 1 alev leri begso ending-ext=leri
439 2 alçal dıkça ------------nounFromVerb type=nsz #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=1 alev leri alçal dıkça nsz--->MULTI CONJ=1 0 0
ÖZNE nszzzzezezez3
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
439 3 aydınlık begso
439 4 yer ler endso ending-ext=ler
439 5 azal ıyordu --------------------verbExt type=nsz #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=4 yer ler azal ıyordu nsz--->MULTI CONJ=1 0 0
ÖZNE nszzze1
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
;SUB(
439 6 eğri
439 7 dal lar begso ending-ext=lar
439 8 artık
439 9 görün memeye ------------nounFromVerb type=nsz,-e #endSO=1 #punct=1 #conj=0
439 10 başla mış --------------------verbExt type=-e #endSO=1 #punct=1 #conj=0
---------------------------------------------Phenemonon List
phenom data[2]=7 dal lar başla mış -e--->MULTI CONJ=1 1 0
ÖZNE nszzze1
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
,SUB(
439 11 şimdi
439 12 sadece
439 13 hafif
439 14 bir
439 15 parıltı dan
439 16 ibaret
439 17 kal an ------------adjectiveFromVerb type=nsz #endSO=0 #punct=1 #conj=0
439 18 ateş te
==>CONJUNCTSUB(
439 19 ancak
439 20 ağaç
439 21 gövde lerinin
439 22 seçil mesi begso ending-ext=mesi------------nounFromVerb type=nsz #endSO=1 #punct=1 #conj=1
439 23 mümkün --------------------verbRoot type=null #endSO=1 #punct=1 #conj=1
439 24 ol abiliyordu --------------------verbExt type=nsz #endSO=1 #punct=1 #conj=1
---------------------------------------------Phenemonon List
phenom data[3]=22 seçil mesi ol abiliyordu nsz--->MULTI CONJ=1 1 1
NESNE nszzzzezezez3
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
439------------------------------------------------------------
439------------------------------------------------------------
Ateşin (alevleri) alçaldıkça aydınlık (yerler) azalıyordu;
eğri (dallar) artık görünmemeye başlamış,
şimdi sadece hafif bir parıltıdan ibaret kalan ateşte
ancak ağaç gövdelerinin {seçilmesi} mümkün olabiliyordu
Tuesday, 20 May 2014
LANGANA-E İngilizce cümle parçalayıcısında son gelişmeler
Güzel haber! LANGANA-e İngilizce parser projemde WEBSTER ingilizce sözlükten parse ile kelime tiplerini ayırma çalışmamda
yaklaşık 60 bin kelime ve yaklaşık 470 bin sözlük saturuna ulaştım. WEBSTER sözlüğün tümü 1 milyon satır.
Çalışmamın sonuçlarını SOURCE-FORGE'ta yayınlamaya devam ediyorum.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
Bu çalışmanın önemi İngilizce'de NLP uygulaması olarak yapılacak bütün çalışmalar kelime tiplerine ihtiyaç duyar.
Sanıyorum, yaptığım kelime tipi çalışması bir çok kişinin işine yarayacak.
Çalışmam tamamlandıktan sonra, 100 bin satırlık bir kısmını eksik olarak yayınlayıp, ilgilenenlerin e-mail ile
başvurmalarını ve kullanım amaçlarının ticari olmamasını rica edeceğim.
Ali R+
Not: Türkçe'de ÖZNE - NESNE ayrımı umduğumun çok üstünde zorluklar içeriyormuş. Sağlam ama yavaş bir ilerleme ile
tek nesen/özne içeren fiilimsi/fiil gruplarında ayrım yapabiliyorum. Bir örnek:
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık
730 2 tasla yan ------------adjectiveFromVerb type=-i
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok
730 8 gör düm --------------------verbExt type=-i
.END-SENTENCE)
730 9
Process structure*****************************
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 2 tasla yan ------------adjectiveFromVerb type=-i #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=0 ben null tasla yan -i ÖZNE ö ö ö genel3--->MULTI CONJ=1 0 0
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 8 gör düm --------------------verbExt type=-i #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=6 insan ları gör düm -i--->MULTI CONJ=1 0 0
NESNE -ii-ii-ii-ii-ii-ii-ii-ii-ii
yaklaşık 60 bin kelime ve yaklaşık 470 bin sözlük saturuna ulaştım. WEBSTER sözlüğün tümü 1 milyon satır.
Çalışmamın sonuçlarını SOURCE-FORGE'ta yayınlamaya devam ediyorum.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
Bu çalışmanın önemi İngilizce'de NLP uygulaması olarak yapılacak bütün çalışmalar kelime tiplerine ihtiyaç duyar.
Sanıyorum, yaptığım kelime tipi çalışması bir çok kişinin işine yarayacak.
Çalışmam tamamlandıktan sonra, 100 bin satırlık bir kısmını eksik olarak yayınlayıp, ilgilenenlerin e-mail ile
başvurmalarını ve kullanım amaçlarının ticari olmamasını rica edeceğim.
Ali R+
Not: Türkçe'de ÖZNE - NESNE ayrımı umduğumun çok üstünde zorluklar içeriyormuş. Sağlam ama yavaş bir ilerleme ile
tek nesen/özne içeren fiilimsi/fiil gruplarında ayrım yapabiliyorum. Bir örnek:
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık
730 2 tasla yan ------------adjectiveFromVerb type=-i
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok
730 8 gör düm --------------------verbExt type=-i
.END-SENTENCE)
730 9
Process structure*****************************
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
SENTENCE( SUB(
730 0 ben begso ending-ext=null
730 1 kabadayılık --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 2 tasla yan ------------adjectiveFromVerb type=-i #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=0 ben null tasla yan -i ÖZNE ö ö ö genel3--->MULTI CONJ=1 0 0
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;FORWARD SCAN
730 3 ufak
730 4 tefek
730 5 yapıd a
730 6 insan ları begso ending-ext=ları
730 7 çok --------------------verbRoot type=null #endSO=1 #punct=0 #conj=0
730 8 gör düm --------------------verbExt type=-i #endSO=1 #punct=0 #conj=0
---------------------------------------------Phenemonon List
phenom data[1]=6 insan ları gör düm -i--->MULTI CONJ=1 0 0
NESNE -ii-ii-ii-ii-ii-ii-ii-ii-ii
Friday, 9 May 2014
LANGANA-E İngilizce cümle parçalayıcısı programı ilerliyor Mayıs 2014
Güzel haber! Webster Dictionary'nin S-T-U-V harfleri ile başlayan kelimelerini parse ettim, daha önceki W-X-Y-Z'in üstüne. W-X-Y-Z açıklamalarının toplamı 33 bin civarındaydı. S-T-U-V ise s=116 bin, T=52 bin, U=19 bin, V=17 bin satır, toplam S-T-U-V=204 bin tutuyor.
Webster Dictionary'nin toplam açıklama satır sayısı 1 milyon civarında. Şimdiye kadar benim parse ettiğim miktar 238 bin civarında. Güzel haber artık parserı değiştirmekten çok Webster'in edit kurallarına uymayan durumları temizlemekle uğraşıyorum. Başlangıçta 300-400 satırlık ilerlemelr vardı şimdi 4 bin satıra kadar sıçramalar olabiliyor. Tahminim en geç 1-2 ay içinde İngilizce sözlük veritabanı hazırlama çalışmam bitmiş
olacak.
Hazırlayacağım veri tabanı (şu anda da) İngilizce kelimlerin tiplerinin ve tekil-çoğul, transitive-intransitive gibi bilgileri içerecek. Şu ana kadar ki çalışmamda deneme olarak kelime tiplerini seçip kolaylıkla döktürdüm. Yaklaşık 30 bin kelime için.
Amacım bu sözlüğü kullanarak bir İngilizce cümle parserı yazmak. Bu parser ile parse ettiğim İngilizce metinleri bir ara dile dönüştürüp, kullanıcının sorduğu ilgili soruları otomatik olarak cevaplamak.
Tıp kitapları cazip bir uygulama alanı olacak, hele WEsbter'in çok detaylı tıp deyimlerini içerdiğini düşünürsek. Bir diğer uygulama alanı da uçak bakımında kullanılan manueller...
Parser'ımın çıktısını aşağıda bulabilirsiniz.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
Niyetim, Webster'in kelime+kelime tanımı şeklinde bir dönüşüm çıktısını NON-PROFIT koşulu ile public yapmak.
Fark ettiğim bir konu da, sözlük ya da benzer şekilde belirli bir formatı olan metin hazırlanmasında birden çok kişi çalışırken bir parser kullanılırsa ortak metnin sabit formatta çıkması sağlanabilir ya da bu şekilde metin kontrol edilebilir.
Aslında, bir user interface ile formatı alıp ilgili parser otomatik olarak yazılabilir. ;-))
Webster Dictionary'nin toplam açıklama satır sayısı 1 milyon civarında. Şimdiye kadar benim parse ettiğim miktar 238 bin civarında. Güzel haber artık parserı değiştirmekten çok Webster'in edit kurallarına uymayan durumları temizlemekle uğraşıyorum. Başlangıçta 300-400 satırlık ilerlemelr vardı şimdi 4 bin satıra kadar sıçramalar olabiliyor. Tahminim en geç 1-2 ay içinde İngilizce sözlük veritabanı hazırlama çalışmam bitmiş
olacak.
Hazırlayacağım veri tabanı (şu anda da) İngilizce kelimlerin tiplerinin ve tekil-çoğul, transitive-intransitive gibi bilgileri içerecek. Şu ana kadar ki çalışmamda deneme olarak kelime tiplerini seçip kolaylıkla döktürdüm. Yaklaşık 30 bin kelime için.
Amacım bu sözlüğü kullanarak bir İngilizce cümle parserı yazmak. Bu parser ile parse ettiğim İngilizce metinleri bir ara dile dönüştürüp, kullanıcının sorduğu ilgili soruları otomatik olarak cevaplamak.
Tıp kitapları cazip bir uygulama alanı olacak, hele WEsbter'in çok detaylı tıp deyimlerini içerdiğini düşünürsek. Bir diğer uygulama alanı da uçak bakımında kullanılan manueller...
Parser'ımın çıktısını aşağıda bulabilirsiniz.
https://sourceforge.net/projects/turkishlanguageparser/files/English%20word%20types%20dictionary/
Niyetim, Webster'in kelime+kelime tanımı şeklinde bir dönüşüm çıktısını NON-PROFIT koşulu ile public yapmak.
Fark ettiğim bir konu da, sözlük ya da benzer şekilde belirli bir formatı olan metin hazırlanmasında birden çok kişi çalışırken bir parser kullanılırsa ortak metnin sabit formatta çıkması sağlanabilir ya da bu şekilde metin kontrol edilebilir.
Aslında, bir user interface ile formatı alıp ilgili parser otomatik olarak yazılabilir. ;-))
LANGANA-E English Language Parser project progresses May 2014
This is part of a dictionary that indicates the types of English words only. Only the words beginning with the letters W-X-Y-Z are included. The other letters will be posted as the work progresses.
This effort is part of an ongoing process in parallel with my Turkish Language processing package LANGANA. I have two aims for LANGANA. The first one is to make a program that reads texts and parses-converts them to a pseudo language output which it can later use to answer questions about the text. The second is to make a quality Turkish-English and vise versa translation motor.
I parsed the last 30 000 lines of the Webster dictionary which is publicly available. The I did a small converter mechanism to exclude the word names and types. My parser is approx. 1000 lines. I progressed with 30-40 lines successes in the beginning and it took many hours to do this. Recently I have seen 2000 lines successess in a matter of 10 minutes. I am looking forward to more improvements and finish this dictionary in a couple of months at most.
-----------------------------------------------
The second group of chars namely S-T-U-V has been added. This has been a considerable endeavour as these chars are explained in approx. 240 000 lines in Webster(1910ver.) My current parser parses approx. 270 000 lines and lists the word types of 25 - 30 000 English words. The whole of Webster is 1 000 000 lines. I have reached a point of saturation in the development of the parser and it has become fairly facile if not easy to proceed. I am looking forward to finish the parser in 1-2 months time.
After the parser is finished I will do fine tuning to decide what items will be included to the output. I will put the output into a MySQL database afterwards and proceed with the rest of my plans.
I will make the output publicly available as the Webster 1910 ver. but I will provide letter S by e-mail, only to requests clearly identified as non-profit.
This effort is part of an ongoing process in parallel with my Turkish Language processing package LANGANA. I have two aims for LANGANA. The first one is to make a program that reads texts and parses-converts them to a pseudo language output which it can later use to answer questions about the text. The second is to make a quality Turkish-English and vise versa translation motor.
I parsed the last 30 000 lines of the Webster dictionary which is publicly available. The I did a small converter mechanism to exclude the word names and types. My parser is approx. 1000 lines. I progressed with 30-40 lines successes in the beginning and it took many hours to do this. Recently I have seen 2000 lines successess in a matter of 10 minutes. I am looking forward to more improvements and finish this dictionary in a couple of months at most.
-----------------------------------------------
The second group of chars namely S-T-U-V has been added. This has been a considerable endeavour as these chars are explained in approx. 240 000 lines in Webster(1910ver.) My current parser parses approx. 270 000 lines and lists the word types of 25 - 30 000 English words. The whole of Webster is 1 000 000 lines. I have reached a point of saturation in the development of the parser and it has become fairly facile if not easy to proceed. I am looking forward to finish the parser in 1-2 months time.
After the parser is finished I will do fine tuning to decide what items will be included to the output. I will put the output into a MySQL database afterwards and proceed with the rest of my plans.
I will make the output publicly available as the Webster 1910 ver. but I will provide letter S by e-mail, only to requests clearly identified as non-profit.
Tuesday, 29 April 2014
Türkçe cümlelerde ÖZNE-NESNE ayrımı alt yapısı
Mucize
gibi bir şey! Bilgisayarım konuşmayı
sökmeye başladı...
İnsan
konuşmasında önemli bir aşama cümlelerin özne ve nesne
ayrımını
yapmaktır. Eylemi kimin neye yaptığını
ayırt etmek.
Özne
nesne ayıran LANGANA programımın ilk çıktıları aşağıda...
Özne
ile nesneyi ayırt etmek için gerekli bütün unsurları
anlıyor
LANGANA.
En
basitten zora doğru özne ayrımını şöyle özetleyebiliriz.
Fiil.
Özne.
Özne
- Fiil.
Nesne
- Fiil.
Özne
- Nesne - Fiil.
Özne
- Nesne - Fiilimsi - Fiil.
Virgül
ve diğer birleştiriciler:
Özne
, Özne - Fiil.
Nesne,
Nesne - Fiil.
vb.
Kullanacağım
bazı algoritmalar:
-Eğer
bir so(SUBJ/OBJECT) takısız ise:
Fiilin -i transitive ise : NESNE
değil is : ÖZNE
-Eğer
bir so takılı ise:
takı isim tamlaması sonlandırıcısı ve
fiil transitive ise ÖZNE.
takı i hali takısı ise -nı, -mı vb NESNE
-Eğer
so bir fiilimsiden önce gelen son so ise NESNE.
-Eğer
iki tane takısız so varsa önce gelen ÖZNE.
İşte
bir kaç örnek aşağıda: Steibeck'in
Fareler ve İnsanlara Dair kitabının
ilk
1000 cümlesini aşağıdaki linkten bulabilirsiniz.
Sanırım
bir süre sonra ilk 1000 cümleyi:
Çünkü [ben] {seni} bilirim,
bir susadın mı,
{çirkef}
de olsa içersin
aşağıdaki cümlenin yukarıdaki işlenmiş
şeklinde source forge'da yayınlayacağım.
NOT: LANGANAe ingilizce için yaptığım kelime
tipi çalışmasında 1 milyon satırlık
Webter sözlüğünü parse etmem gerekiyor. Şu anda VWXYZ harflerini bitirdim. U ile
uğraşıyorum.
PArse ettiğim toplam satır sayısı 50 bini aştı. Yani 1/20 = %5'teyim.
Webster'in güzelliği kullandığım Türkçe
sözlüğe göre eski ama çok detaylı, tekil
çoğul ne isterseniz bilgi olarak var.
SENTENCE
NO = 41 ********************************************************
buf_verbose_list()------------------------------------------------------------
Çünkü ben seni bilirim,
bir susadın mı,
çirkef
de olsa içersin
buf_struct_only_list()------------------------------------------------------------
SENTENCE(==>CONJUNCTSUB(
41 0 çünkü
41 1 ben
begso ending-ext=null
41 2 sen
i begso ending-ext=i
41 3 bil
irim --------------------verbExt
,SUB(
41 4 bir
41 5 susa
dın --------------------verbExt
41 6 mı
,SUB(
41 7 çirkef
begso ending-ext=null
==>CONJUNCTSUB(
41 8 de
41 9 ol
sa --------------------verbExt
41 10 iç
ersin --------------------verbExt
.END-SENTENCE)
41 11
buf_sub_struct_list()------------------------------------------------------------
41 0 SENTENCE(==>CONJUNCTSUB(
41 0 0 11711 Bağlaç null Çünkü null null null null null null
ÖZNE-NESNE
=====> ben
ARS
i=1 k=1
41 1 0 5991 Zamir null ben null null null null null null
ÖZNE-NESNE
=====> seni
ARS
i=2 k=1
41 2 0 77114 Zamir null sen pronounExt i +i null null null
41 3 0 6814 Fiil -i bil verbExt irim ::-ir:*im null null null
41 4 ,SUB(
41 4 0 6880 İsim null bir null null null null null null
41 5 0 47467 Fiil nsz susa verbExt dın ::-dı:*n null null null
41 6 0 77138 Soru null mı null null null null null null
41 7 ,SUB(
ÖZNE-NESNE
=====> çirkef
ARS
i=7 k=1
41 7 0 11213 İsim null çirkef null null null null null null
41 8 ==>CONJUNCTSUB(
41 8 0 11734 Bağlaç null de null null null null null null
41 9 0 38929 Fiil nsz ol verbExt sa ::-sa: null null null
41 10 0 24056 Fiil -i iç verbExt ersin ::-er:*sin null null null
41 11 .END-SENTENCE)
SENTENCE
NO = 40 ********************************************************
buf_verbose_list()------------------------------------------------------------
Akmayan bir su oldu mu hiç içmemelisin Lennie
buf_struct_only_list()------------------------------------------------------------
SENTENCE(
SUB(
40 0 ak
mayan ------------nounFromVerb
40 1 bir
begso
40 2 su
endso ending-ext=null
40 3 oldu
40 4 mu
40 5 hiç
40 6 iç
memelisin --------------------verbExt
40 7 lennie
begso ending-ext=null
.END-SENTENCE)
40 8
buf_sub_struct_list()------------------------------------------------------------
40 0 SENTENCE(
SUB(
40 0 0 1311 Fiil nsz,-e Ak nounFromVerbExt mayan -maya-n null null null
ÖZNE-NESNE
=====> bir su
ARS
i=1 k=2
40 1 0 6880 İsim null bir null null null null null null
40 2 0 47231 İsim null su null null null null null null
40 3 0 38892 Zarf null oldu null null null null null null
40 4 0 77140 Soru null mu null null null null null null
40 5 0 22845 Zarf null hiç null null null null null null
40 6 0 24056 Fiil -i iç verbExt memelisin ::-memeli:*sin null null null
ÖZNE-NESNE
=====> Lennie
ARS
i=7 k=1
40 7 0 0 Özelİsim null Lennie null null null null null null
40 8 .END-SENTENCE)
SENTENCE
NO = 250 ********************************************************
buf_sub_struct_list()------------------------------------------------------------
250 0 SENTENCE(
SUB(
250 0 0 37999 Zamir null Ne null null null null null null
250 1 0 57957 İsim null zaman null null null null null null
...
buf_verbose_list()------------------------------------------------------------
Ne zaman elime alıp okşasam,
hemen parmaklarımı ısırırlardı,
ben
de birazcık kafalarını çimdiklerdim,
sonra bir
de bakardım
ki,
ölmüşler
buf_struct_only_list()------------------------------------------------------------
SENTENCE(
SUB(
250 0 ne
250 1 zaman
250 2 el
ime
250 3 al
ıp ------------gerundFromVerb
250 4 okşa
sam --------------------verbExt
,SUB(
250 5 hemen
250 6 parmak
larımı begso ending-ext=larımı
250 7 ısır
ırlardı --------------------verbExt
,SUB(
250 8 ben
begso ending-ext=null
==>CONJUNCTSUB(
250 9 de
250 10 birazcık
250 11 kafa
larını begso ending-ext=larını
250 12 çimdikle
rdim --------------------verbExt
,SUB(
250 13 sonra
250 14 bir
==>CONJUNCTSUB(
250 15 de
250 16 bak
ardım --------------------verbExt
==>CONJUNCTSUB(
250 17 ki
,SUB(
250 18 öl
müşler --------------------verbExt
.END-SENTENCE)
250 19
SENTENCE
NO = 668 ********************************************************
buf_verbose_list()------------------------------------------------------------
Böyle çiftliklerde insan,
hiçbir zaman ne kimsenin konuştuğunu dinler ne
de kimseye bir şey sorar
buf_struct_only_list()------------------------------------------------------------
SENTENCE(
SUB(
668 0 böyle
668 1 çiftlik
lerde
668 2 insan
begso ending-ext=null
,SUB(
668 3 hiçbir
668 4 zaman
668 5 ne
668 6 kimse
nin
668 7 konuş
tuğunu begso ending-ext=tuğunu------------nounFromVerb
668 8 dinle
r --------------------verbExt
668 9 ne
==>CONJUNCTSUB(
668 10 de
668 11 kimse
ye
668 12 bir
begso
668 13 şey
endso ending-ext=null
668 14 sor
ar --------------------verbExt
.END-SENTENCE)
668 15
buf_sub_struct_list()------------------------------------------------------------
668 0 SENTENCE(
SUB(
668 0 0 7801 Sıfat null Böyle null null null null null null
668 1 0 11050 İsim null çiftlik nounExt lerde #ler%%%&de null null null
ÖZNE-NESNE
=====> insan
ARS
i=2 k=1
668 2 0 25138 İsim null insan null null null null null null
668 3 ,SUB(
668 3 0 22846 Sıfat null hiçbir null null null null null null
668 4 0 57957 İsim null zaman null null null null null null
668 5 0 37999 Zamir null ne null null null null null null
668 6 0 30488 Zamir null kimse pronounExt nin +ni+n null null null
ÖZNE-NESNE
=====> konuştuğunu
ARS
i=7 k=1
668 7 0 31317 Fiil nsz konuş nounFromVerbExt tuğunu -tu-ğ-un-u null null null
668 8 0 13722 Fiil -i dinle verbExt r ::-r: null null null
668 9 0 37999 Zamir null ne null null null null null null
668 10 ==>CONJUNCTSUB(
668 10 0 11734 Bağlaç null de null null null null null null
668 11 0 30488 Zamir null kimse pronounExt ye +ye null null null
ÖZNE-NESNE
=====> bir şey
ARS
i=12 k=2
668 12 0 6880 İsim null bir null null null null null null
668 13 0 48595 İsim null şey null null null null null null
668 14 0 46760 Fiil -i,-e,-den sor verbExt ar ::-ar: null null null
668 15 .END-SENTENCE)
SENTENCE
NO = 946 ********************************************************
buf_verbose_list()------------------------------------------------------------
Lennie büyük bir istekle Georgea doğru
eğilerek:
Gidelim George,
dedi
buf_struct_only_list()------------------------------------------------------------
SENTENCE(
SUB(
946 0 lennie
begso ending-ext=null
946 1 büyük
946 2 bir
946 3 istek
le
946 4 george
a
946 5 doğru
946 6 eğil
erek ------------gerundFromVerb
:SUB(?
946 7 gid
elim --------------------verbExt
946 8 george
begso ending-ext=null
,SUB(
946 9 de
di --------------------verbExt
.END-SENTENCE)
946 10
buf_sub_struct_list()------------------------------------------------------------
946 0 SENTENCE(
SUB(
ÖZNE-NESNE
=====> Lennie
ARS
i=0 k=1
946 0 0 0 Özelİsim null Lennie null null null null null null
946 1 0 8384 Sıfat null büyük null null null null null null
946 2 0 6880 İsim null bir null null null null null null
946 3 0 25543 İsim null istek nounExt le %%%&le null null null
946 4 0 0 Özelİsim null George nounExt a %%%&a null null null
946 5 0 14144 Sıfat null doğru null null null null null null
946 6 0 15571 Fiil nsz eğil gerundFromVerbExt erek ;;-er;.ek null null null
946 7 :SUB(?
946 7 0 19913 Fiil -den,-e Gid verbExt elim ::-elim: null null null
ÖZNE-NESNE
=====> George
ARS
i=8 k=1
946 8 0 0 Özelİsim null George null null null null null null
946 9 ,SUB(
946 9 0 12648 Fiil de verbExt di ::-di: null null null
946 10 .END-SENTENCE)
Subscribe to:
Posts (Atom)