Ukrainian Language Corpus – Computer Expert System of Linguistic Analysis of Ukrainian Text

Oksana Zubań

Київський національний університет імені Тараса Шевченка , Ukraine
https://orcid.org/0000-0002-2644-3892


Abstract

The article deals with the structure and the principles of automatic compiling of expert linguistic analysis system called Ukrainian Language Corpus. The methodology of formalised description of language text units, suggested in creating the Corpus, carries out automatic morphological, morphemic, syntactic, and semantic analyses of Ukrainian texts as well as automatically compiling different Frequency Dictionaries according to text samples.

Keywords:

Ukrainian Language Corpus, Electronic Frequency Dictionary, Data Base, automatic linguistic analysis

BrUK: Braunsʹkij korpus ukraïnsʹkoï movi [Браунський корпус української мови. https://r2u.org.ua/corpus. [Доступ 07.03.2019].

CZS: Častotnij slovnik movi T. Ševčenka [ЧС: Частотний словник мови Т. Шевченка. http://www.mova.info/cfqsh_2.aspx. [Доступ 07.03.2019].

GRAK: Generalʹnij regìonalʹno anotovanij korpus ukraïnsʹkoï movi. [ГРАК: Генеральний регіонально анотований корпус української мови. http://uacorpus.org/. [Доступ 07.03.2019].

KTUM: Korpusi tekstìv ukraïnsʹkoï movi. [КТУМ: Корпуси текстів української мови. http://corpora.donnu.edu.ua/. [Доступ 07.03.2019].

KUM: Korpus ukraïnsʹkoï movi [КУМ: Корпус української мови. http://www.mova.info/corpus.aspx. [Доступ 07.03.2019].

Darčuk Natalìâ, Zubanʹ Oksana ta ìn. 2016. AGAT-semantika: semantična rozmìtka Korpusu ukraïnsʹkoï movi. “Ukraïnsʹke movoznavstvo” № 1 (46): 3-10 [Дарчук Наталія, Зубань Оксана та ін. 2016. АГАТ-семантика: семантична розмітка Корпусу української мови. “Українське мовознавство” № 1 (46): 3-10].

Darčuk Natalìâ. 2013. Komp`ûterne anotuvannâ tekstu: rezulʹtati ì perspektivi. Kiïv: Osvìta Ukraïni [Дарчук Наталія. 2013. Комп’ютерне анотування тексту: результати і перспективи. Київ: Освіта України].

Karpìlovsʹka Êvgenìâ. 2007, 2008. Tendencìï rozvitku sučasnogo ukraïnsʹkogo leksikonu: činniki stabìlìzacìï ìnnovacìj. “Ukraïnsʹka mova” № 4: 3-15; № 1: 24-35 [Карпіловська Євгенія. 2007, 2008. Тенденції розвитку сучасного українського лексикону: чинники стабілізації інновацій. “Українська мова” № 4: 3-15; № 1: 24-35].

Kotsyba Natalia. 2013. Praktyczny przewodnik po korpusach języków słowiańskich. W: http://www.domeczek.pl/~natko/papers/przewodnik-korp-ukr2013.pdf. [Dostęp 07.03.2019].

Lâševskaâ Olʹga. 2016. Korpusnye instrumenty v grammatičeskih issledovaniâh russkogo âzyka. Moskva: Izdatelʹskij Dom ÂSK [Ляшевская Ольга. 2016. Корпусные инструменты в грамматических исследованиях русского языка. Москва: Издательский Дом ЯСК].

Širokov Volodimir ta ìn. 2011. Zastosuvannâ Ukraïnsʹkogo nacìonalʹnogo lìngvìstičnogo korpusu v leksikografìï ta lìngvìstičnih ekspertizah. V: Ukraïnsʹka leksikografìâ v zagalʹnoslov'ânsʹkomu kontekstì: teorìâ, praktika, tipologìâ. Kiïv: Vidavničij dìm dmitra Burago: 285-294 [Широков Володимир та ін. 2011. Застосування Українського національного лінгвістичного корпусу в лексикографії та лінгвістичних експертизах. В: Українська лексикографія в загальнослов'янському контексті: теорія, практика, типологія. Київ: Видавничий дім дмитра Бураго: 285-294].

Zubanʹ Oksana. 2014. Stilemetričnì oznaki morfemnih struktur slìv u poetičnomu movlennì T. Ševčenka (na materìalì Korpusu ukraïnsʹkoï movi). “Movnì ì konceptualʹnì kartini svìtu” № 48: 165-179 [Зубань Оксана. 2014. Стилеметричні ознаки морфемних структур слів у поетичному мовленні Т. Шевченка (на матеріалі Корпусу української мови). “Мовні і концептуальні картини світу” № 48: 165-179].

Zubanʹ Oksana. 2015. Elektronnì častotnì morfemnì slovniki v Korpusì ukraïnsʹkoï movi. “Naukovij vìsnik Shìdnoêvropejsʹkogo nacìonalʹnogo unìversitetu ìmenì Lesì Ukraïnki”. Serìâ: Fìlologìčnì nauki № 3 (304): 315-320 [Зубань Оксана. 2015. Електронні частотні морфемні словники в Корпусі української мови. “Науковий вісник Східноєвропейського національного університету імені Лесі Українки”. Серія: Філологічні науки № 3 (304): 315-320].

Zubanʹ Oksana. 2016. Častotnì morfemnì slovniki v Korpusì ukraïnsʹkoï movi – džerelo stilemetričnih doslìdženʹ. “Acta Universitatis Palackianae Olomucensis Philologica” № UCRAINICA VII: Současná ukrajinistika Problémy jazyka, literatury a kultury: 224-231 [Зубань Оксана. 2016. Частотні морфемні словники в Корпусі української мови – джерело стилеметричних досліджень. “Acta Universitatis Palackianae Olomucensis Philologica” № UCRAINICA VII: Současná ukrajinistika Problémy jazyka, literatury a kultury: 224-231].

Zubanʹ Oksana. 2016. Elektronnì slovniki u Korpusì ukraïnsʹkoï movi: parametri pošuku ta sistematizacìï movnih odinicʹ. “Movnì ìkonceptualʹnì kartini svìtu”. Vip. 54: 190-201 [Зубань Оксана. 2016. Електронні словники у Корпусі української мови: параметри пошуку та систематизації мовних одиниць. “Мовні і концептуальні картини світу”. Вип. 54: 190-201].

Zuban Оksana. 2017. Automatic Morphemic Analysis in the Corpus of the Ukrainian Language: Results and Prospects. “Jazykovedný časopis” vol. 68, № 2: 415-426.


Published
2019-12-05


Zubań, O. (2019). Корпус української мови - комп’ютерна експертна система лінгвістичного аналізу українськомовного тектсу. TEKA Commission of Polish-Ukrainian Cultural Ties, 6(13), 191–206. https://doi.org/10.31743/teka.5723

Oksana Zubań  oxana.mell.zuban@gmail.com
Київський національний університет імені Тараса Шевченка https://orcid.org/0000-0002-2644-3892