Korpus języka ukraińskiego – komputerowy ekspercki system analizy językowej tekstu ukraińskojęzycznego

Oksana Zubań

Kijowski Uniwersytet Narodowy im. Tarasa Szewczenki , Ukraina
https://orcid.org/0000-0002-2644-3892


Abstrakt

Celem niniejszego artykułu jest przedstawienie struktur i zasad automatycznego tworzenia eksperckiego systemu analizy lingwistycznej „Korpus Języka Ukraińskiego”. Zaproponowana podczas tworzenia Korpusu metodologia sformalizowanego opisu językowych jednostek tekstu zapewnia możliwość przeprowadzenia automatycznej morfologicznej, morfemowej, syntaktycznej i semantycznej analizy tekstu ukraińskojęzycznego, jak również automatyczne tworzenie różnorakich elektronicznych słowników frekwencyjnych z wyborem tekstów.

Słowa kluczowe:

Korpus języka ukraińskiego, Elektroniczny słownik frekwencyjny, baza danych, automatyczna analiza lingwistyczna

BrUK: Braunsʹkij korpus ukraïnsʹkoï movi [Браунський корпус української мови. https://r2u.org.ua/corpus. [Доступ 07.03.2019].

CZS: Častotnij slovnik movi T. Ševčenka [ЧС: Частотний словник мови Т. Шевченка. http://www.mova.info/cfqsh_2.aspx. [Доступ 07.03.2019].

GRAK: Generalʹnij regìonalʹno anotovanij korpus ukraïnsʹkoï movi. [ГРАК: Генеральний регіонально анотований корпус української мови. http://uacorpus.org/. [Доступ 07.03.2019].

KTUM: Korpusi tekstìv ukraïnsʹkoï movi. [КТУМ: Корпуси текстів української мови. http://corpora.donnu.edu.ua/. [Доступ 07.03.2019].

KUM: Korpus ukraïnsʹkoï movi [КУМ: Корпус української мови. http://www.mova.info/corpus.aspx. [Доступ 07.03.2019].

Darčuk Natalìâ, Zubanʹ Oksana ta ìn. 2016. AGAT-semantika: semantična rozmìtka Korpusu ukraïnsʹkoï movi. “Ukraïnsʹke movoznavstvo” № 1 (46): 3-10 [Дарчук Наталія, Зубань Оксана та ін. 2016. АГАТ-семантика: семантична розмітка Корпусу української мови. “Українське мовознавство” № 1 (46): 3-10].

Darčuk Natalìâ. 2013. Komp`ûterne anotuvannâ tekstu: rezulʹtati ì perspektivi. Kiïv: Osvìta Ukraïni [Дарчук Наталія. 2013. Комп’ютерне анотування тексту: результати і перспективи. Київ: Освіта України].

Karpìlovsʹka Êvgenìâ. 2007, 2008. Tendencìï rozvitku sučasnogo ukraïnsʹkogo leksikonu: činniki stabìlìzacìï ìnnovacìj. “Ukraïnsʹka mova” № 4: 3-15; № 1: 24-35 [Карпіловська Євгенія. 2007, 2008. Тенденції розвитку сучасного українського лексикону: чинники стабілізації інновацій. “Українська мова” № 4: 3-15; № 1: 24-35].

Kotsyba Natalia. 2013. Praktyczny przewodnik po korpusach języków słowiańskich. W: http://www.domeczek.pl/~natko/papers/przewodnik-korp-ukr2013.pdf. [Dostęp 07.03.2019].

Lâševskaâ Olʹga. 2016. Korpusnye instrumenty v grammatičeskih issledovaniâh russkogo âzyka. Moskva: Izdatelʹskij Dom ÂSK [Ляшевская Ольга. 2016. Корпусные инструменты в грамматических исследованиях русского языка. Москва: Издательский Дом ЯСК].

Širokov Volodimir ta ìn. 2011. Zastosuvannâ Ukraïnsʹkogo nacìonalʹnogo lìngvìstičnogo korpusu v leksikografìï ta lìngvìstičnih ekspertizah. V: Ukraïnsʹka leksikografìâ v zagalʹnoslov'ânsʹkomu kontekstì: teorìâ, praktika, tipologìâ. Kiïv: Vidavničij dìm dmitra Burago: 285-294 [Широков Володимир та ін. 2011. Застосування Українського національного лінгвістичного корпусу в лексикографії та лінгвістичних експертизах. В: Українська лексикографія в загальнослов'янському контексті: теорія, практика, типологія. Київ: Видавничий дім дмитра Бураго: 285-294].

Zubanʹ Oksana. 2014. Stilemetričnì oznaki morfemnih struktur slìv u poetičnomu movlennì T. Ševčenka (na materìalì Korpusu ukraïnsʹkoï movi). “Movnì ì konceptualʹnì kartini svìtu” № 48: 165-179 [Зубань Оксана. 2014. Стилеметричні ознаки морфемних структур слів у поетичному мовленні Т. Шевченка (на матеріалі Корпусу української мови). “Мовні і концептуальні картини світу” № 48: 165-179].

Zubanʹ Oksana. 2015. Elektronnì častotnì morfemnì slovniki v Korpusì ukraïnsʹkoï movi. “Naukovij vìsnik Shìdnoêvropejsʹkogo nacìonalʹnogo unìversitetu ìmenì Lesì Ukraïnki”. Serìâ: Fìlologìčnì nauki № 3 (304): 315-320 [Зубань Оксана. 2015. Електронні частотні морфемні словники в Корпусі української мови. “Науковий вісник Східноєвропейського національного університету імені Лесі Українки”. Серія: Філологічні науки № 3 (304): 315-320].

Zubanʹ Oksana. 2016. Častotnì morfemnì slovniki v Korpusì ukraïnsʹkoï movi – džerelo stilemetričnih doslìdženʹ. “Acta Universitatis Palackianae Olomucensis Philologica” № UCRAINICA VII: Současná ukrajinistika Problémy jazyka, literatury a kultury: 224-231 [Зубань Оксана. 2016. Частотні морфемні словники в Корпусі української мови – джерело стилеметричних досліджень. “Acta Universitatis Palackianae Olomucensis Philologica” № UCRAINICA VII: Současná ukrajinistika Problémy jazyka, literatury a kultury: 224-231].

Zubanʹ Oksana. 2016. Elektronnì slovniki u Korpusì ukraïnsʹkoï movi: parametri pošuku ta sistematizacìï movnih odinicʹ. “Movnì ìkonceptualʹnì kartini svìtu”. Vip. 54: 190-201 [Зубань Оксана. 2016. Електронні словники у Корпусі української мови: параметри пошуку та систематизації мовних одиниць. “Мовні і концептуальні картини світу”. Вип. 54: 190-201].

Zuban Оksana. 2017. Automatic Morphemic Analysis in the Corpus of the Ukrainian Language: Results and Prospects. “Jazykovedný časopis” vol. 68, № 2: 415-426.


Opublikowane
2019-12-05


Zubań, O. (2019). Корпус української мови - комп’ютерна експертна система лінгвістичного аналізу українськомовного тектсу. TEKA Komisji Polsko-Ukraińskich Związków Kulturowych, 6(13), 191–206. https://doi.org/10.31743/teka.5723

Oksana Zubań  oxana.mell.zuban@gmail.com
Kijowski Uniwersytet Narodowy im. Tarasa Szewczenki https://orcid.org/0000-0002-2644-3892