Academic Journal
ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНДАҒЫ ЕТІСТІКТЕРДІҢ ЛЕКСИКА-СЕМАНТИКАЛЫҚ БЕЛГІЛЕНІМ ӘЗІРЛЕМЕСІ: ӘЛЕМДІК ТӘЖІРИБЕ, КЛАССИФИКАЦИЯЛАУ, КОРПУСТА БЕЛГІЛЕУ
| Title: | ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫНДАҒЫ ЕТІСТІКТЕРДІҢ ЛЕКСИКА-СЕМАНТИКАЛЫҚ БЕЛГІЛЕНІМ ӘЗІРЛЕМЕСІ: ӘЛЕМДІК ТӘЖІРИБЕ, КЛАССИФИКАЦИЯЛАУ, КОРПУСТА БЕЛГІЛЕУ |
|---|---|
| Publisher Information: | АО «КазУМОиМЯ им.Абылай хана», 2022. |
| Publication Year: | 2022 |
| Subject Terms: | етістік, verb, глагол, 4. Education, corpus linguistics, корпусная лингвистика, meaning, мағына, разметка, белгіленім, семантика, markup, linguistic annotation, category, lexica-semantic classification, лингвистическая аннотация, категория, лексико-семантическая классификация, лексика-семантикалық классификация, смысл, корпустық лингвистика, semantics, лингвистикалық аннотация |
| Description: | The article deals with the problem of developing lexica-semantic markup, one of the main markups in the world practice of building a corpus. In particular, a review of the works of domestic and foreign scientists related to computational linguistics and lexica-semantic classification will be carried out, the stages of creating lexica-semantic markup of verbs in the National Corpus of the Kazakh language will be shown, and the practical basis will be explained.The accelerated development of information technology requires the mastery of electronic resources in all branches of science, including linguistics. The corpus linguistics is the field of linguistics that studies and implements language programming. The creation of the National Corpus of the Kazakh language is based on the creation of markups, which automatically analyze each language level. One of the complex markups in linguistic annotation of words is lexical-semantic markup. Compared to the corpus of Russian, Kalmyk and other languages, the lexical-semantic markup in the National Corpus of the Kazakh language deepens into the meaning of the word, i.e. into the sema. Therefore, the number of small (individual) lexica-semantic groups amounted to 72 groups. This allows the user to more accurately find the information he needs. The interface for using the markup system should be easy and understandable for any user, both a specialist in this field and specialists in other areas who are just learning to use it. Accordingly, lexica-semantic groups are given short and specific names.The base of the corpus includes 18, 200 verbs, their semantic shades are being studied. In the course of the study, it was proposed to characterize verbs according to five different features in the lexica-semantic framework. First: by word-formation character, single, complex; main, derivative; the second: on the basis of the lexical and grammatical categories of transitivity, intransitivity; positive and negative form; connotative in character is classified as positive, negative, neutral. For a deeper disclosure of the meaning of verbs, depending on the common and distinctive semas, they are internally divided into large (lexica-semantic) and small (semantic) groups.The article was written within the framework of the research project BR11765619 «Development of the National Corpus of the Kazakh language as information-innovation state language base: research and training internet resource». В статье рассматривается проблема разработки лексико-семантической разметки, одной из основных разметок в мировой практике построения корпуса. В частности, проводится обзор трудов отечественных и зарубежных ученых, касающихся компьютерной лингвистики и лексико-семантической классификации, показаны этапы создания лексико-семантической разметки глаголов в Национальном корпусе казахского языка, разъяснена практическая основа.Ускоренные темпы развития информационных технологий требуют овладения электронными ресурсами и лингвистами. Областью лингвистики, изучающей и реализующей языковое программирование, является корпусная лингвистика. Создание Национального корпуса казахского языка основывается на создании разметок, которые автоматически анализируются по каждому уровню языка. Одной из сложных разметок в лингвистическом аннотировании слов является лексико-семантическая разметка. По сравнению с корпусом русского, калмыцкого и других языков, лексико-семантическая разметка в Национальном корпусе казахского языка углубляется в значение слова, т. е. в сему. Поэтому количество малых (индивидуальных) лексико-семантических групп глагола составило 72 группы. Это позволяет пользователю более точно найти нужную ему информацию. Интерфейс применения системы разметки должен быть легок и понятен любому пользователю, как специалисту, так и специалистам других областей, которые только учатся пользоваться. Соответственно, лексико-семантические группы даются короткими и конкретными названиями.В базу корпуса включены 18 200 глаголов, изучаются их смысловые оттенки. В ходе исследования было предложено дать характеристику глаголов по пяти различным признакам в лексико-семантической разметке. По словообразовательному характеру: простой, сложный; основной, производный; на основе лексико-грамматических категорий: переходность, непереходность; положительная и отрицательная форма; по характеру коннотации классифицируется как положительный, отрицательный, нейтральный. Для более глубокого раскрытия значения глаголов в зависимости от общих и отличительных сем они внутренне делятся на большие (лексико-семантические) и малые (семантические) группы.Статья написана в рамках исследовательского проекта BR 11765619 «Разработка Национального корпуса казахского языка как информационно-инновационной базы государственного языка: научно-исследовательский и обучающий интернет-ресурс». Мақалада әлемдік корпус жасау тәжірибесіндегі негізгі белгіленімнің бірі лексика-семантикалық белгіленім әзірлемесін жасау мәселесі қарастырылады. Нақтырақ айтқанда, компьютерлік лингвистикаға және лексика-семантикалық классификацияға қатысты отандық және шетелдік ғалымдар еңбектеріне шолу жасалады, қазақ тілінің Ұлттық Корпусындағы етістіктердің лексика-семантикалық белгіленімін жасау кезеңдері көрсетіледі, практикалық негізі түсіндіріледі.Ақпараттық технологиялардың жедел қарқынмен дамуы тіл білімі зерттеушілерінен электронды ресурстарды меңгеруді талап етуде. Тілді бағдарламалауды зерттейтін және жүзеге асыратын тіл білімінің саласы – корпустық лингвистика. Қазақ тілінің Ұлттық корпусын жасау тілдің әр деңгейлері бойынша автоматты түрде талдау жасайтын белгіленімдер жасауға негізделеді. Сөздерді лингвистикалық аннотациялаудағы күрделі белгіленімнің бірі – лексика-семантикалық белгіленім. Орыс, қалмақ және т.б. тілдер корпусымен салыстырғанда Қазақ тілінің Ұлттық корпусындағы лексика-семантикалық белгіленім сөз мағынасына, яғни семаға тереңірек бойлайды. Сол себепті етістіктің кіші (жеке) лексика-семантикалық топтарының саны – 72. Бұл қолданушыға өзіне қажетті ақпаратты нақтырақ табуға мүмкіндік береді. Белгіленім жүйесінің қолдану интерфейсі кез келген қолданушыға, осы істің маманына да, енді үйреніп жатқан басқа саладағы мамандарға да жеңіл, түсінікті болуы көзделеді, лексика-семантикалық топтар қысқа әрі нақты атаулармен беріледі.Корпус базасына енгізуге 18 200 етістік жинақталып, мағыналық реңктері зерттелуде. Зерттеу барысында етістіктерге лексика-семантикалық белгіленім әзірлеуді бес түрлі сипаттама бойынша беру ұсынылды. Бірінші: сөзжасамдық сипатына қарай дара, күрделі; негізгі, туынды; екінші: лесика-грамматикалық категориялар негізінде салт, сабақты; болымды, болымсыз; коннотативтік сипатына қарай жағымды, жағымсыз, бейтарап деп жіктеледі. Етістіктердің мағынасын тереңірек ашу үшін ортақ және айырушы семаларына байланысты іштей ірі (лексика-семантикалық) және кіші (семантикалық) топтарға бөлінеді.Мақала BR11765619 «Мемлекеттік тілдің ақпараттық-инновациялық базасы ретіндегі Қазақ тілінің Ұлттық корпусын әзірлеу: ғылыми-зерттеу және оқыту интернет ресурсы» атты зерттеу жобасының аясында жазылды. Филологические науки, Выпуск 3 (66) 2022 |
| Document Type: | Article |
| Language: | Kazakh |
| DOI: | 10.48371/phils.2022.66.3.010 |
| Accession Number: | edsair.doi...........10ab48a786ec80e6e4284aae679f50eb |
| Database: | OpenAIRE |
| DOI: | 10.48371/phils.2022.66.3.010 |
|---|