Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра
Στοιχεία εκδότη: Санкт-Петербургский политехнический университет Петра Великого, 2025.
Έτος έκδοσης: 2025
Θεματικοί όροι: лемматизация, llm, токенизация, ембеддер, wordpiece, sentencepiece, embedder, bpe, nlp, tokenization, аффиксы, lemmatization, affixes
Περιγραφή: This work presents a study of tokenization methods applied to a Russian-language text corpus. Classical approaches such as WordPiece and SentencePiece are examined alongside modern algorithms including BPE, PickyBPE, and BoundlessBPE. Based on an analysis of the morphological structure of the Russian language, the BPE algorithm was optimized with the aim of improving its efficiency in processing Russian-language texts. A comparative analysis was conducted between the modified BPE method and the standard tokenization techniques - WordPiece, SentencePiece, and classical BPE. To evaluate the quality of tokenization, the metrics Rényi efficiency and Token Completeness were employed, allowing for an objective assessment of the proposed modification’s performance. Using the developed tokenizer, a vector-based text representation model was trained. Subsequently, the results were evaluated across the entire test set, as well as on subsets consisting of sentences containing rare words and sentences with complex syntactic structures. The evaluation was performed using the F1-score. The obtained results demonstrate the superiority of the proposed tokenization method in natural language processing tasks involving Russian-language corpora. This advantage is attributed to the algorithms ability to account for affixes and preserve morphological integrity, which significantly enhances both semantic coherence and computational efficiency.
В данной работе представлено исследование методов токенизации русскоязычного корпуса текстов. Рассмотрены классические подходы к токенизации, такие как WordPiece и SentencePiece, а также современные алгоритмы, включая BPE, PickyBPE и BoundlessBPE. На основе анализа особенностей морфологической структуры языка выполнена оптимизация алгоритма BPE, ориентированная на повышение эффективности обработки русскоязычных текстов. Осуществлен сравнительный анализ модификации BPE с методами WordPiece, SentencePiece и стандартным BPE. Для оценки качества токенизации использовались метрики Renyi efficiency и Token Completness, что позволило объективно охарактеризовать эффективность предложенной модификации. На основе разработанного токенизатора проведено обучение векторной модели представления текста, после чего выполнено сравнение полученных результатов на всей текстовой выборке и на выборках, состоящих из предложений с редкими словами и предложений со сложными конструкциями, помощью метрики F1-score. Полученные данные демонстрируют преимущество предложенного метода токенизации в задачах обработки естественного языка для русскоязычных корпусов.
Τύπος εγγράφου: Other literature type
Γλώσσα: Russian
DOI: 10.18720/spbpu/3/2025/vr/vr25-3796
Αριθμός Καταχώρησης: edsair.doi...........75fc89a9bf235591d01b65694352dd2f
Βάση Δεδομένων: OpenAIRE
Περιγραφή
DOI:10.18720/spbpu/3/2025/vr/vr25-3796