| Περιγραφή: |
This work presents a study of tokenization methods applied to a Russian-language text corpus. Classical approaches such as WordPiece and SentencePiece are examined alongside modern algorithms including BPE, PickyBPE, and BoundlessBPE. Based on an analysis of the morphological structure of the Russian language, the BPE algorithm was optimized with the aim of improving its efficiency in processing Russian-language texts. A comparative analysis was conducted between the modified BPE method and the standard tokenization techniques - WordPiece, SentencePiece, and classical BPE. To evaluate the quality of tokenization, the metrics Rényi efficiency and Token Completeness were employed, allowing for an objective assessment of the proposed modification’s performance. Using the developed tokenizer, a vector-based text representation model was trained. Subsequently, the results were evaluated across the entire test set, as well as on subsets consisting of sentences containing rare words and sentences with complex syntactic structures. The evaluation was performed using the F1-score. The obtained results demonstrate the superiority of the proposed tokenization method in natural language processing tasks involving Russian-language corpora. This advantage is attributed to the algorithms ability to account for affixes and preserve morphological integrity, which significantly enhances both semantic coherence and computational efficiency. В данной работе представлено исследование методов токенизации русскоязычного корпуса текстов. Рассмотрены классические подходы к токенизации, такие как WordPiece и SentencePiece, а также современные алгоритмы, включая BPE, PickyBPE и BoundlessBPE. На основе анализа особенностей морфологической структуры языка выполнена оптимизация алгоритма BPE, ориентированная на повышение эффективности обработки русскоязычных текстов. Осуществлен сравнительный анализ модификации BPE с методами WordPiece, SentencePiece и стандартным BPE. Для оценки качества токенизации использовались метрики Renyi efficiency и Token Completness, что позволило объективно охарактеризовать эффективность предложенной модификации. На основе разработанного токенизатора проведено обучение векторной модели представления текста, после чего выполнено сравнение полученных результатов на всей текстовой выборке и на выборках, состоящих из предложений с редкими словами и предложений со сложными конструкциями, помощью метрики F1-score. Полученные данные демонстрируют преимущество предложенного метода токенизации в задачах обработки естественного языка для русскоязычных корпусов. |