| Description: |
The gradual qualification work titled «Optimization of Topic Modeling Algorithms on Russian-language and English-language Song Lyrics» investigates the peculiarities of song lyrics domain affecting topic modeling procedure. The study explores linguistic and structural features of song texts that complicate computational analysis, including figurative language, culturally specific vocabulary (slang, neologisms, borrowings), and repetitive compositional patterns. Theoretical foundations cover the role of songs as reflections of cultural and social change, the linguistic challenges of working with artistic texts, and an overview of modern topic modeling algorithms. Particular attention is given to selecting and adapting algorithms for handling the figurative and creative nature of lyrics. Three models – NMF, LDA, and BERTopic were compared in terms of interpretability and contextual sensitivity. BERTopic was selected as the most effective due to its ability to capture semantic nuances in non-standard texts. Special emphasis was placed on optimizing preprocessing procedures, including text normalization, noise reduction, and filtering of repetitive structures to improve model performance. The research demonstrated that fine-tuning preprocessing specifically for song discourse significantly enhances the coherence and interpretability of extracted topics. The results confirmed the relevance of domain-specific optimization for applying NLP tools to artistic texts. The developed methodology provides a foundation for further research in computational linguistics, cultural analytics, and interdisciplinary studies of language and media. Выпускная квалификационная работа «Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов» посвящена изучению особенностей песенного дискурса, влияющих на процедуру тематического моделирования. В исследовании рассматриваются лингвистические и структурные характеристики песенных текстов, осложняющие их автоматизированный анализ. В теоретической главе описаны лингвистические сложности работы с художественными текстами, а также обзор современных алгоритмов тематического моделирования. Особое внимание уделено выбору и адаптации алгоритмов для работы с художественными текстами. Были сопоставлены три модели – NMF, LDA и BERTopic с точки зрения интерпретируемости и чувствительности к контексту. BERTopic была выбрана в качестве наиболее эффективной благодаря способности учитывать смысловые нюансы нестандартных текстов. Отдельный акцент сделан на оптимизации этапов предобработки текста: нормализация, удаление жанровых стоп-слов и фильтрация повторяющихся структур для повышения точности модели. Исследование показало, что адаптация предобработки под особенности песенного дискурса значительно улучшает интерпретируемость выделяемых тематических кластеров. Полученные результаты подтвердили актуальность жанровой оптимизации при применении инструментов NLP к художественным текстам. Разработанная методика может служить основой для дальнейших исследований в области компьютерной лингвистики, культурной аналитики и междисциплинарных исследований языка и медиа. |