Academic Journal

Построение тематических моделей для анализа больших текстовых массивов в лесомелиоративных исследованиях

Bibliographic Details
Title: Построение тематических моделей для анализа больших текстовых массивов в лесомелиоративных исследованиях
Publisher Information: ООО Цифра, 2025.
Publication Year: 2025
Subject Terms: latent Dirichlet distribution, word clouds, Text Mining, защитное лесоразведение, thematic modelling, латентное распределение Дирихле, protective forestry, тематическое моделирование, облака слов, интеллектуальный анализ текстов
Description: Апробирована методика анализа информационного потенциала корпуса научных публикаций с применением методов тематического моделирования, в частности алгоритма Латентного распределения Дирихле (LDA). Исследование охватило 533 научные статьи и материалы конференций по тематике защитного лесоразведения, опубликованные с 2000 по 2024 год. Анализ проводился с использованием платформы Orange 3.38.0 с надстройкой для интеллектуального анализа текстов.Результаты показали эффективность LDA для выявления скрытых тематических паттернов в области защитного лесоразведения и агролесомелиорации. Оптимальное количество тем (10) было определено на основе показателей лог-перплексии (12772) и тематической согласованности (0,54). Визуализация результатов осуществлялась с помощью облака слов и многомерного шкалирования (MDS), что обеспечило наглядное представление ключевых тем и их взаимосвязей.Исследование демонстрирует потенциал тематического моделирования как инструмента для автоматизации анализа научной литературы, выявления трендов и пробелов в исследованиях, а также для поддержки принятия решений в области экологического управления и устойчивого развития лесных экосистем.
The methodology for analysing the information potential of the corpus of scientific publications was tested using thematic modelling methods, in particular the Latent Dirichlet Distribution Algorithm (LDA). The study covered 533 research articles and conference proceedings on the subject of protective forestry published from 2000 to 2024. The analysis was conducted using the Orange 3.38.0 platform with an extension for text mining.The results showed the effectiveness of LDA for identifying latent thematic patterns in the field of protective forestry and agroforestry. The optimal number of themes (10) was determined based on log-perplexity (12772) and thematic consistency (0.54). The results were visualised using word cloud and multidimensional scaling (MDS), which provided a visual representation of key themes and their relationships.The research demonstrates the potential of topic modelling as a tool to automate the analysis of scientific literature, identify trends and research gaps, and support decision-making in environmental management and sustainable development of forest ecosystems.
Международный научно-исследовательский журнал, Выпуск 8 (158) 2025
Document Type: Article
Language: Russian
DOI: 10.60797/irj.2025.158.33
Rights: CC BY
Accession Number: edsair.doi...........6be33c52bbe541a1ea33f739b42b10df
Database: OpenAIRE
Description
DOI:10.60797/irj.2025.158.33