Academic Journal

Метод оценки эффективности мероприятий по формированию комфортной городской среды

Bibliographic Details
Title: Метод оценки эффективности мероприятий по формированию комфортной городской среды
Authors: Melnikov, A.V., Galagan, K.V.
Publisher Information: Издательский центр ЮУрГУ, 2024.
Publication Year: 2024
Subject Terms: semantic analysis, sentence transformer, TF-IDF, трансформеры, comfortable urban environment, семантический анализ, комфортная городская среда, transformers, УДК 004.822, NLP
Description: Мельников Андрей Витальевич, д-р техн. наук, проф., директор, Югорский научно-исследовательский институт информационных технологий, Ханты-Мансийск, Россия; MelnikovAV@uriit.ru. Галаган Константин Владимирович, аспирант кафедры цифровых технологий Института цифровой экономики, Югорский государственный университет, Ханты-Мансийск, Россия; galagankv@gmail.com. Andrey V. Melnikov, Dr. Sci. (Eng.), Prof., Director, Ugra Research Institute of Information Technologies, Khanty-Mansiysk, Russia; MelnikovAV@uriit.ru. Konstantin V. Galagan, Postgraduate Student of the Department of Digital Technologies, Institute of Digital Economy, Yugra State University, Khanty-Mansiysk, Russia; galagankv@gmail.com. В статье рассматривается актуальная проблема несоответствия реализуемых мероприятий по формированию комфортной городской среды реальным потребностям и ожиданиям граждан. Анализируются существующие методы оценки таких мероприятий, включая индексный метод оценки качества городской среды, применяемый в рамках национального проекта «Жилье и городская среда», а также различные социологические исследования и опросы. Отмечаются недостатки этих подходов, такие как ограниченность выборки респондентов и тематики опросов. Цель исследования – разработка метода оценки мероприятий по формированию комфортной городской среды на основе семантического сравнения мнений граждан из социальных сетей, поисковых запросов и описаний самих мероприятий с использованием алгоритмов обработки естественного языка. Материалы и методы. Для реализации поставленной цели используется комплексный подход, состоящий из четырех основных этапов. Этап 1. Предобработка исходных текстовых данных – удаление шумов, приведение слов к начальной форме (лемматизация) с помощью библиотеки pymorphy2, определение частей речи (POS-tagging). Этап 2. Извлечение ключевых словосочетаний (N-грамм) при помощи алгоритма TF-IDF с учетом частоты употребления в пределах отдельных сообщений и во всем массиве текстов. Расчет ранга значимости N-грамм. Этап 3. Получение векторного представления (word embeddings) для каждой ключевой N-граммы с использованием предобученной нейросетевой модели SBERT. Этап 4. Вычисление меры семантического сходства векторных представлений N-грамм из разных текстовых массивов (мнений граждан и описаний мероприятий) на основе косинусного расстояния. В качестве исходных данных используются тексты мнений граждан и описания мероприятий, направленных на формирование комфортной городской среды, относящиеся к Ханты-Мансийскому автономному округу. Результаты. Проведенный эксперимент пока- зал, что большинство проанализированных мероприятий, направленных на формирование комфортной городской среды, слабо коррелируют с реальными потребностями граждан. Заключение. Предложенный метод может использоваться в системах поддержки принятия решений для оценки и выбора наиболее эффективных мероприятий. The article deals with the urgent problem of inconsistency of the implemented measures to form a comfortable urban environment with the real needs and expectations of citizens. It analyzes the existing methods of assessing such measures, including the index method of assessing the quality of urban environment, used within the framework of the national project “Housing and Urban Environment”, as well as various sociological studies and surveys. The shortcomings of these approaches, such as the limited sample of respondents and survey topics, are noted. The aim of the study is to develop a method for evaluating measures to form a comfortable urban environment based on semantic comparison of citizens' opinions from social networks, search queries and descriptions of the measures themselves using natural language processing algorithms. Materials and methods. To realize the set goal, an integrated approach consisting of four main stages is used. Stage 1: Pre-processing of initial text data – noise removal, reduction of words to their initial form (lemmatization) using the pymorphy2 library, identification of parts of speech (POStagging). Stage 2: Extraction of key word combinations (N-grams) using the TF-IDF algorithm, taking into account the frequency of usage within individual messages and in the whole text array. Calculation of N-grams significance rank. Stage 3: Obtaining a vector representation (word embeddings) for each key N-gram using the pre-trained SBERT neural network model. Step 4: Computing a measure of semantic similarity of vector representations of N-grams from different text arrays (citizens' opinions and event descriptions) based on cosine distance. The texts of citizens' opinions and descriptions of measures aimed at the formation of a comfortable urban environment related to the Khanty-Mansi Autonomous Okrug are used as input data. Results. The experiment has shown that most of the analyzed measures aimed at the formation of a comfortable urban environment are poorly correlated with the real needs of citizens. Conclusion. The proposed method can be used in decision support systems to evaluate and select the most effective measures.
Document Type: Article
File Description: application/pdf
DOI: 10.14529/ctcr240108
Access URL: http://dspace.susu.ru/xmlui/handle/00001.74/62649
Accession Number: edsair.od......2425..75acf9c9ab5511bcf8944d8b722287b8
Database: OpenAIRE
Description
DOI:10.14529/ctcr240108