Academic Journal

Эффективность применения различных спектральных признаков для классификации эмоций с помощью сверточной нейронной сети

Bibliographic Details
Title: Эффективность применения различных спектральных признаков для классификации эмоций с помощью сверточной нейронной сети
Publisher Information: ООО Цифра, 2024.
Publication Year: 2024
Subject Terms: спектральный контраст, искусственный интеллект, мел-частотные кепстральные коэффициенты, нейросетевой классификатор, хромограмма, классификация эмоций, artificial intelligence, машинное обучение, transformer architecture, архитектура трансформеров, emotion classification, русскоязычные данные, fine spectrogram, spectral contrast, chromogram, machine learning, мел-спектрограмма, neural network classifier, fine-frequency cepstral coefficients, self-learning, самообучение, Russian-language data
Description: В последние годы классификация эмоций в разговорной речи привлекла значительное внимание благодаря её применению в виртуальных ассистентах, обучении и анализе настроений. Несмотря на успехи в англоязычных исследованиях, русскоязычные данные, такие как Dusha и RESD, остаются недостаточно изученными. В этом исследовании анализируются спектральные признаки (MFCC, мел-спектрограмма, хромаграмма, спектральный контраст) для классификации эмоций с использованием сверточной нейронной сети. Эксперименты на наборах данных показали наибольшую точность при использовании мел-спектрограмм. Для набора данных RAVDESS точность составила 78%, для Dusha 62%, для RESD 73%. Комбинация признаков не улучшила результаты. Современные методы, такие как самообучение и трансформеры, эффективны, но требовательны к ресурсам. Предложена упрощенная нейросетевая модель для устройств с ограниченной производительностью, что расширяет её применение на смартфоны, умные часы и системы умного дома, обеспечивая высокую точность при низком энергопотреблении.
Emotion classification in spoken language has attracted considerable attention in recent years due to its application in virtual assistants, training and sentiment analysis. Despite the successes in English-language studies, Russian-language data such as Dusha and RESD remain understudied. This research analyses spectral features (MFCC, fine spectrogram, chromagram, spectral contrast) for emotion classification using convolutional neural network. Experiments on the datasets showed the highest accuracy using fine spectrograms. For the RAVDESS dataset, the accuracy was 78%, for Dusha 62%, and for RESD 73%. Combining features did not improve the results. Current methods such as self-learning and transformers are efficient but resource demanding. A simplified neural network model for performance constrained devices is proposed, which extends its application to smartphones, smartwatches and smart home systems, providing high accuracy with low power consumption.
Международный научно-исследовательский журнал, Выпуск 9 (147) 2024
Document Type: Article
Language: Russian
DOI: 10.60797/irj.2024.147.30
Rights: CC BY
Accession Number: edsair.doi...........69c4db499ad8fed10068f15c53eb288d
Database: OpenAIRE
Description
DOI:10.60797/irj.2024.147.30