Распознование эмоций по голосу: выпускная квалификационная работа бакалавра

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: Распознование эмоций по голосу: выпускная квалификационная работа бакалавра
Στοιχεία εκδότη: Санкт-Петербургский политехнический университет Петра Великого, 2025.
Έτος έκδοσης: 2025
Θεματικοί όροι: PCA, neural network, распознавание эмоций, deep learning, фрактальные размерности, спектрограмма, нейронная сеть, SER, MFCC, spectrogram, emotion recognition, F-test, F-критерий, fractal dimensions, глубокое обучение, CNN
Περιγραφή: Тема выпускной квалификационной работы: «Разработка системы распо знавания эмоций по голосу с использованием фрактальных характеристик». Работа состоит из нескольких этапов: обзор предметной области, описание системы, программная реализация модели и анализ результатов. В данной работе производится изучение сферы речевого распознавания эмоций, анализ и выявле ние основных компонентов, которые необходимы для построения современной системы SER. Были разработаны функции и методы для извлечения речевых признаков, включая MFCC, мел-спектрограммы, частоту пересечения нуля и четыре типа фрактальных размерностей: Каца, Кастильони, Петросяна и Хигучи. Реализована архитектура одномерной сверточной нейронной сети с использованием методов регуляризации и снижения размерности через PCA. В качестве результатов получены шесть обученных моделей на русско язычном датасете DUSHA. Базовая модель показала точность 78,11%, модель с полным набором фрактальных размерностей достигла 82,76%. Статистический анализ подтвердил значимость улучшений (p
The subject of the graduate qualification work: "Development of a speech emo tion recognition system using fractal characteristics". The work consists of several stages: literature review, system description, soft ware implementation of the model, and results analysis. This work studies the field of speech emotion recognition, analyzes and identifies the main components necessary for building a modern SER system. Functions and methods for extracting speech features were developed, including MFCC, mel-spectrograms, zero crossing rate, and four types of fractal dimensions: Katz, Castiglioni, Petrosian, and Higuchi. A one-dimensional convolutional neural net work architecture was implemented using regularization methods and dimensionality reduction through PCA. As results, six trained models were obtained on the Russian-language DUSHA dataset. The baseline model showed an accuracy of 78.11%, while the model with the full set of fractal dimensions achieved 82.76%. Statistical analysis confirmed the sig nificance of improvements (p
Τύπος εγγράφου: Other literature type
Γλώσσα: Russian
DOI: 10.18720/spbpu/3/2025/vr/vr25-3032
Αριθμός Καταχώρησης: edsair.doi...........9fb0b2a6edd7eb5abdfbb769ddf4edd5
Βάση Δεδομένων: OpenAIRE
Περιγραφή
DOI:10.18720/spbpu/3/2025/vr/vr25-3032