Технології конвертації голосових даних у текстовий формат

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος:	Технології конвертації голосових даних у текстовий формат
Συνεισφορές:	Кот, Анатолій Тарасович, ELAKPI
Στοιχεία εκδότη:	КПІ ім. Ігоря Сікорського, 2025.
Έτος έκδοσης:	2025
Θεματικοί όροι:	wav2vec, конвертація голосових даних, whisper, deep learning, автоматичне розпізнавання мовлення, ctc, wer
Περιγραφή:	Дипломна робота: 84 с., 10 рис., 9 табл., 14 посилань. У дипломній роботі досліджено методи й архітектури систем автоматичного розпізнавання мовлення (ASR), які дозволяють здійснювати точне перетворення аудіоінформації у текстовий формат. Проведено порівняльний аналіз класичних (HMM, GMM) і сучасних (RNN, Transformer, CTC) підходів. Описано принципи екстракції ознак (MFCC, лог-мел-спектрограми), оцінено вплив шумів і мовних варіацій на точність розпізнавання. Реалізовано прототип системи на базі моделей Whisper та Wav2Vec2, проведено тестування на реальних аудіоданих з використанням метрик WER та CER. Зроблено функціонально-вартісний аналіз і обґрунтовано вибір оптимального рішення для практичної інтеграції.
Τύπος εγγράφου:	Bachelor thesis
Περιγραφή αρχείου:	application/pdf
Γλώσσα:	Ukrainian
Σύνδεσμος πρόσβασης:	https://ela.kpi.ua/handle/123456789/75893
Αριθμός Καταχώρησης:	edsair.od......2635..60d3259d7c3db9adf6dbfc879b6f44c5
Βάση Δεδομένων:	OpenAIRE

View record at OpenAIRE

Περιγραφή
Η περιγραφή δεν είναι διαθέσιμη