Разработка интеллектуальной системы автоматизированного формирования структурированных документов на основе аудиозаписей: выпускная квалификационная работа магистра

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: Разработка интеллектуальной системы автоматизированного формирования структурированных документов на основе аудиозаписей: выпускная квалификационная работа магистра
Στοιχεία εκδότη: Санкт-Петербургский политехнический университет Петра Великого, 2025.
Έτος έκδοσης: 2025
Θεματικοί όροι: автоматическое распознавание речи, neural network, automatic speech recognition, visual and measurement control, аудиосигнал, нейросеть, большие языковые модели, обработка естественного языка, визуально-измерительный контроль, речевая активность, audio signal, speech activity, text generation, large language models, генерация текста, natural language processing
Περιγραφή: This paper presents the essence of an approach to addressing a number of practical challenges in document management by using large language models for natural speech recognition and the generation of necessary reports based on an audio stream that has been transcribed. Several neural network models for speech recognition have been considered, including "Whisper", "Wav2Vec 2.0", "Google Speech-to-Text", "Microsoft Azure STT", "CMU Sphinx". After a detailed analysis of the architectures and operation principles, the most appropriate model was selected based on several criteria. The optimal noise reduction algorithm has been selected for the initial speech recognition model. The algorithms for text normalization and entity extraction have also been selected for use in the processing chain. Following the creation of a coherent text, the algorithms for text structuring and validation have been implemented. Eventually, a software package has been developed that converts an audio stream into a report file according to the required structure.
В данной работе изложена сущность подхода к решению ряда прикладных задач упрощения документооборота с помощью применения больших языковых моделей для распознавания естественной речи и формирования необходимой отчетности на основе расшифрованного аудиопотока. Рассмотрено несколько нейросетевых моделей для распознавания речи, среди них: «Whisper», «Wav2Vec 2.0», «Google Speech-to-Text», «Microsoft Azure STT», «CMU Sphinx». После детального анализа архитектур и принципа работы на основе ряда критериев выбрана наиболее подходящая модель. Для первично выбранной модели для распознавания речи был выбран оптимальный алгоритм шумоподавления. Для полученной цепочки обработки подобраны алгоритмы нормализации и извлечения сущностей из текста. После получения связного текста были выбраны алгоритмы для структуризации и валидации текста. В конечном итоге получен программный комплекс, преобразующий аудиопоток с высокой точностью в файл отчета согласно требуемой структуре.
Τύπος εγγράφου: Other literature type
Γλώσσα: Russian
DOI: 10.18720/spbpu/3/2025/vr/vr25-3808
Αριθμός Καταχώρησης: edsair.doi...........e697bc737dd414cc314712edede3f9a2
Βάση Δεδομένων: OpenAIRE
Περιγραφή
DOI:10.18720/spbpu/3/2025/vr/vr25-3808