Academic Journal

ESTIMATION OF FORMANT INFORMATION USING AUTOCORRELATION FUNCTION OF VOICE SIGNAL

Λεπτομέρειες βιβλιογραφικής εγγραφής
Τίτλος: ESTIMATION OF FORMANT INFORMATION USING AUTOCORRELATION FUNCTION OF VOICE SIGNAL
Πηγή: Radio Electronics, Computer Science, Control; No. 3 (2024): Radio Electronics, Computer Science, Control; 144
Радиоэлектроника, информатика, управление; № 3 (2024): Радіоелектроніка, інформатика, управління; 144
Радіоелектроніка, iнформатика, управління; № 3 (2024): Радіоелектроніка, інформатика, управління; 144
Στοιχεία εκδότη: National University "Zaporizhzhia Polytechnic", 2024.
Έτος έκδοσης: 2024
Θεματικοί όροι: autocorrelation function, authentication, voice signal, speech recognition, formant information, spectrum width, автокореляційна функція, автентифікація, голосовий сигнал, розпізнавання мови, формантна інформація, ширина спектру
Περιγραφή: Context. The current scientific problem of extracting biometric characteristics of a user of a voice authentication system, which can significantly increase its reliability, is considered. There has been performed estimation of formant information from the voice signal, which is a part of the user template in the voice authentication system and is widely used in the processing of speech signals in other applications, including in the presence of interfering noise components. The work is distinguished by the investigation of a polyharmonic signal. Objective. The purpose of the work is to develop procedures for generating formant information based on the results of calculating the autocorrelation function of the analyzed fragment of the voice signal and their subsequent spectral analysis. Method. The procedures for generating formant information in the process of digital processing of voice signal are proposed. Initially, the autocorrelation function of the analyzed fragment of the voice signal is calculated. Based on the results of the autocorrelation function estimation, the amplitude-frequency spectrum is calculated, from which the formant information is extracted, for example, by means of threshold processing. When the signal-to-noise ratio of the analyzed voice signal fragment is low, it is advisable to iteratively calculate the autocorrelation function. The latter allows increasing the signal-to-noise ratio and the efficiency of formant information extraction. However, each subsequent iteration of the autocorrelation function calculation is associated with an increase in the required computational resource. The latter is conditioned by the doubling of the amount of processed data at each iteration. Results. The developed procedures for generating formant information were investigated both in the processing of model and experimental voice signals. The model signals had a low signal-to-noise ratio. The proposed procedures allow to determine more precisely the width of the spectrum of extracted formant frequencies, significantly increase the number of extracted formants, including cases at low signal-to-noise ratio. Conclusions. The conducted model experiments have confirmed the performance and reliability of the proposed procedures for extracting formant information both in the processing of model and experimental voice signals. The results of the research allow to recommend their use in practice for solving problems of voice authentication, speaker differentiation, speech and gender recognition, intelligence, counterintelligence, forensics and forensic examination, medicine (diseases of the speech tract and hearing). Prospects for further research may include the creation of procedures for evaluating formant information based on phase data of the processed voice signal.
Актуальність. Розглядається актуальне наукове завдання отримання біометричних ознак користувача системи голосової автентифікації, які дозволяють істотно підвищити її надійність. Виконано оцінка формантної інформації з голосового сигналу, яка входить в шаблон користувача системи голосової автентифікації і широко використовується при обробці мовних сигналів в інших додатках, у тому числі і за наявності шумових складових, що заважають. Особливістю роботи є те, що дослідженню піддається полігармонійний сигнал. Мета роботи – розробка процедур формування формантної інформації на основі результатів розрахунку автокореляційної функції аналізованого фрагмента голосового сигналу та подальшого їх спектрального аналізу. Метод. Пропонуються процедури формування формантної інформації у процесі цифрової обробки голосового сигналу. Спочатку розраховується автокореляційна функція аналізованого фрагмента голосового сигналу. На основі результатів оцінки автокореляційної функції розраховується амплітудно-частотний спектр, з якого вилучається формантна інформація, наприклад, за допомогою порогової обробки. При низькому відношенні сигнал/шум аналізованого фрагмента голосового сигналу розрахунок автокореляційної функції доцільно виконувати ітераційно. Останнє дозволяє підвищити співвідношення сигнал/шум та ефективність виділення формантної інформації. Однак кожна наступна ітерація розрахунку автокореляційної функції пов’язана зі збільшенням необхідного обчислювального ресурсу. Останнє зумовлено подвоєнням кількості даних, що обробляються при кожній ітерації. Результати. Розроблені процедури формування формантної інформації досліджено як при обробці модельних, так і експериментальних голосових сигналів. При цьому модельні сигнали мали низьке відношення сигнал/шум. Запропоновані процедури дозволяють більш точно визначити ширину спектра вилучаємих формантних частот, значно збільшити кількість формант, що виділяються, в тому числі і при низькому відношенні сигнал/шум. Висновки. Проведені модельні експерименти підтвердили працездатність і достовірність запропонованих процедур отримання формантної інформації як при обробці модельних, так і експериментальних голосових сигналів. Результати досліджень дозволяють рекомендувати їх до використання на практиці для вирішення завдань голосової автентифікації, розрізнення дикторів, розпізнавання мови та статі, розвідки, контррозвідки, криміналістики та судової експертизи, медицини (хвороби мовного тракту та слуху). Перспективи подальших досліджень можуть включати створення процедур оцінки формантної інформації на основі фазових даних, оброблюваного голосового сигналу.
Τύπος εγγράφου: Article
Περιγραφή αρχείου: application/pdf
Γλώσσα: English
ISSN: 1607-3274
2313-688X
Σύνδεσμος πρόσβασης: http://ric.zntu.edu.ua/article/view/312918
Rights: CC BY SA
Αριθμός Καταχώρησης: edsair.scientific.p..a939f7ac6b312f96be85e87ffa7ab03d
Βάση Δεδομένων: OpenAIRE