Аннотация:
Приводятся результаты исследований моделей русского языка, построенных на основе рекуррентных искусственных нейронных сетей, для систем автоматического распознавания слитной речи. Созданы нейросетевые модели с различным числом элементов в скрытом слое, а также выполнена линейная интерполяция нейросетевых моделей с базовой триграммной моделью языка. Полученные модели использовались на этапе переоценки списка лучших гипотез распознавания. В ходе экспериментов по распознаванию слитной русской речи со сверхбольшим словарем (150 тыс. словоформ) относительное уменьшение процента неправильно распознанных слов, полученное после выполнения переоценки списка 50 лучших гипотез распознавания с использованием нейросетевых моделей языка, интерполированных с триграммной моделью, составило 14 %.
Ключевые слова:
модели языка, нейронные сети, автоматическое распознавание речи, русская речь.
Работа проводится при финансовой поддержке Российского фонда фундаментальных исследований (проекты № 15-07-04322, 15-07-04415 и 16-37-60100), совета по Грантам Президента РФ (проекты № МК-1000.2017.8 и № МД-254.2017.8), а также в рамках бюджетной темы 0073-2014-0005.
Статья представлена к публикации членом редколлегии:В. И. Васильев
Образец цитирования:
И. С. Кипяткова, А. А. Карпов, “Исследование нейросетевых моделей русского языка для систем автоматического распознавания слитной речи”, Автомат. и телемех., 2017, № 5, 110–122; Autom. Remote Control, 78:5 (2017), 858–867
\RBibitem{KipKar17}
\by И.~С.~Кипяткова, А.~А.~Карпов
\paper Исследование нейросетевых моделей русского языка для систем автоматического распознавания слитной речи
\jour Автомат. и телемех.
\yr 2017
\issue 5
\pages 110--122
\mathnet{http://mi.mathnet.ru/at14446}
\mathscinet{http://mathscinet.ams.org/mathscinet-getitem?mr=3670964}
\elib{https://elibrary.ru/item.asp?id=29206988}
\transl
\jour Autom. Remote Control
\yr 2017
\vol 78
\issue 5
\pages 858--867
\crossref{https://doi.org/10.1134/S0005117917050083}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000401992300008}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85019750824}
Abdinabi Mukhamadiyev, Mukhriddin Mukhiddinov, Ilyos Khujayarov, Mannon Ochilov, Jinsoo Cho, “Development of Language Models for Continuous Uzbek Speech Recognition System”, Sensors, 23:3 (2023), 1145
Wolk K., Wolk A., Wnuk D., Grzes T., Skubis I., “Survey on Dialogue Systems Including Slavic Languages”, Neurocomputing, 477 (2022), 62–84
Ashok Sharma, Ravindra Parshuram Bachate, Parveen Singh, Vinod Kumar, Ravi Kant Kumar, Amar Singh, Madan Kadariya, Praveen Kumar Reddy Maddikunta, “Parallel Big Bang-Big Crunch-LSTM Approach for Developing a Marathi Speech Recognition System”, Mobile Information Systems, 2022 (2022), 1
Amitoj Singh, Navkiran Kaur, Vinay Kukreja, Virender Kadyan, Munish Kumar, “Computational intelligence in processing of speech acoustics: a survey”, Complex Intell. Syst., 8:3 (2022), 2623
Thimmaraja Yadava G., Jayanna H.S., “Enhancements in Automatic Kannada Speech Recognition System By Background Noise Elimination and Alternate Acoustic Modelling”, Int. J. Speech Technol., 23:1 (2020), 149–167
P. S. Praveen Kumar, G. Thimmaraja Yadava, H. S. Jayanna, “Continuous kannada speech recognition system under degraded condition”, Circuits Syst. Signal Process., 39:1 (2020), 391–419
I. Kagirov, D. A. Ryumin, A. A. Axyonov, A. A. Karpov, “Multimedia database of russian sign language items in 3D”, Vopr. Yazykoznaniya, 2020, no. 1, 104–123
L. V. Savchenko, A. V. Savchenko, “Fuzzy phonetic encoding of speech signals in voice processing systems”, J. Commun. Technol. Electron., 64:3 (2019), 238–244
A. V. Zolotaryuk, V. I. Zavgorodniy, O. Yu. Gorodetskaya, “Intellectual prediction of student performance: opportunities and results”, Proceedings of the 1St International Scientific Conference Modern Management Trends and the Digital Economy: From Regional Development to Global Economic Growth (Mtde 2019), Aebmr-Advances in Economics Business and Management Research, 81, ed. A. Nazarov, Atlantis Press, 2019, 555–559
L. Pipiras, R. Maskeliunas, R. Damasevicius, “Lithuanian speech recognition using purely phonetic deep learning”, Computers, 8:4 (2019), 76
Thimmaraja Yadava G., H.S. Jayanna, 2019 4th International Conference on Electrical, Electronics, Communication, Computer Technologies and Optimization Techniques (ICEECCOT), 2019, 146
Irina Kipyatkova, Lecture Notes in Computer Science, 10458, Speech and Computer, 2017, 362