Loading [MathJax]/jax/output/SVG/config.js
Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2019, выпуск 18, том 1, страницы 30–56
DOI: https://doi.org/10.15622/sp.18.1.30-56
(Mi trspy1038)
 

Эта публикация цитируется в 16 научных статьях (всего в 16 статьях)

Искусственный интеллект, инженерия данных и знаний

Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification
[Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций]

O. V. Verkholyaka, H. Kayab, A. A. Karpova

a St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS)
b Namık Kemal University
Аннотация: Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
Ключевые слова: распознавание эмоций в речи, компьютерная паралингвистика, аффективные вычисления, представление признаков, моделирование контекста, искусственные нейронные сети, длинная кратковременная память.
Финансовая поддержка Номер гранта
Российский научный фонд 18-11-00145
Работа выполнена при поддержке Российского научного фонда (проект № 18-11-00145).
Поступила в редакцию: 24.08.2018
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.89
Язык публикации: английский
Образец цитирования: O. V. Verkholyak, H. Kaya, A. A. Karpov, “Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification”, Тр. СПИИРАН, 18:1 (2019), 30–56
Цитирование в формате AMSBIB
\RBibitem{VerKayKar19}
\by O.~V.~Verkholyak, H.~Kaya, A.~A.~Karpov
\paper Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification
\jour Тр. СПИИРАН
\yr 2019
\vol 18
\issue 1
\pages 30--56
\mathnet{http://mi.mathnet.ru/trspy1038}
\crossref{https://doi.org/10.15622/sp.18.1.30-56}
\elib{https://elibrary.ru/item.asp?id=37286131}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1038
  • https://www.mathnet.ru/rus/trspy/v18/i1/p30
  • Эта публикация цитируется в следующих 16 статьяx:
    1. Ruban Nersisson, Prithiraj Bhuyan, A. Mary Mekala, Elena Lyakso, 2023 3rd International Conference on Advanced Research in Computing (ICARC), 2023, 84  crossref
    2. Alexey Karpov, Anastasia Dvoynikova, Elena Ryumina, Lecture Notes in Networks and Systems, 776, Proceedings of the Seventh International Scientific Conference “Intelligent Information Technologies for Industry” (IITI'23), 2023, 3  crossref
    3. Yuanbang Zhang, Lin Cui, Xiaodong Sun, Kai Xue, 2023 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), 2023, 1  crossref
    4. Chunping Yu, Xin Wang, Shahid Hussain, “A Russian Continuous Speech Recognition System Based on the DTW Algorithm under Artificial Intelligence”, Journal of Robotics, 2022 (2022), 1  crossref
    5. Felicia Andayani, Lau Bee Theng, Mark TeeKit Tsun, Caslon Chua, 2022 5th International Conference on Computing and Informatics (ICCI), 2022, 087  crossref
    6. Ekaterina Sergeevna Pleshakova, Sergei Timurovich Gataullin, Aleksei Viktorovich Osipov, Mikhail Viktorovich Koroteev, Yuliya Vladislavovna Ushakova, “Recognition of Human Emotions by Voice in the Fight against Telephone Fraud”, Национальная безопасность / nota bene, 2022, № 5, 11  crossref
    7. Lirong Huang, Xizhong Shen, “Research on Speech Emotion Recognition Based on the Fractional Fourier Transform”, Electronics, 11:20 (2022), 3393  crossref
    8. Yuri Matveev, Anton Matveev, Olga Frolova, Elena Lyakso, Nersisson Ruban, “Automatic Speech Emotion Recognition of Younger School Age Children”, Mathematics, 10:14 (2022), 2373  crossref
    9. Ksenija Belskaya, Sergey Lytaev, Advances in Intelligent Systems and Computing, 1201, Advances in Neuroergonomics and Cognitive Engineering, 2021, 30  crossref
    10. Zhen-Tao Liu, Abdul Rehman, Min Wu, Wei-Hua Cao, Man Hao, “Speech emotion recognition based on formant characteristics feature extraction and phoneme type convergence”, Information Sciences, 563 (2021), 309  crossref
    11. Alexey Kashevnik, Igor Lashkov, Alexandr Axyonov, Denis Ivanko, Dmitry Ryumin, Artem Kolchin, Alexey Karpov, “Multimodal Corpus Design for Audio-Visual Speech Recognition in Vehicle Cabin”, IEEE Access, 9 (2021), 34986  crossref
    12. Sergey Lytaev, Advances in Intelligent Systems and Computing, 1201, Advances in Neuroergonomics and Cognitive Engineering, 2021, 207  crossref
    13. Barlian Henryranu Prasetio, Hiroki Tamura, Koichi Tanno, 2020 Joint 9th International Conference on Informatics, Electronics & Vision (ICIEV) and 2020 4th International Conference on Imaging, Vision & Pattern Recognition (icIVPR), 2020, 1  crossref
    14. Milana Bojanić, Vlado Delić, Alexey Karpov, “Call Redistribution for a Call Center Based on Speech Emotion Recognition”, Applied Sciences, 10:13 (2020), 4653  crossref
    15. Mikhail Uzdiaev, 2020 IEEE 10th International Conference on Intelligent Systems (IS), 2020, 399  crossref
    16. Dmitrii Levonevskii, Olga Shumskaya, Alena Velichko, Mikhael Uzdiaev, Dmitrii Malov, Smart Innovation, Systems and Technologies, 154, Proceedings of 14th International Conference on Electromechanics and Robotics “Zavalishin's Readings”, 2020, 511  crossref
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:228
    PDF полного текста:83
     
      Обратная связь:
    math-net2025_04@mi-ras.ru
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025