Loading [MathJax]/jax/output/SVG/config.js
Труды Института математики и механики УрО РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Тр. ИММ УрО РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды Института математики и механики УрО РАН, 2020, том 26, номер 3, страницы 56–68
DOI: https://doi.org/10.21538/0134-4889-2020-26-3-56-68
(Mi timm1745)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Сходимость алгоритма аддитивной регуляризации тематических моделей

И. А. Ирхин, К. В. Воронцов

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Список литературы:
Аннотация: Задача вероятностного тематического моделирования заключается в следующем. По заданной коллекции текстовых документов требуется найти условное распределение каждого документа по темам и условное распределение каждой темы по словам (или термам). Для решения данной задачи используется принцип максимума правдоподобия. Задача имеет в общем случае бесконечное множество решений, т. е. является некорректно поставленной по Адамару. В рамках подхода ARTM - аддитивной регуляризации тематических моделей к основному критерию добавляется взвешенная сумма нескольких дополнительных критериев регуляризации. Численный метод для решения данной задачи - разновидность итерационного EM-алгоритма, который выписывается в общем виде для произвольного гладкого регуляризатора, в том числе и для линейной комбинации гладких регуляризаторов. В работе исследуется вопрос о сходимости данного итерационного процесса. Получены достаточные условия сходимости, при которых процесс сходится к стационарной точке регуляризованного логарифма правдоподобия. Полученные ограничения на регуляризатор оказались не слишком обременительными. В работе даны их интерпретации с точки зрения практической реализации алгоритма. Предложена модификация алгоритма, которая улучшает его сходимость без дополнительных затрат времени и памяти. В экспериментах на коллекции новостных текстов показано, что данная модификации позволяет не только ускорить сходимость, но и улучшить значение оптимизируемого критерия.
Ключевые слова: обработка текстов естественного языка, вероятностное тематическое моделирование, вероятностный латентный семантический анализ (PLSA), латентное размещение Дирихле (LDA), аддитивная регуляризация тематических моделей (ARTM), EM-алгоритм, достаточные условия сходимости.
Финансовая поддержка Номер гранта
Фонд поддержки проектов Национальной технологической инициативы 7/1251/2019
Российский фонд фундаментальных исследований 20-07-00936
Работа выполнена в рамках проекта “Средства интеллектуального анализа больших массивов текстов” по Программе ЦК НТИ “Центр хранения и анализа больших данных”, поддерживаемого Министерством науки и высшего образования Российской Федерации по договору МГУ им. М.В. Ломоносова с Фондом поддержки проектов НТИ от 15.08.2019 № 7/1251/2019. Работа также частично поддержана РФФИ, проект 20-07-00936.
Поступила в редакцию: 20.07.2020
Исправленный вариант: 06.08.2020
Принята в печать: 17.08.2020
Англоязычная версия:
Proceedings of the Steklov Institute of Mathematics (Supplementary issues), 2021, Volume 315, Issue 1, Pages S128–S139
DOI: https://doi.org/10.1134/S0081543821060110
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.853.4
MSC: 90C30, 68T50
Образец цитирования: И. А. Ирхин, К. В. Воронцов, “Сходимость алгоритма аддитивной регуляризации тематических моделей”, Тр. ИММ УрО РАН, 26, № 3, 2020, 56–68; Proc. Steklov Inst. Math. (Suppl.), 315, suppl. 1 (2021), S128–S139
Цитирование в формате AMSBIB
\RBibitem{IrkVor20}
\by И.~А.~Ирхин, К.~В.~Воронцов
\paper Сходимость алгоритма аддитивной регуляризации тематических моделей
\serial Тр. ИММ УрО РАН
\yr 2020
\vol 26
\issue 3
\pages 56--68
\mathnet{http://mi.mathnet.ru/timm1745}
\crossref{https://doi.org/10.21538/0134-4889-2020-26-3-56-68}
\elib{https://elibrary.ru/item.asp?id=43893863}
\transl
\jour Proc. Steklov Inst. Math. (Suppl.)
\yr 2021
\vol 315
\issue , suppl. 1
\pages S128--S139
\crossref{https://doi.org/10.1134/S0081543821060110}
\isi{https://gateway.webofknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=Publons&SrcAuth=Publons_CEL&DestLinkType=FullRecord&DestApp=WOS_CPL&KeyUT=000592231900006}
\scopus{https://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85095712293}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/timm1745
  • https://www.mathnet.ru/rus/timm/v26/i3/p56
  • Эта публикация цитируется в следующих 2 статьяx:
    1. Konstantin Vorontsov, Springer Optimization and Its Applications, 202, Data Analysis and Optimization, 2023, 397  crossref
    2. Andrey M. Fedorov, Igor O. Datyev, Lecture Notes in Networks and Systems, 502, Artificial Intelligence Trends in Systems, 2022, 557  crossref
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды Института математики и механики УрО РАН
    Статистика просмотров:
    Страница аннотации:285
    PDF полного текста:103
    Список литературы:37
    Первая страница:8
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025