Аннотация:
Работа посвящена разработке метода выделения сюжетов в новостях на русском языке. Сюжетом мы считаем группу новостей про одно событие реального мира. Предлагается двухэтапная схема кластеризации, при которой результаты первого «грубого» шага уточняются с помощью бинарного классификатора на парах новостей. В рамках работы создан размеченный на принадлежность сюжетам корпус новостей на русском языке, доступный для скачивания. На этом наборе данных показывается, что предложенный метод превосходит существующие решения по основным внешним метрикам кластеризации.
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта No 18-07-01059.
Тип публикации:
Статья
Образец цитирования:
К. А. Скорняков, А. С. Ласкина, Д. Ю. Турдаков, “Двухшаговый метод объединения новостей в сюжеты”, Труды ИСП РАН, 32:4 (2020), 165–174
\RBibitem{SkoLasTur20}
\by К.~А.~Скорняков, А.~С.~Ласкина, Д.~Ю.~Турдаков
\paper Двухшаговый метод объединения новостей в сюжеты
\jour Труды ИСП РАН
\yr 2020
\vol 32
\issue 4
\pages 165--174
\mathnet{http://mi.mathnet.ru/tisp532}
\crossref{https://doi.org/10.15514/ISPRAS-2020-32(4)-12}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp532
https://www.mathnet.ru/rus/tisp/v32/i4/p165
Эта публикация цитируется в следующих 1 статьяx:
D. Yu. Turdakov, S. V. Garbuk, P. V. Khenkin, I. S. Kozlov, A. V. Laguta, M. I. Varlamov, “A Model and Method for Detecting Information Campaigns”, Program Comput Soft, 47:4 (2021), 261