Loading [MathJax]/jax/output/SVG/config.js
Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2024, том 520, номер 2, страницы 284–294
DOI: https://doi.org/10.31857/S2686954324700644
(Mi danma607)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

RuSciBench: открытый бенчмарк для оценки семантических векторных представлений научных текстов на русском и английском языках

А. С. Ватолинa, Н. А. Герасименкоabc, А. О. Янинаd, К. В. Воронцовadc

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
b SberAI, Москва, Россия
c Институт искусственного интеллекта Московского государственного университета им. М.В. Ломоносова, Москва, Россия
d Московский физико-технический университет, Долгопрудный, Московская область, Россия
Аннотация: Распространение открытий и знаний в научном сообществе – важная задача. Большая часть научных статей в мире написана на английском языке, что делает сложным обмен научными знаниями в странах, где большая часть населения не владеет английским языком свободно. В современном мире машинный перевод и языковые модели помогают решить эту проблему, но отсутствие или малое количество данных на выбранном языке не позволяют тренировать и валидировать модели. Чтобы решить эту проблему, мы предлагаем первый бенчмарк для оценки качества работы моделей для получения семантических векторных представлений научных статей на русском и английском языках. Он состоит из данных русской электронной библиотеки научных статей eLibrary. Мы также предлагаем набор задач, которые можно использовать для тренировки различных моделей на наших данных и приводим подробный сравнительный анализ результатов передовых моделей на нашем бенчмарке.
Ключевые слова: сбор датасетов, бенчмарк, большие языковые модели, оценка качества работы больших языковых моделей, семантические векторные представления.
Поступило: 27.09.2024
Принято к публикации: 02.10.2024
Англоязычная версия:
Doklady Mathematics, 2024, Volume 110, Issue suppl. 1, Pages S251–S260
DOI: https://doi.org/10.1134/S1064562424602191
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.048
Образец цитирования: А. С. Ватолин, Н. А. Герасименко, А. О. Янина, К. В. Воронцов, “RuSciBench: открытый бенчмарк для оценки семантических векторных представлений научных текстов на русском и английском языках”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 284–294; Dokl. Math., 110:suppl. 1 (2024), S251–S260
Цитирование в формате AMSBIB
\RBibitem{VatGerYan24}
\by А.~С.~Ватолин, Н.~А.~Герасименко, А.~О.~Янина, К.~В.~Воронцов
\paper RuSciBench: открытый бенчмарк для оценки семантических векторных представлений научных текстов на русском и английском языках
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2024
\vol 520
\issue 2
\pages 284--294
\mathnet{http://mi.mathnet.ru/danma607}
\crossref{https://doi.org/10.31857/S2686954324700644}
\elib{https://elibrary.ru/item.asp?id=80287455}
\transl
\jour Dokl. Math.
\yr 2024
\vol 110
\issue suppl. 1
\pages S251--S260
\crossref{https://doi.org/10.1134/S1064562424602191}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma607
  • https://www.mathnet.ru/rus/danma/v520/i2/p284
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:27
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025