Аннотация:
Работа посвящена методам построения социально-демографического профиля пользователей Интернета. Примерами демографических атрибутов являются пол, возраст, политические и религиозные взгляды, район проживания, состояние отношений с другими людьми. Эта работа представляет собой обзор методов, которые обнаруживают демографические атрибуты из профиля пользователя и сообщений. Большинство известных работ посвящены выявлению пола. Возраст, политические взгляды и области также интересуют исследователей.
Самыми популярными источниками данных для извлечения демографических атрибутов являются социальные сети, такие как Facebook, Twitter, Youtube.
Большинство решений основано на машинном обучении с учителем. Машинное обучение позволяет найти целевые значения (демографические атрибуты) в зависимости от входных данных и использовать их, чтобы предсказать значение целевого атрибута для новых данных. в работе анализируются следующие шаги решения задачи: сбор данных, извлечение признаков, отбор информативных признаков, методы обучения классификаторов, оценка качества.
Исследования используют различные виды данных, чтобы предсказать демографические атрибуты. Самым популярным источником данных является текст. Последовательности слов (п-граммы), части речи, смайлики, особенности относящиеся к конкретным ресурсам (например, @ и # в Twitter) извлекаются и используются в качестве входных данных для алгоритмов машинного обучения. Социальные графы также используются в качестве исходных данных. Сообщества пользователей, которые автоматически извлекаются из социального графа пользователем в качестве признаков для прогнозирования атрибутов. Текстовые данные дает много возможностей. Алгоритмы выбора признаков необходимы для снижения признакового пространства.
В статье исследуются функции выбора, классификации и регрессии алгоритмы, показатели оценки.
Ключевые слова:
демографические атрибуты, демографические характеристики, социальные сети, обработка текстов на естественном языке, машинное обучение.
Реферативные базы данных:
Тип публикации:
Статья
Образец цитирования:
А. Г. Гомзин, С. Д. Кузнецов, “Методы построения социо-демографических профилей пользователей сети Интернет”, Труды ИСП РАН, 27:4 (2015), 129–144
\RBibitem{GomKuz15}
\by А.~Г.~Гомзин, С.~Д.~Кузнецов
\paper Методы построения социо-демографических профилей пользователей сети Интернет
\jour Труды ИСП РАН
\yr 2015
\vol 27
\issue 4
\pages 129--144
\mathnet{http://mi.mathnet.ru/tisp167}
\crossref{https://doi.org/10.15514/ISPRAS-2015-27(4)-7}
\elib{https://elibrary.ru/item.asp?id=24928726}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp167
https://www.mathnet.ru/rus/tisp/v27/i4/p129
Эта публикация цитируется в следующих 3 статьяx:
Andrey Gomzin, Mikhail Drobyshevskiy, Denis Turdakov, 2021 55th Annual Conference on Information Sciences and Systems (CISS), 2021, 1
Danil Shaikhelislamov, Mikhail Drobyshevskiy, Denis Turdakov, Alexander Yatskov, Maksim Varlamov, Denis Aivazov, 2020 Ivannikov Memorial Workshop (IVMEM), 2020, 43
А. Г. Гомзин, С. Д. Кузнецов, “Метод автоматического определения возраста пользователей с помощью социальных связей”, Труды ИСП РАН, 28:6 (2016), 171–184