Аннотация:
Предлагаются подходы к решению задачи идентификации информационных объектов (ИО) в автоматизированных информационных системах (АИС), предназначенных для сбора, хранения и обработки данных, имеющих большое количество узлов и получающих данные из различных источников. Массив данных в рассматриваемых информационных системах, как правило, представляет собой постоянно пополняемый журнал событий. Каждая запись о событии содержит характеристики участника события — ИО и обстоятельства события. Для решения аналитических задач, связанных с ИО, необходимо идентифицировать ИО, т. е. определить множество ИО, представляющих собой с некоторой вероятностью одну и ту же сущность. В работе сформулирована постановка задач идентификации информационных объектов, часто встречающихся на практике при создании больших информационных систем: слияние ИО и кластеризация ИО, т. е. составление совокупностей ИО, «похожих» по некоторому критерию. Отмечено, что с задачей идентификации тесно связана задача поиска связей между ИО, поскольку вероятность идентичности двух ИО повышается, если выявляется связь каждого из них, например, с некоторым третьим ИО. Указаны способы решения этих задач, отмечена специфика идентификации ИО в потоке событий, приведен метод корреляционного поиска для выявления связи между ИО. Приведены методы сравнения имен собственных с учетом возможных искажений в них — фонетических, транскрипционных, а также просто опечаток. Указана целесообразность использования при идентификации физических лиц (ФЛ) данных фамильно-именной группы и в кириллице, и в латинице.
Ключевые слова:
идентификация информационных объектов; идентификация объектов; корреляционный поиск; поиск связей; идентичность объектов; слияние информационных объектов; слияние объектов; текстовые атрибуты; искажения данных; фонетические искажения; транскрипционные искажения; перевод из латиницы в кириллицу; Metaphone; расстояние Левенштейна; распределенные информационные системы.
Поступила в редакцию: 26.02.2014
Реферативные базы данных:
Тип публикации:
Статья
Образец цитирования:
М. М. Гершкович, Т. К. Бирюкова, “Задачи идентификации информационных объектов в распределенных массивах данных”, Системы и средства информ., 24:1 (2014), 224–243
\RBibitem{GerBir14}
\by М.~М.~Гершкович, Т.~К.~Бирюкова
\paper Задачи идентификации информационных объектов в~распределенных массивах данных
\jour Системы и средства информ.
\yr 2014
\vol 24
\issue 1
\pages 224--243
\mathnet{http://mi.mathnet.ru/ssi339}
\crossref{https://doi.org/10.14357/08696527140114}
\elib{https://elibrary.ru/item.asp?id=21811519}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi339
https://www.mathnet.ru/rus/ssi/v24/i1/p224
Эта публикация цитируется в следующих 3 статьяx:
Т. К. Бирюкова, М. М. Гершкович, “Методы оптимизации скорости выполнения функциональных запросов в автоматизированных информационных системах с учетом смыслового анализа информации”, Системы и средства информ., 33:4 (2023), 82–91
Vadym Mukhin, Valerii Zavgorodnii, Viacheslav Liskin, Sergiy Syrota, Vasyl Koval, Liudmyla Honchar, 2023 IEEE 12th International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS), 2023, 1189
S. I. Suyatinov, A. M. Khudyakov, M. S. Uvarova, “A Regularization-Based Method of Identification of Information Objects”, Autom. Doc. Math. Linguist., 56:6 (2022), 324