Аннотация:
В работе рассматривается задача цензурирования данных из области медицинской диагностики. Предполагается, что в анализируемой выборке могут встречаться ошибочно диагностированные объекты. Подобные объекты оказывают негативное влияние на процедуру анализа данных и поиск содержащихся в них закономерностей, что замедляет процесс получения результатов и ведет к их искажению. Предложенная процедура цензурирования позволяет отыскивать такие объекты и либо удалять их, либо исправлять ошибки в диагностическом (целевом) признаке. Исправление ошибок предпочтительнее в том случае, когда исходная выборка мала, так как это позволяет максимально сохранить полезную информацию, содержащуюся в выборке. Для решения поставленной задачи используется функция конкурентного сходства, с помощью которой оценивается локальное сходство объектов со своими ближайшими соседями. Будучи усредненными по всей выборке, величины локального сходства дают представление о том насколько сильно различаются классы объектов с разными диагнозами на основе имеющихся данных. При этом предполагается, что если в выборке присутствуют неверно диагностированные объекты, то их сходство с ближайшими аналогами из своего класса низкое, и их исключение или коррекция целевого признака позволит увеличить общую разделимость выборки. Процедура коррекции-фильтрации неверно диагностированных объектов основана на наблюдении за изменениями в оценке разделимости классов, вычисленной до и после внесения исправлений в выборку. Процесс цензурирования продолжается до достижения точки перегиба функции разделимости. Для тестирования предложенного метода использовался ряд модельных задач различной сложности. Кроме того этот метод применялся к задачам диагностики диабета, рака груди по результатам биопсии, болезни Паркинсона по нарушениям речи. Предложенный метод показал высокую чувствительность по отношению к ошибочно диагностированным объектам, а исправление таких ошибок позволило улучшить качество классификации при незначительном сокращении объема обучающей выборки.
Работа выполнена при поддержке Российского фонда фундаментальных исследований, проект № 16-07-00168.
Материал поступил в редакцию 31.01.2018, опубликован 27.03.2018
Тип публикации:
Статья
УДК:
519.95
Образец цитирования:
И. А. Борисова, О. А. Кутненко, “Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства”, Матем. биология и биоинформ., 13:1 (2018), 38–49
\RBibitem{BorKut18}
\by И.~А.~Борисова, О.~А.~Кутненко
\paper Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства
\jour Матем. биология и биоинформ.
\yr 2018
\vol 13
\issue 1
\pages 38--49
\mathnet{http://mi.mathnet.ru/mbb326}
\crossref{https://doi.org/10.17537/2018.13.38
}
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mbb326
https://www.mathnet.ru/rus/mbb/v13/i1/p38
Эта публикация цитируется в следующих 2 статьяx:
О. А. Кутненко, А. В. Плясунов, “NP-трудность некоторой задачи цензурирования данных”, Дискретн. анализ и исслед. опер., 28:2 (2021), 60–73; O. A. Kutnenko, A. V. Plyasunov, “NP-hardness of some data cleaning problem”, J. Appl. Industr. Math., 15:2 (2021), 285–291
И. А. Борисова, О. А. Кутненко, “Очистка данных от диагностических ошибок в признаковых пространствах большой размерности”, Матем. биология и биоинформ., 14:2 (2019), 464–476