• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Препринт

Object-Attribute Biclustering for Elimination of Missing Genotypes in Ischemic Stroke Genome-Wide Data

Lecture Notes in Computer Science. LNCS. Springer, 2020
Ignatov D. I., Khvorykh G. V., Khrunin A. V., Nikolic S., Shaban M., Petrova E. A., Koltsova E. A., Fouzi T., Egurnov D.
Отсутствующие генотипы могут повлиять на эффективность подходов машинного обучения к выявлению генетических вариантов риска распространенных заболеваний и признаков. Проблема возникает, когда генотипические данные собираются в разных экспериментах с разными ДНК-микрочипами, каждый из которых характеризуется своим набором неустановленных (отсутствующих) генотипов. Это может помешать машинному классификатору правильно назначать классы. Чтобы решить эту проблему, мы использовали хорошо изученные понятия бикластеров объект-атрибут и формальные понятия, которые соответствуют плотным подотношениям в бинарных отношениях пациенты-SNP. В статье представлены экспериментальные результаты по применению алгоритма бикластеризации к большому набору реальных данных, собранных для изучения генетических основ ишемического инсульта. Алгоритм мог идентифицировать большие плотные бикластеры в генотипической матрице для дальнейшей обработки, что, в свою очередь, значительно улучшило качество классификаторов машинного обучения. Предложенный алгоритм также смог сгенерировать бикластеры для всего набора данных без ограничений по размеру по сравнению с алгоритмом In-Close4 для генерации формальных понятий.