?
Introducing the closure structure and the GDPM algorithm for mining and understanding a tabular dataset
Поиск паттернов является одной из наиболее развитых областей анализа данных. Такие алгоритмы часто содержат много евристик и недостаточно формализовны. В этой статье мы переспатриваем направление поиска паттернов, в частности поиск itemset'ов, позволяющих анализировать бинарные данные и находит осмысленные наборы признаков и ассоциативные правила. В статье описывается специальная структура замыканий на основании замкнутых паттернов и их, так называемых, отмычек. Эта структура определяет паттерны в терминах классов эквивалентностей. Кроме этой теоретический работы в статье вводится и описывает практический алгоритм GDPM для расчёта такой структуры. Особенностью работы этого алгоритма является то, что в качестве результата своей работы он позвляет получить характеристику выборки данных как целого, а не отдельные паттерны. Результаты работы алгоритма проверены на реальных выборках данных.