• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Критерий MRMR и уменьшение размерности пространства признаков в задаче классификации спама поисковой системы

Белов А. В., Карбачинский И. О.

Веб спам  является одной из ключевых проблем современных поисковых систем в интернете. В данной работе мы исследуем эффективность применения различных методов уменьшения размерности пространства на примере спам классификатора поисковой системы go.mail.ru. Эффективное применение подобных методов позволяет значительно увеличить количество признаков и качество самого классификатора без потери в скорости обучения и классификации.  Был проведен ряд экспериментов с методами PCA (Principal Component Analysis) и RP (Random Projection). К сожалению, данные методы показали свою несостоятельность применительно к задачам подобного класса, из-за относительно малой размерности пространства признаков. Однако, данный эксперимент, привел к необходимости детального анализа самих признаков, участвующих в обучении. Инструментом подобного анализа был выбран критерий MRMR (Minimum Redundancy Maximum Relevance). Применение данного критерия позволило выявить бесполезные признаки, а также оценить эффективность каждого, участвующего в обучении признака.  Проведенное исследование позволило значительно повысить качество исследуемого классификатора без увеличения количества признаков. Результаты, описанные в данном исследовании, показывают эффективность критериев отбора признаков в задаче обучения на практике, и еще раз подчеркивают важность детального анализа данных и информативных признаков, которые выбираются для обучения.