• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Использование вероятностного распределения над множеством классов в задаче классификации арабских диалектов

Дурандин О. В., Золотых Н. Ю., Хилал Н. Р., Стребков Д. Ю.

Предмет исследования. Предложен подход к решению задачи классификации, использующий информацию о распределении вероятностей на множестве классов в обучающей выборке. Алгоритм проиллюстрирован на одной из сложных задач автоматической обработки текстов на естественном языке – классификации арабских диалектов. Метод.Каждому объекту обучающей выборки сопоставляется распределение вероятностей над метками классов, вместо сопоставления единственной метки класса. Предлагаемый подход решает задачу с учетом распределения вероятностей над множеством классов для повышения качественных показателей работы классификатора. Основные результаты. Предложенный подход проиллюстрирован на примере задачи классификации арабских диалектов. Анализируемые данные,содержащие слова-метки,получены из социальной сети Twitter, относящиеся к шести арабским диалектам: саудовский, левантийский, алжирский, египетский, иракский, иорданский; использованы также сообщения на современном стандартном арабском языке (MSA). Показан рост качества классификации при учете вероятностного распределения над множеством классов в обучающей выборке. Показано, что даже относительно простой учет вероятностного распределения увеличивает точность предсказания с 44% до 67%. Практическая значимость.Предложенный подход и соответствующий алгоритм могут найти применение в случае, когда разметка данных экспертом требует значительных временных и финансовых ресурсов, но имеется возможность разработки эвристических правил. Реализация предложенного алгоритма позволит снизить затраты при подготовке данных без значительной потери точности классификации.