• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Метод кластеризации слов с использованием информации об их синтаксической связности

Клышинский Э. С., Кочеткова Н. А., Логачева В. К.

В статье излагаются результаты экспериментов в области кластеризации слов русского языка. Авторами был разработан новый метод кластеризации, позволяющий разделить слова по семантическим классам в соответствии с их синтаксическими связями с другими словами. Для проведения экспериментов был взят большой (около 7,2 млрд слов) неразмеченный корпус текстов, из которого были извлечены синтаксически связанные группы слов различного вида. Для извлечения подобных связей использовался набор конечных автоматов, обрабатывающих контактные группы слов, не омонимичных по части речи. Для экспериментов были использованы связи вида «существительное + прилагательное» и «глагол (+ предлог) + существительное». Для разделения слов по кластерам использовался модифицированный метод группового среднего. Качество разделения слов по кластерам было проверено с использованием «Русского семантического словаря» под общей редакцией Н. Ю. Шведовой. В итоге были получено значение NMI, равное 0,457, и F1-мера, равная 0,607.