?
Высокоуровневая семантическая интерпретация структуры статических моделей для русского языка
ной и практической деятельности. С течением времени стало понятно, что необходима разработка новых методов интерпретации расположения слов в векторном пространстве. Существующие методы включали рассмотрение узкого круга аналогий либо кластеризацию пространства. В последние годы активно развивается подход на основе пробинга – анализа влияния небольших изменений в модели на результат. В этой работе мы предлагаем метод интерпретации расположения слов в векторном пространстве, применимый ко всему пространству в целом. Метод позволяет выявлять основные направления, вдоль которых выделяются наиболее крупные группы
слов (около трети всех слов словаря), противопоставляемые друг другу по некоторым семантическим признакам, а также строить неглубокую иерархию таких признаков. Эксперименты были проведены на трех моделях, обученных на разных корпусах: Национальном корпусе русского языка, Araneum Russicum и коллекции научных статей из разных предметных областей. Для экспериментов использовались только имена существительные, входящие в словарь моделей. Рассмотрена экспертная интерпретация подобного разделения вплоть до третьего уровня. Набор и иерархия этих признаков отличаются для разных моделей, однако все они являются достаточно общими. Было обнаружено, что выделенные признаки разделения зависят от состава корпусов, на
которых проводилось обучение моделей, их направленности и стиля. Полученное разделение не всегда коррелирует с принятым в области разработки онтологий. Так, совпадающим признаком является абстрактность или вещность объекта. Однако для моделей на верхнем уровне оказывается более важным разделение на повседневную/специальную лексику, архаичную лексику, разделение на имена собственные и нарицательные. В статье приведены примеры слов, входящих в полученные группы.