?
Beyond Delta: Introducing an Angle Metric for Stylometric Similarity
В статье рассматривается проблема измерения стилометрической близости между текстами. Традиционные методы, такие как дельта Берроуза и её модификации, имеют ряд ограничений, включая зависимость от референсного корпуса и чувствительность к размеру выборки, что делает их менее надёжными при работе с короткими текстами объёмом менее 5000 слов. В качестве альтернативы предлагается новая угловая метрика, основанная на вычислении угла между векторами относительных частот слов в многомерном пространстве. В отличие от классических подходов, предлагаемая метрика не требует z-преобразования и референсного корпуса, что делает её применимой для парного сравнения текстов в условиях ограниченных данных. Эксперименты, проведённые на корпусе англоязычных литературных произведений, демонстрируют, что угловая метрика успешно кластеризует тексты по автору и сохраняет устойчивость на фрагментах объёмом до 5000 слов. Обсуждаются потенциальные приложения метода в области авторской атрибуции, детекции плагиата и анализа стилистической эволюции. Работа открывает перспективы для создания корпусно-независимых методов стилометрического анализа, включая верификацию аутентичности учебных работ в эпоху генеративных нейросетей.
Язык:
английский