?
Новый комплекс инструментов автоматической обработки текста для платформыTXM и его апробация на корпусе для анализа экстремистских текстов
ПлатформаTXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий,
кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпу-сов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структур-ных единиц анализа. Она интегрирована с единственным расширениемTreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позво-ляющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расши-рить и усложнить анализ корпусов в платформеTXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемыхTXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержа-щего тексты, оцененные экспертами как экстремистские, и«нейтральные» тексты схожей тематики(религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтомати-ческому выявлению потенциально противоправных текстов