Глава
SyntaxNet Errors from the Linguistic Point of View
В книге

Труды 15-й международной научной конференции по искусственному интеллекту: методология, системы, применения (Болгария, Варна, 12-15 сентября 2012).
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
Область силовых процессов в универсальных онтологиях обычно описана значительно хуже, чем смежная с ней область пространственных отношений. В статье предпринята попытка показать возможный вариант семантического представления текста, описывающего ситуации силового взаимодействия с помощью онтологии и лексикона, созданного на ее базе.
Книга представляет собой сборник статей по результатам 23-й Скандинавской конференции по лингвистике, которая проходила в Университете г. Упсалы 1–3 октября 2008 года. Тема конференции – «Многоязычие». В сборнике опубликованы статьи, охватывающие широкий круг лингвистических проблем, таких как: типологические исследования, языковое варьирование и языковые изменения в ситуациях языковых контактов, а также двуязычие и трудности, связанные с освоением второго и иностранного языков.
Определение тональности документов (субъективной оценки автора текста) возникает в различных предметных областях, таких как социологические и маркетинговые исследования, разработка рекомендательных систем и т.д. В данной работе рассматривается задача извлечения оценочных слов. Наличие лексикона оценочных слов может упростить задачу извлечения мнений из текстовых данных, и потому выделение оценочных слов из текстов является одним из ключевых направлений исследований в области анализа мнений (Sentiment Analysis). В работе рассматриваются методы извлечения слов, основанные на использовании корпуса текстов, которые позволяют создавать различные списки слов для различных предметных областей. Полученные при помощи сравниваемых методов списки оценочных слов использовались в качестве признаков описания данных, подаваемых на вход различным алгоритмам машинного обучения, определяющим тональность текстов. Эксперименты показали, что использование оценочных слов в некоторых случаях позволяет снизить ошибку классификации на 20%, но что сами по себе оценочные слова не являются достаточными для решения этой задачи и должны быть использованы только в комбинации с другими признаками.
В сборнике рассматриваются различные аспекты грамматических отношений и аргументной структуры в языках Европы и Северной и Центральной Азии. В зависимости от языка авторы анализируют такие проблемы как: расщепление непереходности (баскский), образование каузативов (агульский), переходность и каузативы (корейский и японский), связь аспекта и квантификации (финнский и удмуртский), вершинное маркирование (атапаскские языки) и связь аргументной структуры с прагматикой (восточные диалекты хантыйского языка и хибе). Статьи, посвященные типологии аргументных свойств глаголов давания, типологии согласовательных систем, проблематике языковых союзов, пространственных отношений, ядерных аргументов и общей типологии грамматических отношений, базируются на анализе данных разноструктурных языков.