Глава
Exploration of register-dependent lexical semantics using word embeddings
Труды 15-й международной научной конференции по искусственному интеллекту: методология, системы, применения (Болгария, Варна, 12-15 сентября 2012).
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
Область силовых процессов в универсальных онтологиях обычно описана значительно хуже, чем смежная с ней область пространственных отношений. В статье предпринята попытка показать возможный вариант семантического представления текста, описывающего ситуации силового взаимодействия с помощью онтологии и лексикона, созданного на ее базе.
Определение тональности документов (субъективной оценки автора текста) возникает в различных предметных областях, таких как социологические и маркетинговые исследования, разработка рекомендательных систем и т.д. В данной работе рассматривается задача извлечения оценочных слов. Наличие лексикона оценочных слов может упростить задачу извлечения мнений из текстовых данных, и потому выделение оценочных слов из текстов является одним из ключевых направлений исследований в области анализа мнений (Sentiment Analysis). В работе рассматриваются методы извлечения слов, основанные на использовании корпуса текстов, которые позволяют создавать различные списки слов для различных предметных областей. Полученные при помощи сравниваемых методов списки оценочных слов использовались в качестве признаков описания данных, подаваемых на вход различным алгоритмам машинного обучения, определяющим тональность текстов. Эксперименты показали, что использование оценочных слов в некоторых случаях позволяет снизить ошибку классификации на 20%, но что сами по себе оценочные слова не являются достаточными для решения этой задачи и должны быть использованы только в комбинации с другими признаками.
Concept discovery is a Knowledge Discovery in Databases (KDD) research field that uses human-centered techniques such as Formal Concept Analysis (FCA), Biclustering, Triclustering, Conceptual Graphs etc. for gaining insight into the underlying conceptual structure of the data. Traditional machine learning techniques are mainly focusing on structured data whereas most data available resides in unstructured, often textual, form. Compared to traditional data mining techniques, human-centered instruments actively engage the domain expert in the discovery process. This volume contains the contributions to CDUD 2011, the International Workshop on Concept Discovery in Unstructured Data (CDUD) held in Moscow. The main goal of this workshop was to provide a forum for researchers and developers of data mining instruments working on issues with analyzing unstructured data. We are proud that we could welcome 13 valuable contributions to this volume. The majority of the accepted papers described innovative research on data discovery in unstructured texts. Authors worked on issues such as transforming unstructured into structured information by amongst others extracting keywords and opinion words from texts with Natural Language Processing methods. Multiple authors who participated in the workshop used methods from the conceptual structures field including Formal Concept Analysis and Conceptual Graphs. Applications include but are not limited to text mining police reports, sociological definitions, movie reviews, etc.
В последней книге Франко Моретти собраны работы авто- ра за последние 20 лет (1994–2011). Объединяя под одной обложкой исследования разных текстов (пьесы Шекспи- ра, европейский роман XVIII–XIX вв., викторианская детек- тивная новелла и голливудские фильмы), книга является по сути сводным манифестом ученого. Моретти предлагает новый принцип изучения литературы — «дальнее чтение», противопоставленный привычному «медленному чтению» (“close reading”), и использует его для работы с большими корпусами текстов, обычно остающихся за пределами вни- мания (и возможностей) исследований, применяющих бо- лее традиционную оптику. Моретти предлагает «читать» большие массивы текстов, объединяя несколько подходов к культурной продукции: количественные методы, эволю- ционный подход к литературным формам, и миросистем- ный анализ, позволяющий проследить экспорт культурных открытий в мировом пространстве.
Книга заинтересует широкие круги гуманитариев — Мо- ретти является центральной фигурой в активно развиваю- щихся цифровых гуманитарных науках (digital humanities), которые меняют взгляд на изучение целых пластов куль- турной продукции. Комплексная методология автора включает в круг читателей как историков, так и социологов; культурологов и искусствоведов.