Глава
NRU-HSE at SemEval-2017 Task 4: Tweet Quantification Using Deep Learning Architecture
В книге
Труды 15-й международной научной конференции по искусственному интеллекту: методология, системы, применения (Болгария, Варна, 12-15 сентября 2012).
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
Область силовых процессов в универсальных онтологиях обычно описана значительно хуже, чем смежная с ней область пространственных отношений. В статье предпринята попытка показать возможный вариант семантического представления текста, описывающего ситуации силового взаимодействия с помощью онтологии и лексикона, созданного на ее базе.
Определение тональности документов (субъективной оценки автора текста) возникает в различных предметных областях, таких как социологические и маркетинговые исследования, разработка рекомендательных систем и т.д. В данной работе рассматривается задача извлечения оценочных слов. Наличие лексикона оценочных слов может упростить задачу извлечения мнений из текстовых данных, и потому выделение оценочных слов из текстов является одним из ключевых направлений исследований в области анализа мнений (Sentiment Analysis). В работе рассматриваются методы извлечения слов, основанные на использовании корпуса текстов, которые позволяют создавать различные списки слов для различных предметных областей. Полученные при помощи сравниваемых методов списки оценочных слов использовались в качестве признаков описания данных, подаваемых на вход различным алгоритмам машинного обучения, определяющим тональность текстов. Эксперименты показали, что использование оценочных слов в некоторых случаях позволяет снизить ошибку классификации на 20%, но что сами по себе оценочные слова не являются достаточными для решения этой задачи и должны быть использованы только в комбинации с другими признаками.
The CCIS series is devoted to the publication of proceedings of computer science conferences. Its aim is to efficiently disseminate original research results in informatics in printed and electronic form. While the focus is on publication of peer-reviewed full papers presenting mature work, inclusion of reviewed short papers reporting on work in progress is welcome, too. Besides globally relevant meetings with internationally representative program committees guaranteeing a strict peer-reviewing and paper selection process, conferences run by societies or of high regional or national relevance are also considered for publication.
Concept discovery is a Knowledge Discovery in Databases (KDD) research field that uses human-centered techniques such as Formal Concept Analysis (FCA), Biclustering, Triclustering, Conceptual Graphs etc. for gaining insight into the underlying conceptual structure of the data. Traditional machine learning techniques are mainly focusing on structured data whereas most data available resides in unstructured, often textual, form. Compared to traditional data mining techniques, human-centered instruments actively engage the domain expert in the discovery process. This volume contains the contributions to CDUD 2011, the International Workshop on Concept Discovery in Unstructured Data (CDUD) held in Moscow. The main goal of this workshop was to provide a forum for researchers and developers of data mining instruments working on issues with analyzing unstructured data. We are proud that we could welcome 13 valuable contributions to this volume. The majority of the accepted papers described innovative research on data discovery in unstructured texts. Authors worked on issues such as transforming unstructured into structured information by amongst others extracting keywords and opinion words from texts with Natural Language Processing methods. Multiple authors who participated in the workshop used methods from the conceptual structures field including Formal Concept Analysis and Conceptual Graphs. Applications include but are not limited to text mining police reports, sociological definitions, movie reviews, etc.