В книге
В монографии, представляющей исследования коллектива авторов, обсуждаются проблемы семантики текста, рассматриваются его категории и структурные особенности, затрагиваются некоторые аспекты процессов его порождения и понимания, приводятся различные подходы к анализу речевых произведений разного типа, анализируются связи и отношения лингвистики текста с другими областями филологической науки. Монография может представлять интерес для специалистов в области лингвистики текста, психолингвистики, языкознания и широкого круга читателей, интересующихся проблемами филологии.
Статья является текстом часового пленарного доклада на открытии 18- международной конференции по автоматической обработке естественных языков (Франция, Университет Монпелье 2, 27 июня – 1 июля 2011 года).
The paper describes the structure and possible applications of the theory of K-representations (knowledge representations) in bioinformatics and in the development of a Semantic Web of a new generation. It is an original theory of designing semantic-syntactic analyzers of natural language (NL) texts with the broad use of formal means for representing input, intermediary, and output data. The current version of the theory is set forth in a monograph by V. Fomichov (Springer, 2010). The first part of the theory is a formal model describing a system consisting of ten operations on conceptual structures. This model defines a new class of formal languages – the class of SK-languages. The broad possibilities of constructing semantic representations of complex discourses pertaining to biology are shown. A new formal approach to developing multilingual algorithms of semantic-syntactic analysis of NL-texts is outlined. This approach is realized by means of a program in the language PYTHON.
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
Определение тональности документов (субъективной оценки автора текста) возникает в различных предметных областях, таких как социологические и маркетинговые исследования, разработка рекомендательных систем и т.д. В данной работе рассматривается задача извлечения оценочных слов. Наличие лексикона оценочных слов может упростить задачу извлечения мнений из текстовых данных, и потому выделение оценочных слов из текстов является одним из ключевых направлений исследований в области анализа мнений (Sentiment Analysis). В работе рассматриваются методы извлечения слов, основанные на использовании корпуса текстов, которые позволяют создавать различные списки слов для различных предметных областей. Полученные при помощи сравниваемых методов списки оценочных слов использовались в качестве признаков описания данных, подаваемых на вход различным алгоритмам машинного обучения, определяющим тональность текстов. Эксперименты показали, что использование оценочных слов в некоторых случаях позволяет снизить ошибку классификации на 20%, но что сами по себе оценочные слова не являются достаточными для решения этой задачи и должны быть использованы только в комбинации с другими признаками.
В статье рассматриваются 2 стороны процесса перевода окказиональных лексических новообразований: психолингвистическая и лингвистическая. Автор рассматривает проблемы, связанные с пониманием окказионального слова языка оригинала (психолингвистический аспект) и проблемы, возникающие при передаче окказионализма исходного языка с помощью языка перевода (лингвистический аспект).
This workshop is about major challenges in the overall process of MWE treatment, both from the theoretical and the computational viewpoint, focusing on original research related to the following topics:
Manually and automatically constructed resources Representation of MWEs in dictionaries and ontologies MWEs in linguistic theories like HPSG, LFG and minimalism MWEs and user interaction Multilingual acquisition Multilingualism and MWE processing Models of first and second language acquisition of MWEs Crosslinguistic studies on MWEs The role of MWEs in the domain adaptation of parsers Integration of MWEs into NLP applications Evaluation of MWE treatment techniques Lexical, syntactic or semantic aspects of MWEsВ настоящей статье представлены результаты оригинального исследования возможностей сентимент-анализа брендов как нового современного инструмента маркетинговых исследований. Авторы проанализировали упоминания о бренде iPad в российских журналистских блогах и микроблогах платформы Twitter. Предложен обобщенный алгоритм проведения сентимент-анализа брендов, состоящий из набора методов и рекомендаций по оценке и аналитической обработке данных в рамках рассматриваемой методологии.
Содержание статьи.
• Введение, или почему блогосфера становится полем для сбора маркетинговой информации • Что такое сентимент-анализ: категоризация основных подходов • Мировая практика проведения сентимент-анализа брендов в блогосфере • Трудности при проведении сентимент-анализа брендов • Описание исследования • Основные результаты исследования, выводы и рекомендации • Ограничения и направления будущих исследованийЯзык, давая возможность выразить бесконечно много мыслимых содержаний, не может выполнять эту роль без интерпретаций. В то же время из природы отношения «язык-содержание» вытекает, что не может быть задано никакой содержательной интерпретации бессодержательной знаковой системе языка. Это значит, что интерпретация привносится со стороны и что мышление определяет язык.