Глава
Pragmatic Markers of Russian Everyday Speech: the Revised Typology and Corpus-Based Study
В книге
In this article we report some new experiments in the area of words clustering for the Russian language. We introduce a new clustering method that distributes words into classes according to their syntactic relations. We used a large untagged corpus (about 7,2 bln of words) to collect a set of such relations. The corpus was processed using a set of finite state automata that extracts syntactically dependent combinations having explicit structure. These automata were used to process only unambiguous text fragments because of combination of these techniques increases the quality of sampled input data. The modification of group average agglomerative clustering was used to separate words between clusters. The sampled set of clusters was tested using one of the semantic dictionaries of the Russian language. The NMI score calculated in this article is equal to 0.457 and F1-score is 0.607.
Обзор конференции "Логическая и лингвистическая прагматика. К 100-летию Г.П.Грайса", прошедшей на факультете философии НИУ ВШЭ 30 марта 2013 г.
Рассматривается понимание термина «банкротство» носителями современного русского, английского и французского языков как юристами, так и неюристами, участвующими в профессиональной коммуникации. Анализируется семный состав термина на основе лексикографических и законодательных дефиниций.
The project we present – Russian Learner Translator Corpus (RusLTC) is a multiple learner translator corpus which stores Russian students’ translations out of English and into it. The project is being developed by a cross-functional team of translator trainers and computational linguists in Russia. Translations are collected from several Russian universities; all translations are made as part of routine and exam assignments or as submissions for translation contests by students majoring in translation. As of March 2014 RusLTC contains the total of nearly 1.2 million word tokens, 258 source texts, and 1,795 translations. The paper gives a brief overview of the related research, describes the corpus structure and corpus-building technologies used; it also covers the query tool features and our error annotation solutions. In the final part we make a summary of the RusLTC-based research, its current practical applications and suggest research prospects and possibilities.
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
Обозначение отношения говорящего к содержанию высказывания опосредованным через взаимоотношение с собеседником обусловливает отнесение объективной модальности к конструктивным семантическим признакам дискурса, а субъективной - к неконструктивным (факультативным). В результате становится возможным более полный и точный когнитивно-дискурсивный анализ целого ряда микротекстов.
Интердисциплинарная монография, центральная тема которой – концептуализация времени и пространства в разных языках и культурах. Книга объединяет исследования по лингвистике, психологии, философии и антропологии в смелой попытке обнаружить сложное взаимодействие языка, культуры и познания в контексте человеческой коммуникации и взаимодействия.