Глава
Korpusi i gjuhës shqipe: drejtimet kryesore të punës
В статье дается характеристика текущему состоянию проекта корпуса современного албанского языка, который разрабатывается в Санкт-Петербурге с участием сотрудников НИУ ВШЭ, а также обсуждаются основные направления дальнейшего развития ресурса http://web-corpora.net/AlbanianCorpus/search
В книге
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
Представленный ниже материал продолжает ряд статей автора, посвященных исследованию вопроса о тенденциях эволюции языковых единиц на различных сегментных уровнях современного английского языка. Однако же в то время как предыдущие исследования автора фокусировались на изменениях, происходящих на морфематическом и фразематическом (денотативном) уровнях языка, представленные ниже данные касаются вопроса преобразований языковых форм на уровне пропозем (уровне предложений), продолжая линию исследований перестройки синтаксического строя.
Труды конференции по албанскому языку и балканским языкам, состоявшаяся 10-11 ноября 2011 года в Приштине.
This paper is devoted to the use of two tools for creating morphologically annotated linguistic corpora: UniParser and the EANC platform. The EANC platform is the database and search framework originally developed for the Eastern Armenian National Corpus (www.eanc.net) and later adopted for other languages. UniParser is an automated morphological analysis tool developed specifically for creating corpora of languages with relatively small numbers of native speakers for which the development of parsers from scratch is not feasible. It has been designed for use with the EANC platform and generates XML output in the EANC format.
UniParser and the EANC platform have already been used for the creation of the corpora of several languages: Albanian, Kalmyk, Lezgian, Ossetic, of which the Ossetic corpus is the largest (5 million tokens, 10 million planned for 2013), and are currently being employed in construction of the corpora of Buryat and Modern Greek languages. This paper will describe the general architecture of the EANC platform and UniParser, providing the Ossetic corpus as an example of the advantages and disadvantages of the described approach.
The project we present – Russian Learner Translator Corpus (RusLTC) is a multiple learner translator corpus which stores Russian students’ translations out of English and into it. The project is being developed by a cross-functional team of translator trainers and computational linguists in Russia. Translations are collected from several Russian universities; all translations are made as part of routine and exam assignments or as submissions for translation contests by students majoring in translation. As of March 2014 RusLTC contains the total of nearly 1.2 million word tokens, 258 source texts, and 1,795 translations. The paper gives a brief overview of the related research, describes the corpus structure and corpus-building technologies used; it also covers the query tool features and our error annotation solutions. In the final part we make a summary of the RusLTC-based research, its current practical applications and suggest research prospects and possibilities.
Настоящая работа посвящена проекту «Корпус несовершенных переводов», который в настоящее время разрабатывается. Мы обсуждаем необходимость и возможность такого корпуса, существующие аналоги, описываем текущее состояние корпуса и те задачи, которые возможно решать с его помощью. Существующие параллельные корпусы содержат (сравнительно) «правильные» переводы. В то же время, цель настоящего проекта - создать достаточно большой корпус переводных русских и английских текстов (и их оригиналов), которые заведомо содержат ошибки. Подобный корпус можно использовать как материал и инструмент для переводоведческих исследований, особенно в области переводческой эрратологии. Кроме того, он представляет ценный ресурс для компьютерной лингвистики, поскольку является ещё одним источником оценочных данных для улучшения систем машинного перевода. В настоящий момент корпус доступен через Интернет, содержит около полумиллиона словоупотреблений и продолжает расширяться. Основной источник материала — переводы, выполненные студентами-переводчиками российских университетов.