Статья
Developing a polysynthetic language corpus: problems and solutions
Несмотря на то, что в настоящее время существует множество морфологически размеченных корпусов для языков с богатой морфологией, до сих пор не было создано ни одного корпуса полисинтетического языка, который бы учитывал необходимую морфологическую информацию. Разработка корпуса для таких языков ставит перед корпусным лингвистом ряд нетривиальных теоретических и практических задач. Некоторые из них в меньшем объёме встречались и частично решались ранее при создании корпусов языков с большими морфологическими системами и обилием продуктивных деривационных моделей, например, тюркских или уральских языков. Однако многие из этих проблем уникальны для полисинтетических языков. В ходе работы над созданием корпуса полисинтетического адыгейского языка мы обрисовываем эти проблемы и предлагаем ряд теоретических и практических решений. Описываемые проблемы включают в себя токенизацию (связанную с нечёткой границей между синтаксисом и мофологией), лемматизацию и морфологическую разметку, а также ряд вопросов, связанных с глоссированием и поиском в корпусе. Предлагаемые решения частично реализованы и будут доступны для тестирования в пилотной версии корпуса.
Представленный ниже материал продолжает ряд статей автора, посвященных исследованию вопроса о тенденциях эволюции языковых единиц на различных сегментных уровнях современного английского языка. Однако же в то время как предыдущие исследования автора фокусировались на изменениях, происходящих на морфематическом и фразематическом (денотативном) уровнях языка, представленные ниже данные касаются вопроса преобразований языковых форм на уровне пропозем (уровне предложений), продолжая линию исследований перестройки синтаксического строя.
Сборник включает статьи, посвященные анализу структуры полисинтетического адыгейского языка с типологической точки зрения.
This paper is devoted to the use of two tools for creating morphologically annotated linguistic corpora: UniParser and the EANC platform. The EANC platform is the database and search framework originally developed for the Eastern Armenian National Corpus (www.eanc.net) and later adopted for other languages. UniParser is an automated morphological analysis tool developed specifically for creating corpora of languages with relatively small numbers of native speakers for which the development of parsers from scratch is not feasible. It has been designed for use with the EANC platform and generates XML output in the EANC format.
UniParser and the EANC platform have already been used for the creation of the corpora of several languages: Albanian, Kalmyk, Lezgian, Ossetic, of which the Ossetic corpus is the largest (5 million tokens, 10 million planned for 2013), and are currently being employed in construction of the corpora of Buryat and Modern Greek languages. This paper will describe the general architecture of the EANC platform and UniParser, providing the Ossetic corpus as an example of the advantages and disadvantages of the described approach.
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
В статье рассматриваются проявления эргативности в адыгейском языке – полисинтетическом языке западнокавказской семьи. В этом языке эргативность проявляется в морфологии – как в личных показателях в глаголе, так и в падежном маркировании существительного. Гораздо сложнее найти проявления эргативности в синтаксисе (например, критерий плавающих квантификаторов не даёт ответ на вопрос, какой строй имеет язык).
В статье я исследую ещё одну область, где часто проявляется строй языка – а именно, механизмы изменения валентности глагола. Я показываю, что способы изменения валентности, скорее всего, свидетельствуют за синтаксическую эргативность адыгейского языка. Однако существуют механизмы, вообще не связанные со строем, а мотивированные семантическими свойствами актантов глагола. Их важно отделять от механизмов, мотивированных синтаксически.
В современной России изучение иностранных языков стало обязательным требованием к получению высшего образования не только в профильных языковых и гуманитарных, но и в рейтинговых неязыковых учреждениях высшего образования. Владение иностранным, преимущественно английским, языком является необходимой составляющей компетентности дипломированных специалистов в любой области их будущей профессиональной деятельности. Между тем знанию родного, русского, языка придается значение лишь на этапе поступления абитуриентов в вуз, что чаще всего предполагает зачисление баллов по результатам ЕГЭ. В дальнейшем процессе обучения студентов преподаватели иностранных языков нередко испытывают трудности не столько в работе над формированием у них инолингвальной компетенции, сколько в
использовании общеязыковых знаний обучаемых, т.е. представлений последних о родном языке как исходном для изучения иноязыковых структур. Вот почему при формировании иноязычной (межкультурной) компетенции в билингвальной коммуникации следует учитывать необходимость поддержания и развития у студентов (в том числе у студентов неязыковых вузов) практики пользования родным, русским, языком.
The project we present – Russian Learner Translator Corpus (RusLTC) is a multiple learner translator corpus which stores Russian students’ translations out of English and into it. The project is being developed by a cross-functional team of translator trainers and computational linguists in Russia. Translations are collected from several Russian universities; all translations are made as part of routine and exam assignments or as submissions for translation contests by students majoring in translation. As of March 2014 RusLTC contains the total of nearly 1.2 million word tokens, 258 source texts, and 1,795 translations. The paper gives a brief overview of the related research, describes the corpus structure and corpus-building technologies used; it also covers the query tool features and our error annotation solutions. In the final part we make a summary of the RusLTC-based research, its current practical applications and suggest research prospects and possibilities.
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными аспектами развития современного информационного пространства.
Словарь–справочник содержит более 150 терминов и понятий, а также описание методов и средств разработки, применяемых в информационном поиске.
Может использоваться в качестве справочника по терминологии, существующим прикладным системам и средствам обработки текстовой и фактографической информации.
Для специалистов, занимающихся разработкой технологических решений и программных продуктов в области информационного поиска и извлечения фактографических данных из текстовой информации, а также в области семантического Веба.
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными аспектами современных коммуникационных процессов.
Статья посвящена анализу критических очерков, статей и эссе итальянских писталей, литературных критиков и литературоведов (А. Моравии, И. Кальвино, Ф. Фортини, К. Кассола, К. Салинари), опубликованных в 50-ых гг. XX века в Италии (собранных в сборник ""Доктор Живаго", Италия, 1958", М.: Река времен, 2012 г.) - как реакция на публикацию в Италии романа Нобелевского лауреата по литературе - Бориса Пастернака - "Доктора Живаго".
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными этическими вопросами организационной, профессиональной и межличностной коммуникации.
В статье описываются закономерности реализации эмоциональных высказываний в диалогической и монологической речи. Основное внимание автора обращено на характерные признаки речи говорящего, находящегося в состоянии эмоционального напряжения, и на композиционно-прагматические особенности диалогического и монологического текста.
Недостаточное количество учебных часов и ограниченное владение вторым иностранным языком не способствуют полноценному профессионально ориентированному обучению. Приходится использовать лишь некоторые компоненты профессионального обучения: чтение и реферирование текстов по специальности, поиск профессиональной информации в различных её источниках, ведение личной и деловой переписки. Важный компонент профессиональной деятельности – умение анализировать информацию, представленную в графике, таблице или диаграмме. Необходимость диктуется тем, что данный вид деятельности является частью экзамена, для получения сертификата Test DaF, дающего право на обучение или работу в Германии.
Анализ современного общества, пронизанного медиа, ведется с позиций этнометодологического подхода и представляет собой попытку ответа на кардинальный вопрос: что представляют собой наблюдаемые упорядоченности событий, транслируемых массовыми посредниками. Исследование ритуалов идет по двум основным направлениям: во-первых, в организационно-производственной системе медиа, ориентированной на постоянное воспроизводство, в основе которого лежит трансмиссионная модель и различение информация/неинформация и, во-вторых, в анализе восприятия этих сообщений аудиторией, представляющей собой реализацию ритуальной, или экспрессивной, модели, результатом которой является разделенный опыт. Это и означает ритуальный характер современных медиа.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010-2012 гг.
Представлены результаты кросскультурного исследования взаимосвязи социального капитала и экономических представлений у русских (N=150) и китайцев (N=105). Выявлены различия в социальном капитале и экономических представлениях русских и китайцев. В обеих группах социальный капитал позитивно взаимосвязан с «продуктивными» экономическими представлениями и большинство взаимосвязей схожи по своей логике, однако существуют и культурная специфика.
Человечество переживает смену культурно-исторических эпох, что связано с превращением сетевых медиа в ведущее средство коммуникации. Следствием «дигитального раскола» оказываются изменения в социальных разделениях: наряду с традиционным «имущие и неимущие» возникает противостояние «онлайновые (подключенные) versus офлайновые (неподключенные)». В этих условиях теряют значение традиционные межпоколенческие различия, решающим оказывается принадлежность к той или иной информационной культуре, на основе которой формируются медиапоколения. В работе анализируются многообразные последствия осетевления: когнитивные, возникающие при использования «умных» вещей с дружественным интерфейсом, психологические, порождающие сетевой индивидуализм и нарастающую приватизацию общения, социальные, воплощающие «парадокс пустой публичной сферы». Показана роль компьютерных игр как «заместителей» традиционной социализации и образования, рассматриваются превратности знания, теряющего свое значение. В условиях избытка информации самым дефицитным на сегодня человеческим ресурсом оказывается человеческое внимание. Поэтому новые принципы ведения бизнеса можно определить как менеджмент внимания.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010–2012 гг.