• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Improving English-Russian sentence alignment through POS tagging and Damerau-Levenshtein distance
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
30 апреля 2026 г.
«Моя цель - стать ординарным профессором»
Михаил Саматов занимается теоретическими исследованиями перовскитных солнечных батарей. В интервью проекту «Молодые ученые Вышки» он рассказал о работе на суперкомпьютере Вышки, сотрудничестве с Пекинским университетом и умении делать мебель.
29 апреля 2026 г.
Научить машину читать прошлое: на ФГН создают нейросеть для расшифровки рукописей
Дневники и письма — бесценный источник для гуманитария-исследователя. Но что делать, если текст невозможно прочитать? На факультете гуманитарных наук (ФГН) ВШЭ эту проблему решили перевести на язык математики: команда филологов, историков и специалистов по машинному обучению создала информационную систему, которая не только распознает неразборчивый почерк, но и помогает анализировать содержание архивов.
29 апреля 2026 г.
8 драйверов технологического будущего: что изменит экономику
Какие отрасли определят облик ближайших десятилетий? Премьер-министр  Михаил Мишустин назвал 8 направлений, которые будут развиваться в ближайшие годы. О том, какие образовательные программы НИУ ВШЭ готовят специалистов по этим направлениям — в материале IQ медиа.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Improving English-Russian sentence alignment through POS tagging and Damerau-Levenshtein distance

P. 63–68.
Кутузов А. Б.

The present paper introduces approach to improve English-Russian sentence alignment, based on POS-tagging of automatically aligned (by HunAlign) source and target texts. The initial hypothesis is tested on a corpus of bitexts. Sequences of POS tags for each sentence (exactly, nouns, adjectives, verbs and pronouns) are processed as “words” and Damerau-Levenshtein distance between them is computed. This distance is then normalized by the length of the target sentence and is used as a threshold between supposedly mis-aligned and “good” sentence pairs. The experimental results show precision 0.81 and recall 0.8, which allows the method to be used as additional data source in parallel corpora alignment. At the same time, this leaves space for further improvement.

Язык: английский
Полный текст
Ключевые слова: parallel corporasentence alignment
ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:
Корпусные технологии в лингвистических и междисциплинарных исследованиях (2013)

В книге

Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing
Association for Computational Linguistics, 2013.
Похожие публикации
Обзор семейства конструкций с функцией «понижения агенса» в славянских языках
Плунгян В. А., Подгорная А. Д., Славистика 2023 Т. 27 № 2 С. 54–70
В данной работе представлен обзор конструкций, выполняющих функцию «понижения агенса», в славянских языках, что включает причастный пассив, субъектный имперсонал с кратким пассивным причастием (на -no/to), форма с континуантом праславянского *sę, в разных языках демонстрирующая свойства пассива или имперсонала, конструкции с глаголом в форме 3-го лица мн.ч. и ед.ч. (ср.р.), универсальные употребления 2-го лица ед.ч., 1-го ...
Добавлено: 6 июня 2024 г.
Параллельный корпус как грамматическая база данных и Новый Завет как параллельный корпус (предисловие)
Плунгян В. А., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2023 Т. 19 № 3 С. 15–38
Статья является одновременно предисловием и теоретическим введением к последующим статьям данного специального выпуска журнала ALP. В статье дается общая характеристика проекта подготовки базы данных типологически релевантных грамматических контекстов на основе параллельного корпуса переводов Нового Завета. Также приводится краткий обзор состава и содержания публикуемых далее статей. ...
Добавлено: 1 февраля 2024 г.
Корпусное исследование конкуренции конструкций с функцией «понижения агенса» в славянских языках
Плунгян В. А., Подгорная А. Д., Studia Slavica 2022 Т. 67 № 1-2 С. 115–131
В статье рассматриваются конструкции с функцией «понижения агенса» и их переводные эквиваленты на материале параллельного корпуса романа М. А. Булгакова «Мастер и Маргарита» в переводах на польский, чешский, болгарский, сербский и немецкий языки. Под данным ярлыком объединяются средства, лишающие агенс привилегированного коммуникативного статуса, что проявляется в его реализации в нехарактерной синтаксической позиции, полном опущении или ...
Добавлено: 8 ноября 2023 г.
К семантике и типологии аквизитивной модальности: шведское orka и его синонимы на фоне русского языка
Vladimir Plungian, Åkerman Sarkisian K., Scando-Slavica 2023 Т. 69 № 1 С. 3–24
Так называемая аквизитивная модальность (или актуальность), описывающая успешную реализацию действия, является недостаточно изученной разновидностью модальных значений. Она представляет значительный интерес как с точки зрения путей ее грамматизации, так и с точки зрения широкого и богатого разнообразия его лексического выражения. В статье рассматривается один из основных представителей этого лексического класса в шведском языке — труднопереводимый глагол orka и его ...
Добавлено: 8 ноября 2023 г.
Эпистемологический потенциал переводных текстов (на материале русско-японского параллельного корпуса художественных произведений)
Стрижак У. П., Вестник Московского университета. Серия 22: Теория перевода 2023 Т. 16 № 1 С. 93–109
В статье рассматриваются возможности использования параллельных корпусов для решения задач, связанных с грамматическим описанием языка перевода, и обосновывается положение об эпистемологической ценности переводных текстов. Параллельные корпуса текстов чаще используются в сопоставительном аспекте, при том, что они обладают значимым содержательным и эпистемологическим потенциалом для систематизации лингвистического знания и о языке перевода. В данной работе, выполненной в рамках общего ...
Добавлено: 9 сентября 2023 г.
Цель перемещения в Евангелии от Луки: к усовершенствованию процедуры выделения прототипических контекстов
Филатов К. В., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2023 Т. 19 № 3 С. 39–74
Работа посвящена описанию улучшений процедуры выделения прототипических контекстов зоны Цели перемещения на материале Евангелия от Луки. В качестве отправной выборки рассматривались древнегреческий, английский, русский, табасаранский и саидский коптский тексты. 212 полученных контекстов оценены с точки зрения прототипичности и семантически классифицированы на основании таксономического и топологического типа Цели перемещения, локализации Траектора и таксономического типа ситуации перемещения. ...
Добавлено: 18 ноября 2022 г.
Quantitative Analysis of Passives with Agent Phrase Based on Multilingual Parallel Data
Нестеренко Л. В., , in: Post-Proceedings of the 5th Conference Digital Humanities in the Nordic Countries (DHN 2020)Issue 2865.: [б.и.], 2021. P. 5–15.
Добавлено: 22 ноября 2021 г.
Automatic data collection in lexical typology
Рыжова Д. А., Мельник А. А., Ершов И. А. и др., , in: Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2018”.: [б.и.], 2018. P. 619–636.
Добавлено: 17 октября 2018 г.
The Poetic Corpus of Russian: Where the Poems are Written
Сичинава Д. В., Орехов Б. В., , in: Proceedings of the Second Workshop on Corpus-Based Research in the Humanities CRH-2, 25-26 January 2018 Vienna, Austria.: Wien: Gerastree Proceedings, 2018. P. 201–205.
Добавлено: 30 августа 2018 г.
On the development of a Latvian-Russian parallel corpus
Perkova N., Сичинава Д. В., Frontiers in Artificial Intelligence and Applications 2016 Vol. 289 P. 130–135
Добавлено: 30 августа 2018 г.
Инструменты корпусного анализа в обучении иностранному языку
Горина О. Г., Вестник Томского государственного университета 2018 Т. 22 № 435 С. 187–194
В статье описаны инструменты корпусного анализа применительно к обучению иностранному языку. Во-первых, последовательно рассматривается лингводидактический потенциал отдельных корпусных инструментов (конкорданс, поиск коллокаций, лингвостатистические показатели). Обсуждаются методические приемы работы с компьютерными базами языковых данных, такие как вертикальное сканирование конкорданса, конденсированное чтение, используемые для составления лексико-грамматического профиля лексических единиц и развития лингвистической компетенции. Это созвучно идеям пионеров ...
Добавлено: 21 января 2018 г.
Параллельные белорусско-русский и русско-белорусский корпусы: совместный проект Национального корпуса русского языка
Сичинава Д. В., Архангельский Т. А., В кн.: Корпусы национальных языков: модели и технологии. Труды Казанской школы по компьютерной и когнитивной лингвитике TEL-2012.: Каз.: Издательство «Фэн» Академии наук Республики Татарстан, 2012. С. 54–60.
Добавлено: 23 апреля 2013 г.
Russian Learner Parallel Corpus as a Tool for Translation Studies
Кутузов А. Б., Куниловская М., Ощепков А. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). В 2 томахТ. 1: Основная программа конференции. Вып. 11.: М.: Российский государственный гуманитарный университет, 2012. P. 362–369.
Настоящая работа посвящена проекту «Корпус несовершенных переводов», который в настоящее время разрабатывается. Мы обсуждаем необходимость и возможность такого корпуса, существующие аналоги, описываем текущее состояние корпуса и те задачи, которые возможно решать с его помощью. Существующие параллельные корпусы содержат (сравнительно) «правильные» переводы. В то же время, цель настоящего проекта - создать достаточно большой корпус переводных русских ...
Добавлено: 13 февраля 2013 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору