• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • The smaller the better? Heterogeneity of corpus, training size, and morphological tagging
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

The smaller the better? Heterogeneity of corpus, training size, and morphological tagging

P. 1091–1108.
Ляшевская О. Н., Ostyakova L., Сальников Е. А., Семенова О. А.

Гетерогенность орфографии и грамматического строя текстов старорусской письменности создают существенные трудности для автоматической частеречной и морфологической разметки. Существующие подходы демонстрируют хорошие результаты, не прибегая к помощи нормализации, однако все они, тем не менее, чувствительны к любым изменениям пропорций элементов тренировочного датасета и жанровой неоднородности. В данной работе мы проанализировали влияние этих факторов на качество автоматической морфологической разметки. Наше исследование показало, что качество морфологической разметки моделей UDpipe повышается по мере снижения объёма тренировочных данных. Именно поэтому нами была предпринята попытка проанализировать дистрибуцию частей речи и слов, состоящих из малого количества символов (2-3), в тренировочных выборках.

Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: part of speech taggingморфологическая разметкачастеречная разметкаfull morphological tagginghistorical datacorpus sizecorpus data homogeneityавтоматическая обработка исторических текстов

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 17 июня — 20 июня 2020 г.). Дополнительный том материалов
M.: ., 2020.
Похожие публикации
Transformer-based approaches for lemmatizing abbreviations in Russian texts
Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47
Добавлено: 10 марта 2026 г.
Грамматический ландшафт художественной прозы: динамика частеречных распределений в русском рассказе XX века
Кирина М. А., В кн.: Русская грамматика: полипарадигмальность как методологический принцип современных научных исследований : материалы IX Международного научного симпозиума.: Издательство ИГУ, 2025. С. 270–275.
В статье представлены результаты пилотного исследования, направленного на описание дистрибуции частей речи в синхронии и диахронии на материале русской прозы малой формы. Рассматриваются изменения морфологического состава художественных текстов (на уровне грамматических классов) на протяжении XX века в соответствии с 9 историко-культурными периодами. Материалом исследования выступает выборка из 943 рассказов суммарным объемом более 3 млн. словоупотреблений. ...
Добавлено: 28 февраля 2026 г.
Языковые модели для предобработки текстов в машинном переводе
Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44
Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...
Добавлено: 22 сентября 2025 г.
Disambiguation in context in the Russian National Corpus: 20 yeas later
Ляшевская О. Н., Афанасьев И. А., Stefan Rebrikov и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 307–318.
Добавлено: 15 сентября 2023 г.
The Use of Khislavichi Lect Morphological Tagging to Determine its Position in the East Slavic Group
Афанасьев И. А., , in: Proceedings of Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023).: Association for Computational Linguistics, 2023. P. 174–186.
Добавлено: 15 мая 2023 г.
Proceedings of Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023)
Association for Computational Linguistics, 2023.
Добавлено: 15 мая 2023 г.
An HMM-based PoS tagger for Old Church Slavonic
Ляшевская О. Н., Афанасьев И. А., Jazykovedny Casopis 2021 Vol. 72 No. 2 P. 556–567
Добавлено: 21 октября 2021 г.
A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian
Ляшевская О. Н., , in: Computational Linguistics and Intellectual TechnologiesIssue 18.: M.: Russian State University for the Humanitie, 2019. P. 422–434.
Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей ...
Добавлено: 12 июня 2019 г.
MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian
Sorokin A., Шаврина Т. О., Ляшевская О. Н. и др., , in: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" ProceedingsVol. 1. Issue 16 (23).: M.: -, 2017. P. 297–313.
MorphoRuEval-2017 — соревнование по морфологической разметке, призванное стимулировать развитие технологий морфологической обработки текстов на русском языке, в особенности текстов из сети Интернет, как нормативных( новости, литературные тексты), так и менее формального характера (блоги и другие социальные медиа). Данная статья посвящена сравнению методов, использованных командами-участниками соревнования, а также проблемам унификации различных существующих обучающих коллекций для русского ...
Добавлено: 9 октября 2018 г.
Тестовая коллекция для задач автоматического морфологического анализа текстов старорусской письменности
Ляшевская О. Н., В кн.: Научное наследие Научное наследие В.А. Богородицкого и современный вектор исследований Казанской лингвистической школы. Труды и материалы межд. конф.Т. 1.: Каз.: Издательство Казанского университета, 2018. С. 131–135.
В статье описывается тестовый корпус объемом ок. 10 тысяч токенов, созданный в качестве стандарта оценки качества систем анализа старорусских текстов XV-XVII в. Излагаются принципы отбора текстов и процедура их разметки. ...
Добавлено: 9 октября 2018 г.
Redefining part-of-speech classes with distributional semantic models
Кутузов А. Б., Velldal E., Øvrelid L., , in: Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning.: Berlin: Association for Computational Linguistics, 2016. P. 115–125.
Добавлено: 12 ноября 2016 г.
Параметрическая оптимизация точности морфологической разметки текстов
Клышинский Э. С., Рысаков С. В., Новые информационные технологии в автоматизированных системах 2016
Статья знакомит читателя с базовыми понятиями параметрической оптимизации. Описывается разработанная модель аппроксимация вероятности, функции-счётчики и коэффициенты корреляции. Небольшое внимание уделено методу полного перебора, в результате работы которого достигнуты новые показатели точности. В конце приведена модификация метода снятия омонимии, разработанная авторами. ...
Добавлено: 14 июня 2016 г.
Морфосинтаксическая разметка текста на китайском языке с помощью статистических анализаторов: методика, оценка качества.
Кубатиева А. А., В кн.: I Молодежная международная конференция «Методы точных наук в востоковедении», 10-11 ноября 2015 г.: Материалы конференции.: СПб.: Издательство РХГА, 2015.
Данная работа посвящена критериям выделения морфосинтаксических категорий в китайском языке и их моделированию для автоматической частеречной разметки текста. В работе приведен краткий обзор основных критериев выделения частей речи в современном китайском языке, их оценка с точки зрения задач автоматической обработки текста, в частности, с точки зрения частеречной разметки текста и использования статистических моделей. С помощью ...
Добавлено: 10 декабря 2015 г.
Статистические методы снятия омонимии
Клышинский Э. С., Рысаков С. В., Новые информационные технологии в автоматизированных системах 2015 С. 555–563
Статья знакомит читателя со статистическими методами устранения морфологической неоднозначности. Описывается процесс насыщения, параметры методов и n-грамм. Большое внимание уделено методам снятия омонимии, в обзоре которых описания сопровождены практическими оценками и даны алгоритмы их работы. В конце приведено сравнение качества методов дизамбигуации, осуществлённое авторами. ...
Добавлено: 25 ноября 2015 г.
Методы борьбы с омонимией
Рысаков С. В., Системный администратор 2015 № 10(155) С. 92–95
Сейчас кажется привычной возможность задать вопрос любимой поисковой системе и моментально получить от нее соответствующий ответ. Для пользователя процесс может показаться простым, в то время как поисковый алгоритм встречает несколько препятствий, среди которых важное место занимает языковой барьер: вопрос, как правило, задается на естественном языке, которому в отличие от компьютерного языка поискового алгоритма присуща неоднозначность. ...
Добавлено: 25 ноября 2015 г.
Crowdsourcing morphological annotation
Bocharov V. V., Alexeeva S. V., Granovsky D. V. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.Т. 1: Основная программа конференции. Вып. 12 (19).: М.: РГГУ, 2013.
Добавлено: 18 ноября 2013 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору