• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Modeling lemma frequency bands for lexical complexity assessment of Russian texts
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
1 июля 2026 г.
Ученые НИУ ВШЭ выяснили, кто и почему в России питается вне дома
Около трети населения (31,3%) практически не едят вне дома и не покупают готовую еду. Ядро активных потребителей — тех, кто питается вне дома или покупает готовое почти ежедневно или несколько раз в неделю, — составляет всего около 9%. Таковы результаты исследования, проведенного Институтом социальной политики НИУ ВШЭ. Как отмечают авторы, питание вне дома в России перестало быть маркером высокого статуса.
30 июня 2026 г.
Аспирантка НИУ ВШЭ получила премию за выдающуюся научную статью
Международное научное общество по коллективному выбору и экономике благосостояния — Society for Social Choice and Welfare (SSCW) — присудило награду для молодых исследователей Ангелине Юдиной, аспирантке и преподавателю департамента математики ФЭН, младшему научному сотруднику Международного центра анализа и выбора решений НИУ ВШЭ. Ученые отметили ее статью, посвященную решениям задачи выбора наилучших альтернатив на основании результатов их попарных сравнений.
30 июня 2026 г.
«Я хотела бы, чтобы мои исследования помогали делать мир спокойнее и лучше»
Какую бы задачу ни решала младший научный сотрудник Лаборатории методов анализа больших данных Института искусственного интеллекта и цифровых наук ФКН ВШЭ Сараа Али, она думает, какую пользу она может принести людям. О своей большой семье, диагностике трехфазных двигателей и мечте построить на родине детский приют она рассказала проекту «Молодые ученые Вышки».

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Modeling lemma frequency bands for lexical complexity assessment of Russian texts

P. 76–92.
Блинова О. В., Tarasov N., Blekanov I., Modina V.

Статья посвящена проблеме моделирования общеязыковой частотности с использованием данных больших русских корпусов. Нашей целью является выработка методики формирования общего частотного списка, который в дальнейшем можно будет использовать в том числе для оценки лексической сложности русских текстов.

Мы сравнили 4 частотных списка, основанных на материале 4-х корпусов (Национального корпуса русского языка (НКРЯ), ruTenTen11, Araneum Russicum III Maximum, Taiga). Во-первых, мы применили классический ранговый корреляционный анализ. Во-вторых, мы использовали меры «coverage» и «enrichment». В-третьих, мы применили меру «сумма минимальных частот». Мы выяснили, что между сравниваемыми списками есть существенные различия и в рангах лемм, и в их относительных частотах. Применение меры «coverage» показало, что частотные списки ни в коем случае не взаимозаменяемы. Следовательно, при составлении сводного частотного списка мы не можем обойтись без какого-либо из сравниваемых корпусов.

Для более подробного сравнения частотных списков по различным частотным диапазонам мы разделили ранжированный частотный список НКРЯ на 4 равных части. Затем мы сформировали 4 случайных выборки (содержащие по 20 лемм из каждого квартиля). Из-за большого диапазона показателей ipm конкретные показатели относительных частот трудно интерпретировать. Кроме того, не существует надёжных порогов, отделяющих высокочастотные, среднечастотные и низкочастотные леммы. Между тем, для оценки лексической сложности текстов полезно иметь удобный способ распределения лемм с определёнными частотами по зонам частотного списка. Поэтому мы вслед за [Chen, Meurers 2016] решили присваивать леммам значения «Zipf-value», см. [Van Heuven et al. 2014], что сделало данные о частотности интерпретируемыми, поскольку диапазон значений меры невелик.

Результатом нашей работы должен стать справочный ресурс под названием «Фреквентатор», который позволит получать интерпретируемую информацию о частотности слов.

Исследование выполнено при поддержке гранта РНФ № 19-18-00525 «Понятность официального русского языка: юридическая и лингвистическая проблематика».

Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: русский языкRussiancorporalexical complexityлексическая сложностьчастотный список леммобщеязыковая частотностьнизкочастотные слова lemma frequency listsgeneral-language frequency frequency bands low-frequency wordsязыковые корпусызоны частотного списка

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 17 июня — 20 июня 2020 г.)
Вып. 19(26). , М.: Изд-во РГГУ, 2020.
Похожие публикации
Тезисы докладов Пятнадцатых Шмелёвских чтений: (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева):Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности
М.: Институт русского языка им. В.В. Виноградова РАН, 2026.
Сборник тезисов Пятнадцатых Шмелёвских чтений (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева) Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности. Охватывает разные аспекты современной русистики: от исторической лексикологии до современных трансформаций прагматики и семантики слов. ...
Добавлено: 23 июня 2026 г.
Juxtapositional vs. possessive-like encoding in Russian specificational constructions
Логвинова Н. Н., Russian linguistics 2026 Vol. 50 Article 11
Добавлено: 18 мая 2026 г.
Речевые акты с вежливыми диминутивами: жанровые и дискурсивные особенности
Фуфаева И. В., Вестник Волгоградского государственного университета. Серия 2: Языкознание 2025 Т. 24 № 4 С. 78–90
Речевые акты, в которых используются диминутивы как средство вежливости, рассмотрены с точки зрения их дискурсивной и жанровой принадлежности. Материалом исследования послужили авторские записи разговорной речи, данные Национального корпуса русского языка, сделанные в 1970-е гг. и на рубеже ХХ-ХХI вв. записи городской речи, содержащиеся в научных публикациях. В статье обоснована возможность употребления вежливых диминутивов в любых ...
Добавлено: 2 мая 2026 г.
Listen, Repeat, Decide: Investigating Pronunciation Variation in Spoken Word Recognition among Russian Speakers
Зубов В. И., Elena Riekhakaynen, , in: Proceedings of the Workshop on Cognitive Aspects of the Lexicon @ LREC-COLING 2024.: European Language Resources Association (ELRA), 2024. P. 129–132.
Добавлено: 19 апреля 2026 г.
Дискриминативная лемматизация сокращений в эпоху LLM
Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155
В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...
Добавлено: 10 марта 2026 г.
Rubic2: Ensemble Model for Russian Lemmatization
Афанасьев И. А., Glazkova A., Ляшевская О. Н. и др., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.
Добавлено: 10 марта 2026 г.
Transformer-based approaches for lemmatizing abbreviations in Russian texts
Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47
Добавлено: 10 марта 2026 г.
Говорящий и пишущий: К 100-летию со дня рождения Татьяны Григорьевны Винокур
М.: Институт русского языка им. В.В. Виноградова РАН, 2024.
Книга посвящена памяти замечательного ученого-русиста — Татьяны Григорьевны Винокур (1924–1992). Проблематика собранных в книге научных статей отражает широту исследовательских интересов Татьяны Григорьевны: история языка, поэтика, язык художественной литературы, стилистика, культура речи, проблемы изучения коммуникации и многие другие темы. Впервые публикуется текст беседы Т. Г.Винокур из цикла «Бесед о русском языке» на всероссийском радио — цикла, ...
Добавлено: 8 марта 2026 г.
Difference in Language Profiles of Children With Autism Spectrum Disorder and Down Syndrome Is Not Driven by Non-Verbal Cognition
Новоселова К. И., Лопухина А. А., Гомозова М. А. и др., International Journal of Language and Communication Disorders 2026 Vol. 61 No. 1 Article e70177
Добавлено: 6 февраля 2026 г.
Правовое положение соотечественников, проживающих в постсоветских странах, в условиях нестабильной международной обстановки
Затулин К. Ф., Егоров В. Г., Докучаева А. В. и др., М.: Институт диаспоры и интеграции (Институт стран СНГ), 2025.
Книга «Правовое положение соотечественников, проживающих в постсоветских странах, в условиях нестабильной международной обстановки» содержит результаты исследования, проведенного в Абхазии, Азербайджане, Армении, Беларуси, Грузии, Казахстане, Киргизии, Латвии, Литве, Молдове, Приднестровской Молдавской Республике, Таджикистане, Узбекистане, Эстонии и Южной Осетии. Исследование выполнено Институтом диаспоры и интеграции (Институтом стран СНГ) в 2024 году. Оно включило в себя анализ нормативно-правовых ...
Добавлено: 3 февраля 2026 г.
Методика обучения младших школьников чтению на русском и английском языках: сходство и различие
[б.и.], 2022.
В статье освещается важность роли обучения чтению детей, ее специфические особенности и составляющие; рассмотрены основные приемы и методики, используемые при обучении чтению детей как на русском, так и на английском языках; проведена сравнительная характеристика двух языков. Кроме того, в статье также сравнивается методики обучения чтению по русскому и английскому языку для того, чтобы найти слабые ...
Добавлено: 31 января 2026 г.
Некоторые модификации к теории связанных употреблений индексальных выражений И. Басси
Тискин Д. Б., Типология морфосинтаксических параметров 2024 Т. 7 № 1 С. 107–123
Связанные употребления индексальных выражений (fake indexicals, FI), в т. ч. личных местоимений 1 и 2 лица, анализируются И. Басси [Bassi 2021] как результат постсинтаксического процесса, обращающегося к признакам референта местоимения. Это приводит к экстравагантному описанию синтаксиса и семантики относительных придаточных, включающих FI. Опираясь на данные русского языка, мы показываем способ вернуться к более традиционному описанию ...
Добавлено: 26 января 2026 г.
Experimental evidence suggests that null complement anaphora in Russian is not reducible to clausal ellipsis
Князев М. Ю., Folia Linguistica 2026 Vol. 60 No. 1 P. 453–496
Добавлено: 19 января 2026 г.
Null and overt subjects in Russian polarity focus: Interactions with ellipsis
Касенов Д. Е., Руднев П. В., , in: Экспериментальные исследования языка: материалы конференции 2025.: М.: Наш мир, 2025. P. 50–53.
Добавлено: 19 января 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору