• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Evaluation of collocation extraction methods for the Russian language
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Evaluation of collocation extraction methods for the Russian language

P. 137–157.
Pivovarorva L., Kormacheva D., Копотев М. В.

This paper focuses on empirical collocations, understood here as word co-occurrences that 1) are frequent enough to be extracted automatically and 2) may be semantically and/or syntactically bounded to various extents. Our main goal is to examine closely five window-based methods for empirical collocation extractions that are widely used in corpus-based studies, sometimes without proven efficiency. Our study evaluates the methods’ reliability for Russian data by testing two hypotheses: a) collocations listed in a professionally compiled dictionary (i.e., those considered fixed to some extent by experts in the field) should have higher rankings in automatically extracted lists of collocations, and b) collocations considered fixed expressions by native speakers should have higher rankings in automatically generated lists. Our research indicates that raw frequency, t-score, log-likelihood, and Dice give the best rankings, while MI and wFR demonstrate poorer results in both evaluations. In general, all of these evaluations, although each has its own limitations, lead to equatable results, which should be taken into account in future research.

Язык: английский
Текст на другом сайте
Ключевые слова: коллокацииколичественные методыcollocation extraction method, evaluation, frequency, t-score, log-likelihood, Dice MI, wFRt-score, log-likelihood, Dice MI, wFR

В книге

Quantitative approaches to the Russian language
Quantitative approaches to the Russian language
Abingdon: Routledge, 2018.
Похожие публикации
Целевые каузальные эффекты в социальных исследованиях
Соколов Б. О., Социология: методология, методы, математическое моделирование 2025 № 61 С. 7–76
Данная работа представляет собой обзор основных целевых эффектов (эстимандов), используемых в современных научных и прикладных исследованиях для операционализации каузальных запросов в терминах модели Рубина. Сначала рассматриваются наиболее популярные средние эффекты воздействия (АTE, АTT, АTC). Затем описываются их расширения, в том числе разнообразные локальные и условные эффекты воздействия; целевые величины, квантифицирующие каузальные взаимодействия и каузальную медиацию; ...
Добавлено: 19 декабря 2025 г.
«Социальное пространство» П. Бурдьё: история конструирования понятия
Шматко Н. А., Маркова Ю. В., Социологический журнал 2025 Т. 31 № 1 С. 110–123
В статье рассматривается история и интерпретация понятия «социальное пространство» Пьера Бурдьё. С помощью этого понятия Бурдьё описывал совокупность взаимосвязанных социальных явлений, которые поддерживают и отражают друг друга. Он определял социальное пространство как многомерное распределение агентов (индивидуальных или коллективных) по объективным позициям, связанным с распределением эффективных ресурсов или капиталов — экономического, культурного, социального и символического. Капиталы ...
Добавлено: 23 мая 2025 г.
Медиаконцепт «вакцинация» в дискурсе немецких СМИ во время пандемии COVID-19
Балакина Ю. В., Вестник Томского государственного университета 2024 № 509 С. 23–34
В данной работе рассмотрен идеологический межтекстовый медиаконцепт «вакцинация» как биополитический инструмент, объективируемый в дискурсе немецких СМИ. Методологической основой исследования послужили понимание «биополитики» по М.Фуко (2010), модель пропаганды Э. Хермана, Н. Хомского (2002), положения культуромики (Бонч-Осмоловская, 2015), теория когнитивно-дискурсивного миромоделирования (Кушнерук, 2018). Для выявления и анализа коллокаций были использованы инструменты Цифрового словаря немецкого языка (DWDS), Sketch ...
Добавлено: 12 декабря 2024 г.
Запутывать мозги и ездить на шее: корпусное исследование функционирования фразеологизированных коллокаций в устном повседневном общении
Попова Т. И., Драчева К. И., В кн.: Дискурсивные практики в цифровую эпоху: традиции и инновации.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024. С. 208–217.
Статья посвящена описанию устойчивых неоднословных единиц (УНЕ) русской устной разговорной речи. Наблюдения и выводы основаны на анализе материала двух корпусов: подкорпуса русского языка повседневного общения «Один речевой день» (ОРД) общим объемом 300 тысяч словоупотреблений (195 эпизодов), Устного корпуса Национального корпуса русского языка (360 словоупотреблений) и корпуса «Социальные сети» (2615 словоупотреблений). В исследовании более подробно рассматриваются фразеологизированные коллокации ...
Добавлено: 29 октября 2024 г.
Эмпирические вызовы и методологические подходы в сравнительной политологии (сквозь призму “Политического атласа современного мира 2.0”)
Мельвиль А. Ю., Мальгин А. В., Миронюк М. Г. и др., Полис. Политические исследования 2023 № 5 С. 153–171
Растущие объемы, разнообразие и охват данных в последние десятилетия не только открывают перед учеными новые или меняют уже существующие области исследования, но и превращают данные в значимый элемент политики. В этом контексте эмпирические исследования, ставшие на рубеже XX-XXI вв. мейнстримом политической науки, с одной стороны, претендуют на статус строго научного обоснованного знания, а с другой ...
Добавлено: 29 сентября 2023 г.
Семантическое наполнение понятия «популизм» в английском языке (опыт лексикографического и корпусного анализа)
Гриценко Е. С., Галочкин А. Е., Вопросы лексикографии 2023 № 27 С. 29–46
Анализируется смысловое наполнение понятия «популизм» в английском языке с использованием методов семантического и корпусно-ориентированного анализа. Материалом для исследования послужили дефиниции и иллюстративные контексты слова populism в британских и американском толковых словарях и тексты корпуса современного американского английского языка (COCA). Выявление оценочной тональности (семантической просодии) лексемы populism производится на основе анализа коллокатов и кластеров в соответствии с особенностями ее синтаксической ...
Добавлено: 6 мая 2023 г.
Плеонастические причастия в современной русской речи: функции и тенденции развития
Ю. М. Кувшинская, Н. А. Зевахина, Acta Linguistica Petropolitana. Труды института лингвистических исследований 2023 Т. 19 № 1 С. 138–192
Статья посвящена современным плеонастическим употреблениям полных атрибутивных причастий в русской письменной речи. На материале двух корпусов (НКРЯ и КРУТ) и коллекции примеров, собранных вручную из разных письменных и электронных источников, описаны основные типы употребления плеонастических причастий и характерные для них семантические, грамматические, прагматические, коммуникативные эффекты: выражение избыточной анафорической связи, выражение определенности, экспликация пресуппозиций, выражение аспектуальных ...
Добавлено: 8 декабря 2022 г.
Количественная оценка перекрестных сетевых эффектов для нетрансакционных платформ
Рожкина В. С., Голованова С. В., Корнеева Д. В., Вестник Московского университета. Серия 6: Экономика 2022 № 4 С. 17–38
Анализ перекрестных сетевых эффектов необходим ввиду невозможности их непосредственного наблюдения и с целью учета влияния перекрестных сетевых эффектов на значения всех тестов в конкурентной политике, ценовой практике и оценке слияний. В статье обобщается опыт количественной оценки перекрестных сетевых эффектов для нетрансакционных платформ. В данной работе систематизированы методы оценки перекрестных сетевых эффектов (системы регрессионных уравнений, особенности ...
Добавлено: 15 сентября 2022 г.
Дискурсы в агитационных материалах «красных» и «белых» периодических изданий пермской губернии в годы Гражданской войны
Ехлакова А. Р., Исмакаева И. Д., В кн.: Пятая зимняя школа по гуманитарной информатике.: Калининград: Балтийский федеральный университет им. Иммануила Канта, 2021. С. 20–26.
Анализируются наиболее часто встречающиеся словоформы в агитационных материалах публикаций «красных» и «белых» периодических изданий Пермской губернии в годы Гражданской войны. Применение теории дискурса Э. Лакло и Ш. Муфф позволило рассмотреть периодику «красных» и «белых» как поле борьбы соответствующих дискурсов в формировании значений и понимании мира. На основе инструментария программы AntConc (N-gram, Collacates) выделены наиболее часто ...
Добавлено: 17 февраля 2022 г.
Delta Берроуза для древнегреческих авторов: опыт применения
Алиева О. В., Schole. Философское антиковедение и классическая традиция 2022 Т. 16 № 2 С. 693–705
В этой статье предпринята попытка эмпирически оценить эффективность метода измерения стилистической разницы, известного как Delta Берроуза, на материале древнегреческого корпуса. Эксперимент с корпусом из четырнадцати (и затем восьми) авторов подтвердил общую эффективность метода. Даже на небольших выборках в 1000–5000 слов решения Delta по большей части корректны, а ее ошибки связаны в основном с текстами, близкими ...
Добавлено: 9 февраля 2022 г.
Когнитивная обработка биномиалов русского языка тюркско-русскими билингвами
Буб А. С., Артёменко Е. Д., Язык и культура 2019 № 48 С. 32–45
Статья посвящена исследованию одного из аспектов билингвизма, а именно изучению процессов когнитивной обработки лексических единиц двуязычными индивидами. Как показывает обзор научной литературы, ментальный лексикон билингва отличается от ментального лексикона монолингва тем, что в последнем слова существуют не по отдельности, а вместе с колокационными связями, т.е. в совокупности с другими словами лексикона. Подобная организация отражается в ...
Добавлено: 29 октября 2021 г.
О СОВРЕМЕННОСТИ «СОВРЕМЕННОГО СОСТОЯНИЯ ИЗУЧЕНИЯ ПОЛИТИКИ» КРУГЛЫЙ СТОЛ
Гаман-Голутвина О. В., Панов П. В., Филиппов А. Ф., Полития: Анализ. Хроника. Прогноз 2021 № 1(100) С. 193–209
Добавлено: 12 апреля 2021 г.
Методы компаративных исследований
Гаман-Голутвина О. В., В кн.: Политическая компаративистика.: М.: Аспект Пресс, 2020. С. 85–104.
Добавлено: 12 апреля 2021 г.
Соотношение сил между великими державами в «Группе 20»: анализ при помощи метода многомерного шкалирования
Артюшкин В. Ф., Казанцев А. А., Сергеев В. М., Полис. Политические исследования 2021 Т. 2 С. 125–138
Цель статьи – проанализировать соотношение сил между великими державами внутри «Группы 20» путем применения одного из вариантов метода многомерного шкалирования. На базе анализа связанных понятий «гегемония» и «сила» в международных отношениях в рамках неореалистских, неолиберальных и мир-системных теорий глобальной гегемонии были вычленены восемь критериев глобального лидерства: ВВП на душу населения, ППС; военные расходы (% от ...
Добавлено: 8 февраля 2021 г.
Collocations and near-native competence: Lexical strategies of heritage speakers of Russian
Копотев М. В., Polinsky M., Kisselev O., International Journal of Bilingualism 2020 P. 1–28
This paper presents an exploratory study on the use of frequency-based probabilistic word combinations in Heritage Russian. The data used in the study are drawn from three small corpora of narratives, representing the language of Russian heritage speakers from three different dominant-language backgrounds, namely German, Finnish, and American English. The elicited narratives are based on ...
Добавлено: 30 сентября 2020 г.
О чувстве уважения в русском языковом сознании: уважения достойно…
Бочкарев А. Е., Slavica Slovaca 2020 Т. 55 № 1 С. 46–52
Предметом статьи является корпусное исследование чувства уважения в русском языковом сознании. Судя по примерам, засвидетельствованным в Национальном корпусе русского языка, под предмет уважения в русском языковом сознании подводится всё, что признается на основании каких-то свойств, состояний и действий как достойное почтительного к себе отношения: возраст, душевные качества, начитанность, физическая сила, кулинарные способности, традиции и обычаи, ...
Добавлено: 24 июня 2020 г.
Журналы земских собраний: организация информации на основе информационных систем (на примере Пермской губернии)
Корниенко С. И., Ехлакова А. Р., В кн.: Сборники Президентской библиотекиВып. 8: Цифровые проекты в современной информационной среде: наука и практика.: СПб.: Президентская библиотека имени Б.Н. Ельцина, 2018. С. 70–83.
Анализируются возможности использования информационных систем и количественных методов для изучения журналов земских собрании как исторического источника. Приведена характеристика журналов собраний как одного из основных делопроизводственных источников земских учреждений, охарактеризованы информационные системы, созданные в Центре цифровой гуманитаристики Пермского государственного национального исследовательского университета. На основе информационных систем проанализированы результаты организации информации в журналах земских собраний, получены количественные ...
Добавлено: 20 октября 2019 г.
LESS IS DOWN: корпусный анализ структуры метафорического значения глаголов падать и упасть
Культепина О. А., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2020 Т. 1 № XVI С. 344–367
В статье поднимается вопрос о возможностях корпусного анализа метафорического переноса на примере аспектуальной пары упасть /падать. Автор анализирует структуру переносного значения предикатов, реализующих метафору ‘LESS IS DOWN’, и рассматривает, как именно коллокации глаголов соотносятся с заполнением валентной структуры. В результате анализа выделяются типичные синтагматические связанные с метафорой паттерны и определяются лексико-семантические свойства коллокатов, определяющих метафоризацию ...
Добавлено: 7 октября 2019 г.
Метр отрезков длиннее строки в башкирском силлабическом стихе
Орехов Б. В., Известия РАН. Серия литературы и языка 2019 Т. 78 № 2 С. 41–50
В статье на башкирском материале рассматривается специфический элемент силлабического стихосложения: упорядоченные чередования строк разной длины. Такие стиховые формы существуют в тюркском стихе наряду с привычными изосиллабическими стихотворениями. Статус таких форм неоднозначен, их можно рассматривать и как строфу, и как отдельный метр. Аналогичным трудным случаем для традиционного стиховедения служит элегический дистих. На материале корпуса текстов 103 башкирских поэтов мы проанализировали соотношение ...
Добавлено: 18 сентября 2019 г.
Специфические слова и выражения русских классиков XIX века: опыт контрастивного корпусного исследования
Орехов Б. В., Ученые записки Петрозаводского государственного университета. Серия: Общественные и гуманитарные науки 2019 № 5 С. 70–75
Статья представляет результаты количественного исследования, выявляющего характерные и специ­фические низкочастотные слова для прозы русских классиков XIX века. С помощью меры TF-IDF и большой коллекции текстов XIX века для Тургенева, Гончарова, Лескова, Достоевского рассчитываются слова и обороты, которые редко встречаются или не встречаются у других авторов, но не­сколько раз появляются в прозе классиков. Такой контрастивный подход ...
Добавлено: 18 сентября 2019 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору