Evaluation of collocation extraction methods for the Russian language

Pivovarorva L.; Kormacheva D.; M. Kopotev

?

Evaluation of collocation extraction methods for the Russian language

P. 137–157.

Pivovarorva L., Kormacheva D., Копотев М. В.

This paper focuses on empirical collocations, understood here as word co-occurrences that 1) are frequent enough to be extracted automatically and 2) may be semantically and/or syntactically bounded to various extents. Our main goal is to examine closely five window-based methods for empirical collocation extractions that are widely used in corpus-based studies, sometimes without proven efficiency. Our study evaluates the methods’ reliability for Russian data by testing two hypotheses: a) collocations listed in a professionally compiled dictionary (i.e., those considered fixed to some extent by experts in the field) should have higher rankings in automatically extracted lists of collocations, and b) collocations considered fixed expressions by native speakers should have higher rankings in automatically generated lists. Our research indicates that raw frequency, t-score, log-likelihood, and Dice give the best rankings, while MI and wFR demonstrate poorer results in both evaluations. In general, all of these evaluations, although each has its own limitations, lead to equatable results, which should be taken into account in future research.

Язык: английский

Текст на другом сайте

Ключевые слова: коллокации количественные методы collocation extraction method, evaluation, frequency, t-score, log-likelihood, Dice MI, wFR t-score, log-likelihood, Dice MI, wFR

В книге

Quantitative approaches to the Russian language

Abingdon: Routledge, 2018.

Целевые каузальные эффекты в социальных исследованиях

Соколов Б. О., Социология: методология, методы, математическое моделирование 2025 № 61 С. 7–76

Данная работа представляет собой обзор основных целевых эффектов (эстимандов), используемых в современных научных и прикладных исследованиях для операционализации каузальных запросов в терминах модели Рубина. Сначала рассматриваются наиболее популярные средние эффекты воздействия (АTE, АTT, АTC). Затем описываются их расширения, в том числе разнообразные локальные и условные эффекты воздействия; целевые величины, квантифицирующие каузальные взаимодействия и каузальную медиацию; ...

Добавлено: 19 декабря 2025 г.

«Социальное пространство» П. Бурдьё: история конструирования понятия

Шматко Н. А., Маркова Ю. В., Социологический журнал 2025 Т. 31 № 1 С. 110–123

В статье рассматривается история и интерпретация понятия «социальное пространство» Пьера Бурдьё. С помощью этого понятия Бурдьё описывал совокупность взаимосвязанных социальных явлений, которые поддерживают и отражают друг друга. Он определял социальное пространство как многомерное распределение агентов (индивидуальных или коллективных) по объективным позициям, связанным с распределением эффективных ресурсов или капиталов — экономического, культурного, социального и символического. Капиталы ...

Добавлено: 23 мая 2025 г.

Медиаконцепт «вакцинация» в дискурсе немецких СМИ во время пандемии COVID-19

Балакина Ю. В., Вестник Томского государственного университета 2024 № 509 С. 23–34

В данной работе рассмотрен идеологический межтекстовый медиаконцепт «вакцинация» как биополитический инструмент, объективируемый в дискурсе немецких СМИ. Методологической основой исследования послужили понимание «биополитики» по М.Фуко (2010), модель пропаганды Э. Хермана, Н. Хомского (2002), положения культуромики (Бонч-Осмоловская, 2015), теория когнитивно-дискурсивного миромоделирования (Кушнерук, 2018). Для выявления и анализа коллокаций были использованы инструменты Цифрового словаря немецкого языка (DWDS), Sketch ...

Добавлено: 12 декабря 2024 г.

Запутывать мозги и ездить на шее: корпусное исследование функционирования фразеологизированных коллокаций в устном повседневном общении

Попова Т. И., Драчева К. И., В кн.: Дискурсивные практики в цифровую эпоху: традиции и инновации.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024. С. 208–217.

Статья посвящена описанию устойчивых неоднословных единиц (УНЕ) русской устной разговорной речи. Наблюдения и выводы основаны на анализе материала двух корпусов: подкорпуса русского языка повседневного общения «Один речевой день» (ОРД) общим объемом 300 тысяч словоупотреблений (195 эпизодов), Устного корпуса Национального корпуса русского языка (360 словоупотреблений) и корпуса «Социальные сети» (2615 словоупотреблений). В исследовании более подробно рассматриваются фразеологизированные коллокации ...

Добавлено: 29 октября 2024 г.

Эмпирические вызовы и методологические подходы в сравнительной политологии (сквозь призму “Политического атласа современного мира 2.0”)

Мельвиль А. Ю., Мальгин А. В., Миронюк М. Г. и др., Полис. Политические исследования 2023 № 5 С. 153–171

Растущие объемы, разнообразие и охват данных в последние десятилетия не только открывают перед учеными новые или меняют уже существующие области исследования, но и превращают данные в значимый элемент политики. В этом контексте эмпирические исследования, ставшие на рубеже XX-XXI вв. мейнстримом политической науки, с одной стороны, претендуют на статус строго научного обоснованного знания, а с другой ...

Добавлено: 29 сентября 2023 г.

Семантическое наполнение понятия «популизм» в английском языке (опыт лексикографического и корпусного анализа)

Гриценко Е. С., Галочкин А. Е., Вопросы лексикографии 2023 № 27 С. 29–46

Анализируется смысловое наполнение понятия «популизм» в английском языке с использованием методов семантического и корпусно-ориентированного анализа. Материалом для исследования послужили дефиниции и иллюстративные контексты слова populism в британских и американском толковых словарях и тексты корпуса современного американского английского языка (COCA). Выявление оценочной тональности (семантической просодии) лексемы populism производится на основе анализа коллокатов и кластеров в соответствии с особенностями ее синтаксической ...

Добавлено: 6 мая 2023 г.

Плеонастические причастия в современной русской речи: функции и тенденции развития

Ю. М. Кувшинская, Н. А. Зевахина, Acta Linguistica Petropolitana. Труды института лингвистических исследований 2023 Т. 19 № 1 С. 138–192

Статья посвящена современным плеонастическим употреблениям полных атрибутивных причастий в русской письменной речи. На материале двух корпусов (НКРЯ и КРУТ) и коллекции примеров, собранных вручную из разных письменных и электронных источников, описаны основные типы употребления плеонастических причастий и характерные для них семантические, грамматические, прагматические, коммуникативные эффекты: выражение избыточной анафорической связи, выражение определенности, экспликация пресуппозиций, выражение аспектуальных ...

Добавлено: 8 декабря 2022 г.

Количественная оценка перекрестных сетевых эффектов для нетрансакционных платформ

Рожкина В. С., Голованова С. В., Корнеева Д. В., Вестник Московского университета. Серия 6: Экономика 2022 № 4 С. 17–38

Анализ перекрестных сетевых эффектов необходим ввиду невозможности их непосредственного наблюдения и с целью учета влияния перекрестных сетевых эффектов на значения всех тестов в конкурентной политике, ценовой практике и оценке слияний. В статье обобщается опыт количественной оценки перекрестных сетевых эффектов для нетрансакционных платформ. В данной работе систематизированы методы оценки перекрестных сетевых эффектов (системы регрессионных уравнений, особенности ...

Добавлено: 15 сентября 2022 г.

Дискурсы в агитационных материалах «красных» и «белых» периодических изданий пермской губернии в годы Гражданской войны

Ехлакова А. Р., Исмакаева И. Д., В кн.: Пятая зимняя школа по гуманитарной информатике.: Калининград: Балтийский федеральный университет им. Иммануила Канта, 2021. С. 20–26.

Анализируются наиболее часто встречающиеся словоформы в агитационных материалах публикаций «красных» и «белых» периодических изданий Пермской губернии в годы Гражданской войны. Применение теории дискурса Э. Лакло и Ш. Муфф позволило рассмотреть периодику «красных» и «белых» как поле борьбы соответствующих дискурсов в формировании значений и понимании мира. На основе инструментария программы AntConc (N-gram, Collacates) выделены наиболее часто ...

Добавлено: 17 февраля 2022 г.

Delta Берроуза для древнегреческих авторов: опыт применения

Алиева О. В., Schole. Философское антиковедение и классическая традиция 2022 Т. 16 № 2 С. 693–705

В этой статье предпринята попытка эмпирически оценить эффективность метода измерения стилистической разницы, известного как Delta Берроуза, на материале древнегреческого корпуса. Эксперимент с корпусом из четырнадцати (и затем восьми) авторов подтвердил общую эффективность метода. Даже на небольших выборках в 1000–5000 слов решения Delta по большей части корректны, а ее ошибки связаны в основном с текстами, близкими ...

Добавлено: 9 февраля 2022 г.

Когнитивная обработка биномиалов русского языка тюркско-русскими билингвами

Буб А. С., Артёменко Е. Д., Язык и культура 2019 № 48 С. 32–45

Статья посвящена исследованию одного из аспектов билингвизма, а именно изучению процессов когнитивной обработки лексических единиц двуязычными индивидами. Как показывает обзор научной литературы, ментальный лексикон билингва отличается от ментального лексикона монолингва тем, что в последнем слова существуют не по отдельности, а вместе с колокационными связями, т.е. в совокупности с другими словами лексикона. Подобная организация отражается в ...

Добавлено: 29 октября 2021 г.

О СОВРЕМЕННОСТИ «СОВРЕМЕННОГО СОСТОЯНИЯ ИЗУЧЕНИЯ ПОЛИТИКИ» КРУГЛЫЙ СТОЛ

Гаман-Голутвина О. В., Панов П. В., Филиппов А. Ф., Полития: Анализ. Хроника. Прогноз 2021 № 1(100) С. 193–209

Добавлено: 12 апреля 2021 г.

Методы компаративных исследований

Гаман-Голутвина О. В., В кн.: Политическая компаративистика.: М.: Аспект Пресс, 2020. С. 85–104.

Добавлено: 12 апреля 2021 г.

Соотношение сил между великими державами в «Группе 20»: анализ при помощи метода многомерного шкалирования

Артюшкин В. Ф., Казанцев А. А., Сергеев В. М., Полис. Политические исследования 2021 Т. 2 С. 125–138

Цель статьи – проанализировать соотношение сил между великими державами внутри «Группы 20» путем применения одного из вариантов метода многомерного шкалирования. На базе анализа связанных понятий «гегемония» и «сила» в международных отношениях в рамках неореалистских, неолиберальных и мир-системных теорий глобальной гегемонии были вычленены восемь критериев глобального лидерства: ВВП на душу населения, ППС; военные расходы (% от ...

Добавлено: 8 февраля 2021 г.

Collocations and near-native competence: Lexical strategies of heritage speakers of Russian

Копотев М. В., Polinsky M., Kisselev O., International Journal of Bilingualism 2020 P. 1–28

This paper presents an exploratory study on the use of frequency-based probabilistic word combinations in Heritage Russian. The data used in the study are drawn from three small corpora of narratives, representing the language of Russian heritage speakers from three different dominant-language backgrounds, namely German, Finnish, and American English. The elicited narratives are based on ...

Добавлено: 30 сентября 2020 г.

О чувстве уважения в русском языковом сознании: уважения достойно…

Бочкарев А. Е., Slavica Slovaca 2020 Т. 55 № 1 С. 46–52

Предметом статьи является корпусное исследование чувства уважения в русском языковом сознании. Судя по примерам, засвидетельствованным в Национальном корпусе русского языка, под предмет уважения в русском языковом сознании подводится всё, что признается на основании каких-то свойств, состояний и действий как достойное почтительного к себе отношения: возраст, душевные качества, начитанность, физическая сила, кулинарные способности, традиции и обычаи, ...

Добавлено: 24 июня 2020 г.

Журналы земских собраний: организация информации на основе информационных систем (на примере Пермской губернии)

Корниенко С. И., Ехлакова А. Р., В кн.: Сборники Президентской библиотекиВып. 8: Цифровые проекты в современной информационной среде: наука и практика.: СПб.: Президентская библиотека имени Б.Н. Ельцина, 2018. С. 70–83.

Анализируются возможности использования информационных систем и количественных методов для изучения журналов земских собрании как исторического источника. Приведена характеристика журналов собраний как одного из основных делопроизводственных источников земских учреждений, охарактеризованы информационные системы, созданные в Центре цифровой гуманитаристики Пермского государственного национального исследовательского университета. На основе информационных систем проанализированы результаты организации информации в журналах земских собраний, получены количественные ...

Добавлено: 20 октября 2019 г.

LESS IS DOWN: корпусный анализ структуры метафорического значения глаголов падать и упасть

Культепина О. А., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2020 Т. 1 № XVI С. 344–367

В статье поднимается вопрос о возможностях корпусного анализа метафорического переноса на примере аспектуальной пары упасть /падать. Автор анализирует структуру переносного значения предикатов, реализующих метафору ‘LESS IS DOWN’, и рассматривает, как именно коллокации глаголов соотносятся с заполнением валентной структуры. В результате анализа выделяются типичные синтагматические связанные с метафорой паттерны и определяются лексико-семантические свойства коллокатов, определяющих метафоризацию ...

Добавлено: 7 октября 2019 г.

Метр отрезков длиннее строки в башкирском силлабическом стихе

Орехов Б. В., Известия РАН. Серия литературы и языка 2019 Т. 78 № 2 С. 41–50

В статье на башкирском материале рассматривается специфический элемент силлабического стихосложения: упорядоченные чередования строк разной длины. Такие стиховые формы существуют в тюркском стихе наряду с привычными изосиллабическими стихотворениями. Статус таких форм неоднозначен, их можно рассматривать и как строфу, и как отдельный метр. Аналогичным трудным случаем для традиционного стиховедения служит элегический дистих. На материале корпуса текстов 103 башкирских поэтов мы проанализировали соотношение ...

Добавлено: 18 сентября 2019 г.

Специфические слова и выражения русских классиков XIX века: опыт контрастивного корпусного исследования

Орехов Б. В., Ученые записки Петрозаводского государственного университета. Серия: Общественные и гуманитарные науки 2019 № 5 С. 70–75

Статья представляет результаты количественного исследования, выявляющего характерные и специфические низкочастотные слова для прозы русских классиков XIX века. С помощью меры TF-IDF и большой коллекции текстов XIX века для Тургенева, Гончарова, Лескова, Достоевского рассчитываются слова и обороты, которые редко встречаются или не встречаются у других авторов, но несколько раз появляются в прозе классиков. Такой контрастивный подход ...

Добавлено: 18 сентября 2019 г.