Clustering Words with Similar Sense Using Information about their Syntactic Dependencies

E. Klyshinskiy; N. A. Kochetkova; V. K. Logacheva

?

Clustering Words with Similar Sense Using Information about their Syntactic Dependencies

P. 65–72.

Клышинский Э. С., Кочеткова Н. А., Логачева В. К.

In this article we report some new experiments in the area of words clustering for the Russian language. We introduce a new clustering method that distributes words into classes according to their syntactic relations. We used a large untagged corpus (about 7,2 bln of words) to collect a set of such relations. The corpus was processed using a set of finite state automata that extracts syntactically dependent combinations having explicit structure. These automata were used to process only unambiguous text fragments because of combination of these techniques increases the quality of sampled input data. The modification of group average agglomerative clustering was used to separate words between clusters. The sampled set of clusters was tested using one of the semantic dictionaries of the Russian language. The NMI score calculated in this article is equal to 0.457 and F1-score is 0.607.

Язык: английский

Полный текст

Ключевые слова: Russian language clustering of words syntactic dependencies

В книге

Innovations in Information and Communication Science and Technology - 3rd Postgraduate Consortsium International Workshop IICST 2013

Tomsk: ., 2013.

Местоимения с фокусным антецедентом в русском языке: кореферентные и связанные употребления в корпусах

Тискин Д. Б., Компьютерная лингвистика и интеллектуальные технологии 2026 No. 24 P. 656–665

D:/Output/2025/Dialogue_after_review.pdfНесмотря на значительный интерес к факторам, определяющим выбор между личными и возвратными местоимениями с антецедентом в русском языке, роль отношения к антецеденту (кореферентность или связывание) остаётся слабо изученной, а приемлемость отдельных примеров вызывает споры. В настоящей работе на материале веб-корпусов (Araneum и ГИКРЯ) исследуется влияние, оказываемое на интерпретацию местоимения как кореферентного фокусному антецеденту или связанного ...

Добавлено: 19 июля 2026 г.

Тезисы докладов Пятнадцатых Шмелёвских чтений: (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева):Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности

М.: Институт русского языка им. В.В. Виноградова РАН, 2026.

Сборник тезисов Пятнадцатых Шмелёвских чтений (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева) Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности. Охватывает разные аспекты современной русистики: от исторической лексикологии до современных трансформаций прагматики и семантики слов. ...

Добавлено: 23 июня 2026 г.

Juxtapositional vs. possessive-like encoding in Russian specificational constructions

Логвинова Н. Н., Russian linguistics 2026 Vol. 50 Article 11

Добавлено: 18 мая 2026 г.

Дискриминативная лемматизация сокращений в эпоху LLM

Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155

В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...

Добавлено: 10 марта 2026 г.

Rubic2: Ensemble Model for Russian Lemmatization

Афанасьев И. А., Glazkova A., Ляшевская О. Н. и др., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.

Добавлено: 10 марта 2026 г.

Transformer-based approaches for lemmatizing abbreviations in Russian texts

Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47

Добавлено: 10 марта 2026 г.

Правовое положение соотечественников, проживающих в постсоветских странах, в условиях нестабильной международной обстановки

Затулин К. Ф., Егоров В. Г., Докучаева А. В. и др., М.: Институт диаспоры и интеграции (Институт стран СНГ), 2025.

Книга «Правовое положение соотечественников, проживающих в постсоветских странах, в условиях нестабильной международной обстановки» содержит результаты исследования, проведенного в Абхазии, Азербайджане, Армении, Беларуси, Грузии, Казахстане, Киргизии, Латвии, Литве, Молдове, Приднестровской Молдавской Республике, Таджикистане, Узбекистане, Эстонии и Южной Осетии. Исследование выполнено Институтом диаспоры и интеграции (Институтом стран СНГ) в 2024 году. Оно включило в себя анализ нормативно-правовых ...

Добавлено: 3 февраля 2026 г.

Методика обучения младших школьников чтению на русском и английском языках: сходство и различие

[б.и.], 2022.

В статье освещается важность роли обучения чтению детей, ее специфические особенности и составляющие; рассмотрены основные приемы и методики, используемые при обучении чтению детей как на русском, так и на английском языках; проведена сравнительная характеристика двух языков. Кроме того, в статье также сравнивается методики обучения чтению по русскому и английскому языку для того, чтобы найти слабые ...

Добавлено: 31 января 2026 г.

Semi-fake indexicals in Russian

Тискин Д. Б., Типология морфосинтаксических параметров 2025 Vol. 8 No. 1 P. 112–129

Добавлено: 26 января 2026 г.

Некоторые модификации к теории связанных употреблений индексальных выражений И. Басси

Тискин Д. Б., Типология морфосинтаксических параметров 2024 Т. 7 № 1 С. 107–123

Связанные употребления индексальных выражений (fake indexicals, FI), в т. ч. личных местоимений 1 и 2 лица, анализируются И. Басси [Bassi 2021] как результат постсинтаксического процесса, обращающегося к признакам референта местоимения. Это приводит к экстравагантному описанию синтаксиса и семантики относительных придаточных, включающих FI. Опираясь на данные русского языка, мы показываем способ вернуться к более традиционному описанию ...

Добавлено: 26 января 2026 г.

Проблема формирования национального самосознания у детей в процессе изучения родного языка в трудах К. Д. Ушинского

Бизяева Н. Д., Проблемы современного образования 2025 № 4 С. 134–141

Статья является результатом осмысления взглядов К. Д. Ушинского на проблему формирования национального самосознания у детей в процессе изучения родного языка. Было определено, что идея народности, выраженная в теоретических и аксиологических установках Константина Дмитриевича Ушинского, достаточно ярко была представлена в программе обучения детей «Родному слову». В ходе изучения трудов выдающегося педагогического мыслителя второй половины XIX в. ...

Добавлено: 16 декабря 2025 г.

Detecting Ethnic Conflict in Social Media with Transformers and Augmented Data

Кольцова Е. Ю., Сурков А. Ю., Procedia Computer Science 2025 Vol. 258 P. 2382–2390

Добавлено: 28 ноября 2025 г.

Речевые акты с вежливыми диминутивами: жанровые и дискурсивные особенности

Фуфаева И. В., Вестник Волгоградского государственного университета. Серия 2: Языкознание 2025 Т. 24 № 4 С. 78–90

Речевые акты, в которых используются диминутивы как средство вежливости, рассматриваются в статье в аспектах их дискурсивной и жанровой принадлежности. Материалом исследования послужили авторские записи разговорной речи; данные Национального корпуса русского языка и записей городской речи, сделанных в 1970-е гг. и на рубеже ХХ-ХХI вв. В статье отмечается возможность употребления вежливых диминутивов в любых дискурсах, связанных ...

Добавлено: 25 ноября 2025 г.

Интерпретация сложных предложений с разными типами матричных предикатов в контексте отрицания и модальных операторов

Летучий А. Б., Russian Linguistics 2025 Т. 49 № 2 Статья 2

В статье обсуждаются типы интерпретации русских сложных предложений с фактивными, импликативными и интерпретационными предикатами в контексте отрицанияи модальных операторов. По умолчанию мы ожидаем, что отрицательный или модальный контекст затрагивает только главную пропозицию. Однако есть и немало исключений, которые мы называем «прозрачными прочтениями»: речь идёт о прочтениях, вкоторых внешний контекст семантически затрагивает и главную, и зависимую ...

Добавлено: 5 ноября 2025 г.

Gender stereotypes in agreement processing with role nouns: a study on Russian

Слюсарь Н. А., Антропова Д. В., Frontiers in Psychology 2025 Vol. 16 Article 1619505

Добавлено: 22 сентября 2025 г.

Новые номинации мужчин в молодежном сленге

Кронгауз М. А., Труды института русского языка им. В.В. Виноградова 2025 № 3(45) С. 159–167

В статье рассматривается современный молодежный сленг, а именно номинации мужчин, появившиеся в самое последнее время: анк(л), масик, нормис, сигма, скуф, тюбик, чечик, штрих. Обращается внимание на то, что слова масик, тюбик, чечик, штрих часто в интернете обсуждаются вместе и имеют общие семантические и прагматические характеристики. Они обозначают типажи мужчин в соответствии с их пригодностью к ...

Добавлено: 17 сентября 2025 г.

Cultural Evaluation of LLMs in Russian: Catchphrases and Cultural Types

Громенко Е. С., Калачева Д. С., Клокова К. С. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (2025).: [б.и.], 2025.

Наше исследование посвящено изучению культурной осведомленности больших языковых моделей о со временном русскоязычном социокультурном контексте. Для этого предложена структурированная система, включающая 8 культурных типов (например, Духовный практик, Советский интеллигент) и 5 групп речевых клише. На основе этой системы был разработан набор данных из 400 вопросов различных форматов для оценки фактологического знания культурных особенностей и более ...

Добавлено: 10 мая 2025 г.

Контроль в инфинитивной целевой конструкции при глаголах принести и взять в русском языке

Федоров Д. Г., Вопросы языкознания 2025 № 4 С. 77–96

В статье рассматриваются употребления бессоюзного целевого инфинитива при матричных глаголах принести и взять в русском языке. Изначально неясно, от какого из глаголов зависит выраженный объект и образуют ли каждый из глаголов собственную клаузу или же вместе представляют единый предикативный комплекс. В работе приводятся результаты синтаксических тестов на моноклаузальность/биклаузальность этой конструкции. Приведённые данные говорят в пользу ...

Добавлено: 21 апреля 2025 г.

История идиомы не занимать: реанализ, свернувший с пути

Баркова Л. А., Русский язык в научном освещении 2024 № 2(48) С. 103–128

В статье рассматривается история идиомы не занимать в контексте диахронической грамматики конструкций. Источником возникновения этой идиомы был отрицательный инфинитив, выступавший вершиной модальной клаузы, являющейся главной в предложении. Поэтому сама идиома в самых ранних контекстах выступала вершиной клауз, чей синтаксис идентичен клаузам с модальным инфинитивом. Затем начал происходить реанализ идиомы не занимать в единый предикат, и под его действием изменился ...

Добавлено: 9 марта 2025 г.

Новый большой сербско-русский словарь (общая концепция и проблемы лексикографического описания)

Драгичевич Р., Королькова М. Д., Рыжова Д. А. и др., Вопросы лексикографии 2024 № 32 С. 43–60

Добавлено: 31 января 2025 г.