Автоматический сбор данных для исследований по лексической типологии

Д. А. Рыжова; И. А. Ершов; А. А. Мельник

?

Автоматический сбор данных для исследований по лексической типологии

С. 124–135.

Ryzhova D., Ершов И. А., Melnik A. A.

The paper describes a range of pilot experiments on the development of an algorithm that would automatically collect relevant data for research in lexical typology. The task comprises two stages: questionnaire translation and its further population with lexical data. We suggest to complete the first task with the help of machine-readable dictionaries, and the second task - on the basis of monolingual text corpora.

Language: Russian

Full text

Keywords: компьютерная лингвистика корпусная лингвистика лексическая типология машинный перевод

In book

Проблемы компьютерной лингвистики и типологии: Сборник научных трудов

Вып. 6. , Воронеж: Издательский дом ВГУ, 2017.

Concepts of searching and finding: principles of colexification in a typological perspective

Reznikova T., Ekaterina Rakhilina, Ryzhova D. et al., Lingua 2026 Vol. 341 Article 104187

The article examines lexification of the semantic domains of searching and finding based on a sample of 25+ languages. First, it discusses the semantic parameters underlying lexical oppositions within each of the domains (e.g., type of the subject and referentiality of the object, for searching; intentionality and animacy of the object, for finding). Second, it ...

Added: July 1, 2026

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.

M.: Max press, 2026.

The volume includes 64 papers from the international conference on computational linguistics and intelligent technologies 'Dialogue 2026,' representing a broad spectrum of theoretical and applied research in the field of natural language description, language process modeling, and the development of practically applicable computational linguistic technologies. For specialists in theoretical and applied linguistics and intelligent technologies. ...

Added: June 27, 2026

Зачем нужен поэтический корпус и как его использовать

Korchagin K., Русская речь 2019 Т. 6 С. 113–127

Поэтический корпус в составе Национального корпуса русского языка — инструмент для исследователей русской поэзии и поэтическо го языка. Корпус содержит обширную коллекцию русской поэзии XVIII ХХ веков, отражает все заметные поэтические направления и продол жает пополняться. В нем присутствуют два типа разметки — граммати ческая и стиховедческая. Если первая совпадает с разметкой в основ ном ...

Added: June 19, 2026

Focus on vocabulary. Экономика материальных и нематериальных активов: корпусный словарь и ИИ-упражнения по английскому языку

Gorina O. G., Kucherenko S., Larisa K. et al., СПб.: Астерион, 2026.

This textbook is an integrated teaching and learning resource for English for Specific Purposes (ESP) in the field of economics of tangible and intangible assets. Its design employs (i) modern corpus linguistics methods, including frequency analysis and keyword extraction based on authentic texts reflecting current trends in professional discourse, and (ii) artificial intelligence technologies for ...

Added: May 16, 2026

Глаголы перемещения веществ в славянских языках

Fedorov D., Jezikoslovni Zapiski 2026 Т. 32 № 1 С. 23–52

This article describes verbs denoting motion of liquid and dry substances in Slavic languages. The research explores how Slavic languages lexicalize different situations within the semantic field of substance motion and identifies the parameters that drive this lexicalization (e.g., type of substance, intensity and quantization of flow, and causation). Adjacent grammatical phenomena such as argument ...

Added: May 13, 2026

Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода

Dvoynikova A., Кагиров И. А., Карпов А. А., Информатика и автоматизация (Труды СПИИРАН) 2024

В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для ...

Added: April 25, 2026

Российская социология в условиях цифровизации общества: результаты анализа корпуса научных текстов

Smirnov A., Социологические исследования 2023 № 4 С. 39–50

Using the analysis of a corpus of texts from eight leading Russian sociological journals, the article examines the impact of the digitalization of society on sociology in 2000–2021. Frequency analysis of 13.8 thousand scientific texts tracked the introduction of concepts related to digitalization into academic circulation. The article reveals the differences between the journals, due ...

Added: March 18, 2026

Promotional adjectives in grant proposal abstracts: a corpus study

Dmitriy S. Tulyakov, Tatiana M. Permyakova, Ekaterina A. Balezina, Вестник Волгоградского государственного университета. Серия 2: Языкознание 2025 Vol. 24 No. 6 P. 58–67

By effectively integrating promotional discourse into grant proposal abstracts, researchers can more compellingly present their ideas and increase their chances of securing funding. Implications of promotional adjectives in grant writing might differ across various research fields. This study aims to explore the use of promotional adjectives in abstracts of research grant proposals in six research ...

Added: March 2, 2026

Kirina M., Лукьянчикова А. С., В кн.: Язык в эпоху цифровых трансформаций и развития искусственного интеллекта : Сборник научных статей по итогам II Международной научной конференции Минск, 23–24 октября 2025 г.: Мн.: БГУИЯ, 2025. С. 74–85.

В статье рассматриваются характерные особенности гороскопических текстов как части астрологического дискурса. Материалом исследования выступает представительная выборка ежедневных предсказаний на русском языке, опубликованных в открытых группах социальной сети «ВКонтакте», суммарным объемом 1185425 словоупотреблений. С использованием методов корпусной и компьютерной лингвистики анализируются содержательные лексические единицы – как общие, так и отличительные для каждого знака зодиака (в сопоставлении ...

Added: February 28, 2026

Оценка качества использования больших языковых моделей в задачах машинного перевода

Mylnikova A., Mylnikov L., Научно-техническая информация. Серия 2: Информационные процессы и системы 2026 № 2 С. 24–33

Представлены результаты сравнительной оценки качества машинного перевода, выполненного большими языковыми моделями (LLM): DeepSeek, Grok, Mistral, Qwen, GigaChat, Yandex, на основе перевода выразительных языковых средств (фразеологизмов, омонимов, каламбуров и т.д.) и текстов различных функциональных стилей. Качество перевода оценивалось количественно с помощью метрик когерентности (BLEU, METEOR, chrF) и качественно — путем экспертного анализа на соответствие критериям адекватности, ...

Added: February 27, 2026

Динамика восприятия площадей в пространстве города носителями русского языка (сравнительный анализ по данным НКРЯ)

Belova P., В кн.: Актуальные вопросы лингвистики и литературоведения: сборник научных статей по материалам международной научной конференции памяти доктора филологических наук, профессора Л.А. Араевой (6–8 февраля 2025).: Кемеровский государственный университет, 2025. С. 155–160.

This article contains research results on the dynamics of squares’ perception in the city space in the Russian language picture of the world over time, starting from the second half of the XXth century to the present. Turning to the subcorpus of literary texts of the second half of the XXth century and the XXIst ...

Added: February 4, 2026

Языковая концептуализация пространства в художественном тексте (по данным НКРЯ)

Belova P., В кн.: Когнитивные исследования языка. Вып. №1 (62): материалы Международной научной конференции по когнитивной лингвистике. 5-7 июня 2025. Ч. 2Ч. 2. Кн. 62. Вып. 1.: ТюмГУ-Press, 2025. С. 56–60.

Данная статья представляет результаты изучения содержания концепта ПРОСТРАНСТВО в русском языковом сознании на материале художественных прозаических текстов разных жанров, созданных во второй половине XX века и в XXI веке и представленных в НКРЯ. Анализ проведен с учетом таких культурно-языковых фильтров, как пропозициональные установки, предметно-понятийные корреляции и метафорические преобразования. ...

Added: February 4, 2026

Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста

П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.

В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...

Added: January 30, 2026

К типологии глагольной колексификации в области каузированного перемещения

Овчинникова А. В., В кн.: Двадцать вторая Конференция по типологии и грамматике для молодых исследователей. Тезисы докладов (Санкт-Петербург, 27–29 ноября 2025 г.).: СПб.: ИЛИ РАН, 2025..

Традиционно в литературе, посвящённой лексической полисемии, обсуждают два основных механизма семантических сдвигов — метафору и метонимию. Метафора подробно исследовалась в применении к разным лексическим классам, тогда как метонимия изучалась в основном на материале существительных. При обсуждении метонимии на глагольном материале [Падучева 2004; Кустова 2004] различают два класса переходов: обусловленных перепрофилированием аргументной структуры и смежностью разных фаз ...

Added: December 13, 2025

Русские глаголы исчезновения в типологическом контексте

Albitskiy P., Rakhilina E. V., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2025 № 21.1 С. 34–61

The article examines Russian verbs of disappearance analyzing their semantic and syntactic properties. These verbs are classified as “underdetermined predicates” similar to verbs of hiding and searching as they do not specify the exact process of disappearance only indicating its result. Unlike verbs of searching and hiding, verbs of disappearance do not describe associated processes ...

Added: December 6, 2025

Два подхода к дифференциации терминов миграционных исследований (по данным корпусного анализа)

Permyakova T. M., Smirnova E. A., Новые исследования Тувы 2025 № 4 С. 122–136

The article presents a quantitative and qualitative analysis of English-language terms related to the study of migration.The sources used were research articles in the social sciences published between 2018 and 2020 in international first-quartile journals indexed in the Scopus database. The corpus-linguistic study addresses two objectives: to identify functioning systems of terms in scientific articles ...

Added: December 1, 2025

Дискурсивные возможности больших языковых моделей при решении задач генерации новых текстов

Mylnikova A., Гасимов А. Р., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 9 С. 33–38

На основе изучения функционирования больших языковых моделей (LLMs) и специфических характеристик машинной обработки дискурса показано применение экспериментального метода компьютерного и лингвистического анализа для статистического исследования и интерпретации лингвистических характеристик текстов. В качестве материалов исследования использован лингвистический корпус текстов Brown, а также корпуса искусственно сгенерированных текстов с применением Claude Sonnet 3.7 и Grok-3. В механизмах обработки ...

Added: November 19, 2025

Вариативность годов vs. лет в русских говорах: корпусное исследование

Zemicheva S., Moroz G., Naccarato C., Вопросы языкознания 2025 № 6 С. 7–34

Наличие супплетивной формы лет в парадигме существительного год отличает русский язык от других восточнославянских. При этом в русских говорах вместо лет может использоваться вариант годов. Данные панхронического подкорпуса НКРЯ показывают, что форма годов, зафиксированная впервые в XV в., на всем протяжении истории русского языка была периферийной, в XVII–XVIII вв. использовалась преимущественно в нехудожественных текстах, а в ...

Added: November 12, 2025

Глаголы поля ‘мешать’ в шугнанском языке

Armand E., Ryzhova D., Ризвоншоева Н. Н., Известия РАН. Серия литературы и языка 2025 Т. 84 № 5 С. 99–111

The article presents a system of verbs of the semantic field of ‘mixingʼ in Shughni. Based on dictionary data and the results of speaker interviews using a typological questionnaire, we show that there are about 13 verbs in this semantic zone, including both simple and complex verbs. The paper considers the peculiarities of use of ...

Added: October 30, 2025