Автоматизация построения словаря на материале массива несловарных словоформ

О. Н. Ляшевская; Д. В. Сичинава; Б. П. Кобрицов

Publications

?

Автоматизация построения словаря на материале массива несловарных словоформ

С. 118–125.

Lyashevskaya O., Sichinava D., Kobritsov B.

Language: Russian

Full text

Keywords: кластеризация лемматизация несловарные слова

In book

Интернет-математика – 2007: сборник работ участников конкурса научных проектов по информационному поиску

Екатеринбург: Издательство Уральского университета, 2007.

Дискриминативная лемматизация сокращений в эпоху LLM

Глазкова А. В., Смаль И. В., Lyashevskaya O. et al., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155

This paper presents a study on the effectiveness of discriminative methods for abbreviation lemmatization in Russian texts. Unlike generative approaches, discriminative models select the optimal lemma from a fixed set of candidates, eliminating the risk of generating grammatically incorrect word forms. For the first time in Russian language processing, we conduct a comprehensive analysis of ...

Added: March 10, 2026

Rubic2: Ensemble Model for Russian Lemmatization

Afanasev I., Glazkova A., Lyashevskaya O. et al., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.

Pre-trained language models have significantly advanced natural language processing (NLP), particularly in analyzing languages with complex morphological structures. This study addresses lemmatization for the Russian language, the errors in which can critically affect the performance of information retrieval, question answering, and other tasks. We present the results of experiments on generative lemmatization using pre-trained language ...

Added: March 10, 2026

Transformer-based approaches for lemmatizing abbreviations in Russian texts

Glazkova A., Lyashevskaya O., Morozov D. et al., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47

This paper addresses the task of lemmatizing abbreviations in the Russian language. Abbreviation lemmatization is particularly challenging, as it involves not only transforming a word into its normal form but also correctly expanding the abbreviation. We explore two approaches to this task, both leveraging large pretrained language models. The first approach is generative, where the ...

Added: March 10, 2026

A Clustering Model for Stocks that Considers Hidden Dynamics and Price Trajectory

Morychev G., Sizykh D., Sizykh N., IEEE Access 2025 Vol. 13 P. 213194–213210

One of the main tools for analyzing large volumes of financial data is the use of clustering methods and models, which allow the identification of various patterns. This study examines the problem of clustering time series that reflect the behavior of prices, yields, modes, trends, and a number of related stock indicators. The relevance and ...

Added: February 3, 2026

Flexible Stock Market Algorithm

Rubchinskiy A., Chubarova D., Technology and Investment 2025 Vol. 16 No. 4 P. 211–240

The article considers one of the most famous examples of socio-economic systems characterized by significant uncertainty—the S&P-500 stock market, where shares of 500 largest US companies are traded. The flexible algorithm for daily trading has been developed. It is based on known fixed data about cost of shares in previous days as well as on ...

Added: December 19, 2025

Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.

Rubchinskiy A., Chubarova D., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.

The article examines one of the most famous examples of socio-economic systems, characterized by significant uncertainty – the S&P-500 stock market, where shares of 500 largest US companies are traded. No assumptions are made about the probabilistic characteristics of the stock market. A flexible algorithm for daily trading has been developed, based on both known fixed data ...

Added: November 9, 2025

Computer tools in mental disorders diagnostics by oral speech

Khomenko A., Komratova A., Isakov D. et al., , in: Computational linguistics and intellectual technologies. Papers from the Annual International Conference "Dialogue" (2025)Vol. 23.: [б.и.], 2025. P. 147–157.

The integration of automated speech analysis in diagnosing mental health disorders is becoming increasingly significant in both clinical and computational linguistics. This study aims to construct linguistic profiles for individuals with neurocognitive and affective mental disorders. Using speech transcriptions and relevant to the study computational techniques like lexical clustering and stylostatistical analysis, this research looks ...

Added: October 19, 2025

ОТСЛЕЖИВАНИЕ РАЗВИТИЯ РАЗРУШЕНИЯ С ПОМОЩЬЮ КЛАСТЕРИЗАЦИИ ИМПУЛЬСОВ ТЕРМИЧЕСКИ СТИМУЛИРОВАННОЙ АКУСТИЧЕСКОЙ ЭМИССИИ ПРИ ОТСУТСТВИИ ЛОКАЦИИ

Индаков Г. С., Казначеев П. А., Майбук З. Я. et al., Геофизические исследования 2025 Т. 26 № 2 С. 99–124

The paper studies the clusterability of acoustic emission pulses during high-temperature heating of sandstone sample preliminarily subjected to mechanical loading. Mechanical loading was applied in uniaxial mode up to load close to destructive with appearance of signs of large cracks on the surface. After that, samples were subjected to thermal treatment up to 650 °C ...

Added: September 19, 2025

Анализ тематики повседневных разговоров: экспертный подход и автоматические методы

Sherstinova T., Вепринцева Д. А., Человек: образ и сущность. Гуманитарные аспекты 2025 № 2(62) С. 89–108

В статье рассматриваются три разных подхода к изучению тематики повседневных разговоров: экспертная тематическая разметка и два автоматических метода (тематическое моделирование и кластеризация). Материалом для исследования послужили расшифровки русской устной повседневной речи из корпуса ОРД, подготовленные на основе звукозаписей спонтанных разговоров, выполненных в естественных коммуникативных ситуациях (дома, на работе, в учебном заведении, в магазине, в поликлинике ...

Added: September 3, 2025

Maksimov A. G., Telezhkina M., / NRU Higher School of Economics. Series EC "Economics". 2024. No. 271.

The paper examines similarity of models with structural changes among heterogeneous panel data units. We propose applying a cosine metric to compare angles between vectors of weighted coefficients as a measure of closeness of economic models. Testing whether the cosine metric value is zero against nonzero, positive, and negative alternatives enriches traditional testing results. The ...

Added: March 10, 2025

Метод туннельной кластеризации

Aleskerov F. T., Myachin A. L., Yakuba V. I., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2024 Т. 520 № 1 С. 29–34

Предлагается новый метод быстрого поиска закономерностей в числовых данных большой раз-мерности, названный “туннельной кластеризацией”. Основными преимуществами нового методаявляются: относительно невысокая вычислительная сложность; эндогенное определение составаи количества кластеров; высокая степень интерпретируемости конечных результатов. Приведеноописание трех различных вариаций: с фиксированными гиперпараметрами, адаптивными, а так-же комбинированный подход. Рассмотрены три основных свойства туннельной кластеризации.Практическое применение приведено как на синтетических ...

Added: March 3, 2025

Использование Z-чисел для описания набора данных

Гусейнов О., Degtyarev K. Y., IRETC MTÜ PAHTEI - Proceedings of Azerbaijan High Technical Educational Institutions 2025 Т. 48 № 1 С. 360–370

The concept of Z-number was proposed by Prof. Lotfi Zadeh to describe partial reliability of information, and it is a kind of fusion of fuzziness and probabilistic uncertainty. Z-number can be presented as a pair of fuzzy numbers Z(A,B) used to describe a value of a random variable X. The first component (A) is a ...

Added: February 20, 2025

An empirical scrutinization of four crisp clustering methods with four distance metrics and one straightforward interpretation rule

T. A. Alvandyan, S. Shalileh, Doklady Mathematics 2024 Vol. 110 No. S1 P. S236–S250

Clustering has always been in great demand by scientific and industrial communities. However, due to the lack of ground truth, interpreting its obtained results can be debatable. The current research provides an empirical benchmark on the efficiency of three popular and one recently proposed crisp clustering methods. To this end, we extensively analyzed these (four) ...

Added: November 30, 2024

«Уходя — уходи»: кто остается с Россией и как перераспределяется импорт?

Gnidchenko A., Mikheeva O. M., Salnikov V., Вопросы экономики 2023 № 12 С. 48–65

We examine the division of countries according to their political attitude towards Russia after the launch of a special military operation in Ukraine and the introduction of large-scale sanctions, and illustrate the importance of sanctions and political attitude to Russia for countries’ exports there with the available statistical data. The countries are clustered by their ...

Added: October 28, 2024

Статистические методы снижения размерности и кластеризации в экономике: учебное пособие для вузов

Т.А. Дуброва, М.А.Есенин, М.: Издательско-торговая корпорация «Дашков и Ко», 2024.

В учебном пособии представлены теоретические основы статистических методов снижения размерности и кластеризации, востребованных в экономических исследованиях. Рассмотрены метод главных компонент, методы кластерного анализа (иерархические агломеративные процедуры и различные модификации метода k-средних), позволяющие проводить многомерный статистический анализ сложных наборов данных. Приведены примеры практического применения обсуждаемых методов в экономических задачах, большое внимание уделено интерпретации результатов. Каждую главу завершают ...

Added: October 25, 2024

Моделирование оплаты труда учителей в условиях неоднородности социально-экономического состояния регионов

Богданова Т. К., Жукова Л. В., В кн.: XI-я международная конференция «Многомерный статистический анализ, эконометрика и моделирование реальных процессов» имени С.А. Айвазяна.: М.: ЦЭМИ РАН, 2024. С. 41–44.

The paper is devoted to the analysis and forecasting of the average salary of teachers. For 84 regions on the basis of their socio-demographic characteristics according to Rosstat data using Ward's method we obtained a two-cluster solution, which allowed us to identify quite strong differences in the level of wages, GRP per capita, level of ...

Added: October 4, 2024

Clustering with empty clusters

Penikas H. I., Феста Ю. Ю., Известия Дальневосточного федерального университета. Экономика и управление 2024 Vol. 2 P. 75–94

Кластерный анализ широко используется в различных научных и практических областях, связанных с анализом данных. Это важный инструмент для решения задач в таких областях, как машинное обучение, обработка изображений, распознавание текста и т.д. Отсутствие наблюдений не всегда означает отсутствие информации, поэтому предполагается, что наличие пробелов в данных, наличие“пустых” кластеров, также несёт в себе информацию об объекте исследования, как и реальные наблюдения. В этом исследовании предполагается, ...

Added: August 10, 2024

Классифицирование моделей смертности на примере Республики Саха (Якутия)

Suvorkov P., Ermolin I., Федорова М. В. et al., В кн.: Арктический вектор: Арктика — вызовы здравоохранению: материалы V межрегиональной научно-практической конференции (Якутск, 30 ноября 2022 года).: Якутск: Государственное учреждение Академия наук Республики Саха (Якутия), 2023. Гл. 17 С. 148–168.

Исследовательский коллектив представляет тезисы по результатам разработок, связанных с моделированием смертности в Республике Саха (Якутия) на тридцатилетнем интервале календарных лет (с 1989 по 2021 гг.). Целью исследования является классифицирование моделей вымирания поколений на основании таблиц смертности, оценки межиндивидуальных различий в возрастах смерти, элементов машинного обучения. ...

Added: November 7, 2023