Building a Clean Bartangi Language Corpus and Training Word Embeddings for Low-Resource Language Modeling

АБВ
АБВ
АБВ

Обычная версия сайта

Приоритетные направления

по году

Тематика

26 июня 2026 г.

«Культурологи пытаются увидеть, что скрывается за поверхностью обычных вещей»

Максим Жиганов много лет исследует разные стороны звука — сначала в привязке к своей родной Перми, а затем в более глобальных масштабах. В интервью проекту «Молодые ученые Вышки» он рассказал о звуковых картах, тематическом номере журнала «Логос» и о том, зачем делать привычное менее понятным и очевидным.

26 июня 2026 г.

В НИУ ВШЭ разработали приложение для диагностики фонологической обработки у детей

Специалисты Центра языка и мозга НИУ ВШЭ представили новый цифровой инструмент для оценки навыков фонологической обработки у детей — батарею тестов «ЗАРЯ» («Звуковой анализ русского языка»). Это первое в России стандартизированное приложение, позволяющее быстро и надежно выявлять нарушения способности различать звуки речи, удерживать их в оперативной памяти и проводить фонематический анализ. Программа работает на планшетах и смартфонах с операционной системой Android, доступна для скачивания в RuStore. Детали валидации теста опубликованы в Journal of Speech, Language, and Hearing Research.

24 июня 2026 г.

Древняя чашекрания - новый вид брахиопод с необычной формой раковины и образом жизни

Российские ученые из Высшей школы экономики, МГУ имени М.В. Ломоносова и Таллинского технического университета изучили ископаемый вид древних брахиопод (плеченогих), который обитал в теплом море на севере современной Эстонии более 445 миллионов лет назад. Древняя брахиопода росла в форме чашки со «шляпкой», чтобы защититься от зарастания. Исследование опубликовано в журнале Palaeogeography, Palaeoclimatology, Palaeoecology.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации

?

Building a Clean Bartangi Language Corpus and Training Word Embeddings for Low-Resource Language Modeling

P. 1256–1262.

In this paper, we showcase a comprehensive end-to-end pipeline for creating a superior Bartangi language corpus and using it for training word embeddings. The critically low-resource Pamiri language of Bartangi, which is spoken in Tajikistan, has difficulties such as morphological complexity, orthographic variety, and a lack of data. In order to overcome these obstacles, we gathered a raw corpus of roughly 6,550 phrases, used the Uniparser-Morph-Bartangi morphological analyzer for linguistically accurate lemmatization, and implemented a thorough cleaning procedure to eliminate noise and ensure proper tokenization. The lemmatized corpus that results greatly lowers word sparsity and raises the standard of linguistic analysis. The processed corpus was then used to train two different Word2Vec models, Skipgram and CBOW, with a vector size of 100, a context window of 5, and a minimum frequency threshold of 1. The resultant word embeddings were displayed using dimensionality reduction techniques like PCA (Pearson, 1901) and t-SNE (van der Maaten and Hinton, 2008), and determined using intrinsic methods like nearest-neighbor similarity tests. Our tests show that even from tiny datasets, meaningful semantic representations can be obtained by combining informed morphological analysis with clean preprocessing. One of the earliest computational datasets for Bartangi, this resource serves as a vital basis for upcoming NLP tasks, such as language modeling, semantic analysis, and low-resource machine translation. To promote more research in Pamiri and other under-represented languages, we make the corpus, lemmatizer pipeline, and trained embeddings publicly available.

Язык: английский

Полный текст

Ключевые слова: Building a Clean Bartangi Language Corpus and Training Word Embeddings for Low-Resource Language Modeling

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Сложные языковые и семантические модели в искусственном интеллекте (2025)

В книге

Proceedings of the 15th International Conference on Recent Advances in Natural Language Processing

Shumen: INCOMA Ltd, 2025.