Language identification for texts written in transliteration

A. Chepovskiy; Sergey Gusev; Kurbatova M.

?

Language identification for texts written in transliteration

P. 13–20.

Chepovskiy A., Sergey Gusev, Kurbatova M.

The problem of identification of natural languages for the texts written in transliteration is considered. We consider a method of identification of five Slavic languages for texts written with use of a Latin transliteration. We use two ways of creation models for such texts and compare results of those application.

Language: English

Full text

Keywords: идентификация естественного языка текста statistical text model transliteration natural language identification статистическая модель текста транслитерация

In book

CDUD 2012 - Concept Discovery in Unstructured Data

Leuven: Katholieke Universiteit Leuven, 2012.

"Обыденная" латинизация русского языка в свете глобализации английского языка

Rivlina A. A., В кн.: Многоязычие и национальные культуры России в зеркале английского, французского, немецкого, русского и других языков. СПб.: Издательство РГПУ им. А.И. Герцена, 2018. С. 50–59.

The issue of the Russian language Romanization elicits a lot of controversy. The primary concern among “professional bilinguals” (linguists, English language educators, translators and interpreters) is caused by the lack of universally accepted Russian-English/Cyrillic-Roman transliteration norms. However, the issue that is often overlooked or dismissed as irrelevant is the everyday “grassroots” transliteration practice of “naïve”, ...

Added: June 14, 2018

Особенности перевода русских сказок на английский язык

Samorodova T. O., Теория и практика перевода 2014 № 1 С. 33–38

...

Added: October 7, 2014

Расширение модели идентификации языка коротких текстов

Соловьев Ф. Н., Chepovskiy A., Искусственный интеллект и принятие решений 2017 № 1 С. 21–26

В статье рассмотрена проблема автоматической идентификации естественного языка текста и наиболее полная известная нам ее модель. Предлагается расширение модели на новые кириллические языки малых народов России ...

Added: March 30, 2017

Yiddish Orthographies Variety and Problems of Automatic Transliteration

Orehov B.V., Panova T.A., Kirjanov D.P., Компьютерная лингвистика и интеллектуальные технологии 2014 Vol. Доклады, принятые к публикации на сайте

This study is dedicated to the problem of automatic transliteration of different Yiddish orthographies. Almost every publishing house has its own specific orthographical features and each orthography can be inconsistent. The team of the Yiddish corpus needs a tool that would standardize the variety of the writing systems. There are several types of converters but ...

Added: December 12, 2014

Расширение модели идентификации языка коротких текстов

Соловьев Ф. Н., Chepovskiy A., В кн.: Труды Международной научной конференции Московского физико-технического института (государственного университета) и Института физико-технической информатики (SCVRT1516). М., Протвино: Институт физико-технической информатики, 2016. С. 98–107.

В статье рассмотрена проблема автоматической идентификации естественного языка текста. Применяется Байесовский классификатор. Предлагается расширение модели на новые кириллические языки малых народов России. ...

Added: November 19, 2016

Сопоставление подходов к арабско-русской транскрипции и транслитерации

Orlov I., Ориенталистика 2023 Т. 6 № 5 С. 1053–1066

To date, in the Russian-speaking space there has been no unified approach to Arabic-Russian transcription and transliteration (the term “transmission” is used hereinafter). Different groups of authors and researchers use different solutions for certain transmission tasks. Some authors, due to the lack of clear recognized guidelines, do not adhere to specific rules even within the ...

Added: March 12, 2024

Автоматическая идентификация текстов на славянских языках, пользующихся кириллицей, записанных латинским алфавитом

Gusev S., Chepovskiy A., Научно-техническая информация. Серия 2: Информационные процессы и системы 2013 № 1 С. 27–33

Рассматриваются задачи идентификации русского языка текста, записанного на латинице, и преобразования записи текста на алфавите языка оригинала. В статье описан метод определения языка и оценена его точность при его применении к текстам на пяти славянских языках, записанных с использованием латинского алфавита. Предлагается методика уменьшения множественности при восстановлении написания записанных на латинице слов на алфавите языка ...

Added: January 31, 2013

Cross-lingual Named Entity List Search via Transliteration

Khakhmovich A., Pavlova S., Kirillova K. et al., , in: Proceedings of The 12th Language Resources and Evaluation ConferenceVol. 12. European Language Resources Association (ELRA), 2020. P. 4247–4255.

Out-of-vocabulary words are still a challenge in cross-lingual Natural Language Processing tasks, for which transliteration from source to target language or script is one of the solutions. In this study, we collect a personal name dataset in 445 Wikidata languages (37 scripts), train Transformer-based multilingual transliteration models on 6 high- and 4 less-resourced languages, compare ...

Added: October 9, 2020

Адаптивность русского как переводящего языка в англо-русском коммуникативном взаимодействии с позиций переводоведения

Vlasenko S. V., В кн.: Язык, сознание, коммуникация: сб. ст.Вып. 36. М.: МАКС Пресс, 2008. С. 70–82.

В статье рассматривается тенденция использования иностранных заимствований при наличии в русском языке однословных единиц именования, что порождает параллельный языковой код. Данный вопрос анализируется с позиций лингвоэкологии и с позиций идентичности русского как переводящего языка принимающей культуры. Обращает на себя внимание предпочтительность употребления англицизмов в тех случаях, для которых в русском языке существуют свои исконные способы ...

Added: February 3, 2015

Билингвизм и транслитерация: проблема передачи городских топонимов в многоязычном мире

Somin A., В кн.: Понимая город: коммуникация с пространством, временем и людьми: материалы XIX Международной школы по фольклористике и культурной антропологии. М.: Российский государственный гуманитарный университет, 2019. С. 74–82.

В статье описываются проблемы, возникающие при передаче топонимов для неносителей языка. Обсуждается противопоставление перевода и транслитерации топонимов, разница между решением этой проблемы для языков с латинской и нелатинской письменностями, а также проблема выбора языка-источника в ситуации официального многоязычия. ...

Added: August 28, 2019

Модель для идентификации естественного языка текста

Gusev S., Chepovskiy A., Бизнес-информатика 2011 № 3 (17) С. 31–35

В статье рассмотрена проблема автоматической идентификации естественного языка текста. Предлагается статистическая модель текстов на естественном языке. Рассматриваются алгоритмы определения естественного языка текста. ...

Added: September 27, 2012

A General Method Applicable to the Search for Anglicisms in Russian Social Network Texts

Fenogenova A., Karpov I., Kazorin V., , in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016. FRUCT Oy, 2016. P. 31–36.

With the process of globalization the number of borrowings from English has rapidly increased in languages all over the world. In systems of automatic speech recognition, spell-checking, tagging and other tasks in the field of natural language processing the loan words frequently cause problems and should be treat separately. In this paper we present a ...

Added: October 19, 2016

О применении Фишеровских ядер в задаче рас-познавания диктора

Ermilov A., Известия Юго-Западного государственного университета 2011 № 2 С. 15–20

In this article we consider application of Support Vector Machines with different types of kernels to the task of speaker identification. We use Fisher features for several types of channels (telephone, GSM, microphone). We analyze dependence of accuracy from length of input sentence. ...

Added: January 18, 2014

LowResourceEval2021: a shared task on speech processing for lowresource languages

Klyachko Elena, Grebenkin D., Nosenko D. et al., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 16–19 июня 2021 г.)Issue 20. Russian State University for the Humanitie, 2021.

Added: September 29, 2021