?
Создание специальных корпусов текстов на основе расширенной платформыTXM
Системы высокой доступности. 2018. Т. 14. № 3. С. 76-81.
The extension of the TXM platform for case analysis is considered. It is proposed to use the allocation of pseudo-words in words of text on the basis of the method of structural schemes and the identification of nominal groups in the structure of the text forselecting subcorps in terms of parameters. The results of the analysis of the corpus of extremist texts are described.
Лаврентьев А. М., Соловьев Ф. Н., Суворова М. И. et al., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2018 Т. 16 № 3 С. 19-31
ПлатформаTXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий,
кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпу-сов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структур-ных единиц анализа. Она интегрирована с единственным расширениемTreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, ...
Added: September 8, 2018
Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Вопросы кибербезопасности 2019 № 4(32) С. 54-60
Цель исследования: разработка методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов.
Метод: применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы.
Полученные результаты: показано, что разработанные средства расширения ...
Added: August 10, 2019
Sibirtseva V., Khomenko A., Baranova J., Образовательные технологии и общество 2013 Т. 16 № 3 С. 508-521
The article reports about the students and teachers research group of National Research University Higher School of Economics entitled "Corplingui (Nizhny Novgorod-Moscow)"development. This work is about the research in the field of computer and corpus linguistics. Development primarily focuses on the creation of interactive resources based on the materials of The Russian National Corpus. The ...
Added: October 4, 2013
Krukov V. A., Вестник Кемеровского государственного университета. Серия: Политические, социологические и экономические науки 2019 Т. 4 № 1 С. 98-105
The paper considers the problems of the development of monotowns related to the development of mineral resources. The author shows that the solution of the problems of these cities is possible only if the system of state regulation of the development of mineral resources is changed at the stage of high maturity of the resource ...
Added: September 10, 2019
Arkhangelskiy T., Гильмуллин Р. А., Невзорова О. А. et al., Научно-техническая информация. Серия 2: Информационные процессы и системы 2013
В статье описывается электронный корпус татарского языка, созданный в рамках программы фундаментальных исследований Президиума РАН "Корпусная лингвистика", и методы, использованные авторами для создания этого корпуса. В частности, описываются текстовый состав и жанровая структура корпуса, принятые авторами решения о выделении морфологических характеристик, автоматическая морфологическая разметка текстов с помощью двухуровневой модели морфологии и анализатора PC-KIMMO и размещение ...
Added: October 25, 2013
Каз. : Издательство «Фэн» Академии наук Республики Татарстан, 2012
Сборник трудов XII Казанской школы-семинара TEL'2012 «Корпусы национальных языков: модели и технологии», прошедшей 25-28 января 2012 г. в Казани. ...
Added: April 23, 2013
Voznesenskaya T., Леднов Д. А., Машинное обучение и анализ данных 2018 Т. 4 № 4 С. 266-279
This paper is toward the system of automatic text summarization developed by «DC – Systems» company in cooperation with the faculty of computer science at HSE. The summary is a concise description of the text in terms of its content and meaning, i.e. from the point of view of its semantics. The purpose of the ...
Added: October 5, 2018
Dereza O., , in : Actes de la conférence conjointe JEP-TALN-RECITAL. Vol. 6: Celtic Language Technology Workshop.: P. : [б.и.], 2016. P. 12-17.
This paper explores the problem of developing NLP tools for morphologically rich and orthographically inconsistent classical languages. It is a case study of building a lemmatizer for Old Irish using only a dictionary and an unlabeled corpus as sources of data. At the current stage, the lemmatizer shows 76.31% average recall score on a corpus ...
Added: October 5, 2017
СПб. : Издательство Санкт-Петербургского университета, 2019
Сборние содержит материалы докладов, представленных на Международной научной конференции "Корпусная лингвистика-2019" 24-28 июня 2019 г. в Санкт-Петербурге. ...
Added: July 8, 2019
М. : Изд-во РГГУ, 2017
The 16th issue of the annual report “Computational Linguistics and Intellectual Technologies” contains the selected materials of the 23rd international conference “Dialogue”. The presented works reflect the areas of research in computational modelling and analysis of natural language that are traditionally represented at the conference. ...
Added: March 15, 2017
Издательство Санкт-Петербургского государственного университета, 2019
Сборник содержит материалы докладов, представленных на Международной научной конференции «Корпусная лингвистика-2019» 24–28 июня 2019 г. в Санкт-Петербурге. Создание корпусов текстов является одним из приоритетных направлений в современной лингвистике. Проведение конференции по данной тематике знакомит ученых с современными разработками и новыми технологическими решениями в этой области, а также способствует обобщению опыта научных исследований по корпусной лингвистике. ...
Added: November 1, 2020
Kashleva K., В кн. : Материалы Международного молодежного научного форума "Ломоносов-2016". : М. : МАКС Пресс, 2016. С. 1-2.
В сопоставительном аспекте анализируются диахронические корпуса немецкого языка и рассматриваются возможности их применения в русле сравнительно-исторического языкознания. Изучена структура и состав шести корпусов, охватывающих все этапы развития немецкого языка, начиная от рунических надписей и заканчивая XXI в. Дана оценка содержательной стороне корпусов и их поисковым инструментам, на основе чего делается вывод о способах их использования ...
Added: November 8, 2017
Kutuzov A. B., Kuzmenko E., Научно-техническая информация. Серия 2: Информационные процессы и системы 2015 № 1 С. 21-26
Представлен проект факультета филологии НИУ ВШЭ по созданию двух корпусов текстов, предоставляющих исследователям лингвистический материал с разнообразными ошибками. Первый корпус, состоящий из академических текстов, написанных студентами НИУ ВШЭ, содержит материал по типам ошибок, совершаемых в английском языке носителями русского языка. Второй корпус, содержащий англо-русские и русско-английские переводы, выполненные студентами переводческих специальностей, предоставляет возможность исследовать ошибки ...
Added: May 31, 2015
Lavrentiev A. M., Sherstinova T., Chepovskiy A. et al., Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya 2021 Vol. 70 P. 69-89
The purpose of this paper is to test the methodological tools provided by TXM platform for research on dynamics of vocabulary and punctuation marks in diachronic corpora. TXM is a powerful text analysis software which provides both quantitative and qualitative features in a transparent open-source implementation. In this paper, we demonstrate how it can be ...
Added: June 24, 2021
Лаврентьев А. М., Рябова Д. М., Тихомирова Е. А. et al., Вопросы кибербезопасности 2020 Т. 3 № 37 С. 58-65
The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist texts Method: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used. Results: a methodology for comparative analysis of special text corpora has been developed, which makes ...
Added: October 31, 2020
Kitov V. V., Научные труды Вольного экономического общества России 2014 Т. 186 С. 228-235
This paper describes the application of well-known «transformation-based learning» algorithm of automatic rule generation for the task of part-of-speech tagging. Algorithm is applied to corpora of annotated Russian texts and accuracy as well as most significant rules are shown. ...
Added: March 16, 2016
Alexeeva S. V., Protopopova E. V., Bodrova A. A. et al., Компьютерная лингвистика и интеллектуальные технологии 2014 P. 562-571
The paper describes the noun phase and anaphora annotation in OpenCorpora and compares it to that in other corpora. We discuss the choice of representative texts for anaphoric annotation and the basic principles of syntactic annotation. In case of noun phrase annotation we followed the scheme introduced earlier for morphological annotation: it was carried out ...
Added: October 8, 2014
M. : Russian State University for the Humanitie, 2015
Added: April 28, 2015
Egorova E., Chepovskiy A., Lavrentiev A., Journal of Mathematical Sciences 2016 Vol. 214 No. 6 P. 802-813
In this paper, a computerized model for morphological analysis of languages with word formation based on affixation processes is proposed. The main idea consists in defining structural patterns of
words and corresponding lists of suffixes. First, a detailed description of a stemming algorithm, its modification, and the technique of determining grammatical characteristics of word forms are ...
Added: March 9, 2018
M. : Russian State University for the Humanitie, 2019
The book includes 64 papers submitted to the International conference in computer linguistics and intellectual technologies Dialogue 2019 and presents a broad spectrum of theoretical and applied research of natural language description, language simulation, and creation of applied computer technologies. ...
Added: October 16, 2019
Marseille : Association pour le Traitement Automatique des Langues, 2014
Dans la suite du premier atelier TALAf qui s'est tenu le 8 juin 2012 à Grenoble, lors de la conférence JEP-TALN-RECITAL 2012 (voir les actes : http://aclweb.org/anthology//W/W12/#1300), nous proposons une nouvelle édition de cet atelier lors de la conférence TALN 2014 le premier juillet à Marseille.
Cette deuxième édition montre l'intérêt d'un atelier francophone sur le traitement ...
Added: March 26, 2015
Асеева Я. О., Fokina A., В кн. : Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием, Москва, РУДН, 17–21 апреля 2023 г. : М. : Российский университет дружбы народов, 2023. С. 290-294.
Recently, the number of Telegram messenger users worldwide has exceeded 700 million people in monthly terms and continues to grow every day. Telegram is used not only to exchange personal messages, but it has also become a leading platform for political, cultural and news channels — an alternative to traditional media. The purpose of this ...
Added: June 8, 2023
Gorina O. G., Письма в Эмиссия.Оффлайн: электронный научный журнал 2014 № 1 С. 1-2136
The article deals with lexical bundles taken as an example of linguistic notion of hedging. Lexical bundles are units of language that are explored within the frames of corpus research. Corpus analysis tools for lexical bundles research are being examined with a view to implementing the results in foreign language high school students classroom. ...
Added: February 14, 2017
Митрофанова О. А., Moskvina A., International Journal of Open Information Technologies 2020 Т. 8 № 11 С. 91-96
In this work we investigate the role of statistical data on function words for automatic identification of genre and topical characteristics of Russian texts. We use the ratio of semantically related prepositions as the principal linguistic parameter. We consider seven frequent prepositions which have spatial meaning and also reveal one or more figurative meanings: под (under) ...
Added: November 19, 2020