Новый комплекс инструментов автоматической обработки текста для платформыTXM и его апробация на корпусе для анализа экстремистских текстов

Лаврентьев А. М.; Соловьев Ф. Н.; Суворова М. И.; А. И. Фокина; А. М. Чеповский

doi:10.25205/1818-7935-2018-16-3-19-31

Article

Новый комплекс инструментов автоматической обработки текста для платформыTXM и его апробация на корпусе для анализа экстремистских текстов

Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2018. Т. 16. № 3. С. 19–31.

Лаврентьев А. М., Соловьев Ф. Н., Суворова М. И., Fokina A., Chepovskiy A.

Research target: Computer Science Philology and Linguistics

Priority areas: humanitarian IT and mathematics

Language: Russian

DOI

Keywords: корпусная лингвистика corpus linguistics correspondence analysis анализ соответствий automated morphological analysis specificity автоматический морфологический анализ automated syntactic parsing TXM platform detecting extremist texts автоматический синтак-сический анализ платформаTXM специфичность выявление экстремистских текстов

TALN-RECITAL 2014 Workshop TALAf 2014 : Traitement Automatique des Langues Africaines (TALAf 2014: African Language Processing)

Marseille: Association pour le Traitement Automatique des Langues, 2014..

Dans la suite du premier atelier TALAf qui s'est tenu le 8 juin 2012 à Grenoble, lors de la conférence JEP-TALN-RECITAL 2012 (voir les actes : http://aclweb.org/anthology//W/W12/#1300), nous proposons une nouvelle édition de cet atelier lors de la conférence TALN 2014 le premier juillet à Marseille. Cette deuxième édition montre l'intérêt d'un atelier francophone sur le traitement ...

Added: March 26, 2015

Анализ корпусов текстов террористической и антиправовой направленности

Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Вопросы кибербезопасности 2019 № 4(32) С. 54–60.

Цель исследования: разработка методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов. Метод: применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы. Полученные результаты: показано, что разработанные средства расширения ...

Added: August 9, 2019

Труды международной конференции «КОРПУСНАЯ ЛИНГВИСТИКА – 2017»

СПб.: Издательство СПбГУ, 2017..

Труды международной конференции. ...

Added: December 31, 2017

Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories (TLT 16)

Association for Computational Linguistics, 2017..

The volume includes papers presented at the 16th International Workshop on Treebanks and Linguistic Theories (TLT), which brings together developers and users of linguistically annotated natural language corpora. As ‘treebanks’ we consider any pairing of natural language data (spoken or written) with annotations of linguistic structure at various levels of analysis, ranging from e.g. morpho-phonology ...

Added: December 10, 2018

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 31 мая — 3 июня 2017 г.). Вып. 16 (23): В 2 т.

М.: Изд-во РГГУ, 2017..

The 16th issue of the annual report “Computational Linguistics and Intellectual Technologies” contains the selected materials of the 23rd international conference “Dialogue”. The presented works reflect the areas of research in computational modelling and analysis of natural language that are traditionally represented at the conference. ...

Added: March 15, 2017

Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” (2015)

M.: Russian State University for the Humanitie, 2015..

Added: April 28, 2015

Материалы Международного молодежного научного форума «ЛОМОНОСОВ-2013»

М.: МАКС Пресс, 2013..

В 2013 году Московский университет проводит очередной, крупнейший в Евразии Международный молодежный научный форум, центральным мероприятием которого является юбилейная, XX молодежная научная конференция студентов, аспирантов и молодых ученых. Сопредседателями организационного комитета Форума являются ректор Московского университета, вице-президент РАН, академик РАН В.А.Садовничий и Министр образования и науки Российской Федерации Д.В. Ливанов. Проведению Форума традиционно оказывают поддержку Исполком ...

Added: April 16, 2015

Проблемы обработки естественного языка в диалоговых системах

Klyshinskiy E., Жеребцова Ю., Чижик А., Системный администратор 2019 № 10 С. 82–91.

Nowadays, a field of dialogue systems and conversational agents is one of the rapidly growing research areas in artificial intelligence applications. Business and industry are showing increasing interest in implementing intelligent conversational agents into their products. Many recent studies has tended to focus on possibility of developing task-oriented systems which are able to have long ...

Added: October 26, 2019

Нелинейная динамика в когнитивных исследованиях-2013. Труды III Всероссийской конференции

Н. Новгород: Институт прикладной физики РАН, 2013..

В сборник вошли тезисы докладов Всероссийской научно-технической конференции Нелинейная динамика в когнитивных исследованиях-2013, посвященной обсуждению новых возможностей экспериментального исследования и формализованного описания когнитивных процессов, а также текущего состояния дел и перспективы создания симуляторов живых систем ...

Added: September 21, 2013

The 26th International Conference on Computational Linguistics (COLING 2016)

[б.и.], 2016..

Added: December 1, 2016

АНАЛИЗ КОРПУСА ПОЭТИЧЕСКИХ ТЕКСТОВ НА ПЛАТФОРМЕ TXM

Fokina A., Chepovskiy A., В кн.: Труды международной конференции «Корпусная лингвистика — 2023», 21–23 июня 2023 г., Санкт-Петербург.: СПб.: Издательство Санкт-Петербургского университета, 2024. С. 224–231..

The paper considers the results of correspondence analysis based on the TXM corpus analysis platform. The corpus of poetry of the Silver Age was created and studies, it includes subcorpuses of the main trends, authors of these trends and ages when the poems were written. This helps to analyze the influence of historical events of ...

Added: December 1, 2024

Материалы к корпусной грамматике русского языка

СПб.: Издательство Нестор-История, 2018..

The volume is the third issue of a corpora-based grammar of Russian. The volume deals with the issues of parts of speech and, more generally, with formal classes of lexicon, It comprises descriptive papers of separate POS and lesser world classes. ...

Added: November 3, 2018

Создание специальных корпусов текстов на основе расширенной платформыTXM

Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Системы высокой доступности 2018 Т. 14 № 3 С. 76–81.

The extension of the TXM platform for case analysis is considered. It is proposed to use the allocation of pseudo-words in words of text on the basis of the method of structural schemes and the identification of nominal groups in the structure of the text forselecting subcorps in terms of parameters. The results of the ...

Added: September 19, 2018

Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts

Lavrentiev A. M., Sherstinova T., Chepovskiy A. et al., Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya 2021 Vol. 70 P. 69–89.

The purpose of this paper is to test the methodological tools provided by TXM platform for research on dynamics of vocabulary and punctuation marks in diachronic corpora. TXM is a powerful text analysis software which provides both quantitative and qualitative features in a transparent open-source implementation. In this paper, we demonstrate how it can be ...

Added: June 23, 2021

Квантитативные методы в диахронических корпусных исследованиях: конструкции с предикативами и дативным субъектом

Bonch-Osmolovskaya A. A., Компьютерная лингвистика и интеллектуальные технологии 2015 Т. 1 № 14(21) С. 80–95.

The paper proposes new approaches to the problem of Russian dative subjects in predicative and adjective constructions. The core idea of the research is to study the distribution of dative subject constructions with predicative and adjective forms that potentially can be used in such constructions. The methodological novelty of the approach is manifested in the ...

Added: April 15, 2015

Труды международной конференции "Корпусная лингвистика - 2019"

СПб.: Издательство Санкт-Петербургского университета, 2019..

Сборние содержит материалы докладов, представленных на Международной научной конференции "Корпусная лингвистика-2019" 24-28 июня 2019 г. в Санкт-Петербурге. ...

Added: July 8, 2019

Корпус татарского языка "Туган тел"

Arkhangelskiy T., Гильмуллин Р. А., Невзорова О. А. et al., Научно-техническая информация. Серия 2: Информационные процессы и системы 2013.

В статье описывается электронный корпус татарского языка, созданный в рамках программы фундаментальных исследований Президиума РАН "Корпусная лингвистика", и методы, использованные авторами для создания этого корпуса. В частности, описываются текстовый состав и жанровая структура корпуса, принятые авторами решения о выделении морфологических характеристик, автоматическая морфологическая разметка текстов с помощью двухуровневой модели морфологии и анализатора PC-KIMMO и размещение ...

Added: October 25, 2013

Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2019)

M.: Russian State University for the Humanitie, 2019..

The book includes 64 papers submitted to the International conference in computer linguistics and intellectual technologies Dialogue 2019 and presents a broad spectrum of theoretical and applied research of natural language description, language simulation, and creation of applied computer technologies. ...

Added: October 16, 2019

Труды международной конференции «Корпусная лингвистика-2019».

Издательство Санкт-Петербургского государственного университета, 2019..

Сборник содержит материалы докладов, представленных на Международной научной конференции «Корпусная лингвистика-2019» 24–28 июня 2019 г. в Санкт-Петербурге. Создание корпусов текстов является одним из приоритетных направлений в современной лингвистике. Проведение конференции по данной тематике знакомит ученых с современными разработками и новыми технологическими решениями в этой области, а также способствует обобщению опыта научных исследований по корпусной лингвистике. ...

Added: November 1, 2020

Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений

Аванесян Н. Л., Губина О. В., Chepovskiy A., Труды Института системного анализа Российской академии наук 2024 Т. 74 № 2 С. 25–32.

This article is devoted to the application of corpora analysis mathematical methods for the research of Russian fiction texts. A corpus of prose texts of Russian XIX century fiction, consisting of five subcorpora, has been created for the research. Each subcorpora contains texts of one certain author. Using the example of the created corpora, the ...

Added: July 4, 2024

Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing

Пономарева М. А., Дроганова К. А., Smurov I. et al., Florence: Association for Computational Linguistics, 2019..

This paper provides a comprehensive overview of the gapping dataset for Russian that consists of 7.5k sentences with gapping (as well as 15k relevant negative sentences) and comprises data from various genres: news, fiction, social media and technical texts. The dataset was prepared for the Automatic Gapping Resolution Shared Task for Russian (AGRR-2019) - a ...

Added: September 5, 2019

CEUR Workshop Proceedings (Proceedings of the International Conference "Internet and Modern Society" IMS-2020, 17-20 June 2020, ITMO University, St. Petersburg, Russia)

CEUR Workshop Proceedings, 2020..

The International Conference “Internet and Modern Society” (IMS-2020) was initially planned to take place in St. Petersburg, Russia. Due to the spread of COVID-19 and the ban on public events, the conference was held during 17-20 June 2020 in the format of online sessions with a discussion of papers and presentations uploaded in advance. The ...

Added: November 1, 2020

Электронные корпуса албанского, калмыцкого, лезгинского и осетинского языков

Arkhangelskiy T., Научно-техническая информация. Серия 2: Информационные процессы и системы 2012 № 4 С. 24–29.

Four electronic corpora created in 2011 within the framework of the “Corpus Linguistics: the Albanian, Kalmyk, Lezgian, and Ossetic Languages” Program of Fundamental Research of the RAS are presented. The interface and functionalities of these corpora are described, engineering problems to be solved in their creation are elucidated, and the promises of their development are ...

Added: October 31, 2012

Национальный корпус русского языка как основа новаторских электронных учебников

Sibirtseva V., Khomenko A., Baranova J., Образовательные технологии и общество 2013 Т. 16 № 3 С. 508–521.

The article reports about the students and teachers research group of National Research University Higher School of Economics entitled "Corplingui (Nizhny Novgorod-Moscow)"development. This work is about the research in the field of computer and corpus linguistics. Development primarily focuses on the creation of interactive resources based on the materials of The Russian National Corpus. The ...

Added: October 4, 2013

TALN-RECITAL 2014 Workshop TALAf 2014 : Traitement Automatique des Langues Africaines (TALAf 2014: African Language Processing)

Marseille: Association pour le Traitement Automatique des Langues, 2014..

Added: March 26, 2015

Анализ корпусов текстов террористической и антиправовой направленности

Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Вопросы кибербезопасности 2019 № 4(32) С. 54–60.

Added: August 9, 2019

Труды международной конференции «КОРПУСНАЯ ЛИНГВИСТИКА – 2017»

СПб.: Издательство СПбГУ, 2017..

Труды международной конференции. ...

Added: December 31, 2017

Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories (TLT 16)

Association for Computational Linguistics, 2017..

Added: December 10, 2018

М.: Изд-во РГГУ, 2017..

Added: March 15, 2017

Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue” (2015)

M.: Russian State University for the Humanitie, 2015..

Added: April 28, 2015

Материалы Международного молодежного научного форума «ЛОМОНОСОВ-2013»

М.: МАКС Пресс, 2013..

Added: April 16, 2015

Проблемы обработки естественного языка в диалоговых системах

Klyshinskiy E., Жеребцова Ю., Чижик А., Системный администратор 2019 № 10 С. 82–91.

Added: October 26, 2019

Нелинейная динамика в когнитивных исследованиях-2013. Труды III Всероссийской конференции

Н. Новгород: Институт прикладной физики РАН, 2013..

Added: September 21, 2013

The 26th International Conference on Computational Linguistics (COLING 2016)

[б.и.], 2016..

Added: December 1, 2016

АНАЛИЗ КОРПУСА ПОЭТИЧЕСКИХ ТЕКСТОВ НА ПЛАТФОРМЕ TXM

Added: December 1, 2024

Материалы к корпусной грамматике русского языка

СПб.: Издательство Нестор-История, 2018..

Added: November 3, 2018

Создание специальных корпусов текстов на основе расширенной платформыTXM

Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Системы высокой доступности 2018 Т. 14 № 3 С. 76–81.

Added: September 19, 2018

Using TXM Platform for Research on Language Changes over Time: The Dynamics of Vocabulary and Punctuation in Russian Literary Texts

Lavrentiev A. M., Sherstinova T., Chepovskiy A. et al., Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya 2021 Vol. 70 P. 69–89.

Added: June 23, 2021

Bonch-Osmolovskaya A. A., Компьютерная лингвистика и интеллектуальные технологии 2015 Т. 1 № 14(21) С. 80–95.

Added: April 15, 2015

Труды международной конференции "Корпусная лингвистика - 2019"

СПб.: Издательство Санкт-Петербургского университета, 2019..

Added: July 8, 2019

Корпус татарского языка "Туган тел"

Added: October 25, 2013

Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2019)

M.: Russian State University for the Humanitie, 2019..

Added: October 16, 2019

Труды международной конференции «Корпусная лингвистика-2019».

Издательство Санкт-Петербургского государственного университета, 2019..

Added: November 1, 2020

Применение вычислительных методов корпусного анализа к исследованию текстов литературных произведений

Added: July 4, 2024

Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing

Пономарева М. А., Дроганова К. А., Smurov I. et al., Florence: Association for Computational Linguistics, 2019..

Added: September 5, 2019

CEUR Workshop Proceedings (Proceedings of the International Conference "Internet and Modern Society" IMS-2020, 17-20 June 2020, ITMO University, St. Petersburg, Russia)

CEUR Workshop Proceedings, 2020..

Added: November 1, 2020

Электронные корпуса албанского, калмыцкого, лезгинского и осетинского языков

Arkhangelskiy T., Научно-техническая информация. Серия 2: Информационные процессы и системы 2012 № 4 С. 24–29.

Added: October 31, 2012

Национальный корпус русского языка как основа новаторских электронных учебников

Sibirtseva V., Khomenko A., Baranova J., Образовательные технологии и общество 2013 Т. 16 № 3 С. 508–521.

Added: October 4, 2013