?
Внедрение в TXM дополнительных инструментов автоматической обработки текста
С. 55-62.
In book
СПб. : Издательство Санкт-Петербургского университета, 2019
Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Вопросы кибербезопасности 2019 № 4(32) С. 54-60
Цель исследования: разработка методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов.
Метод: применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы.
Полученные результаты: показано, что разработанные средства расширения ...
Added: August 10, 2019
Fokina A., Chepovskiy A., Chepovskiy A., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2023 Т. 21 № 2 С. 29-38
When forming graphs of interacting objects built when importing data from social networks and instant messaging
networks, text data also act as vertex attributes. In this paper, the authors describe a text research methodology based on corpus analysis procedures. The purpose of this article is to test the methodological tools provided by the TXM software for the ...
Added: October 9, 2023
Асеева Я. О., Fokina A., В кн. : Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием, Москва, РУДН, 17–21 апреля 2023 г. : М. : Российский университет дружбы народов, 2023. С. 290-294.
Recently, the number of Telegram messenger users worldwide has exceeded 700 million people in monthly terms and continues to grow every day. Telegram is used not only to exchange personal messages, but it has also become a leading platform for political, cultural and news channels — an alternative to traditional media. The purpose of this ...
Added: June 8, 2023
Аванесян Н. Л., Соловьев Ф. Н., Chepovskiy A., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2021 Т. 19 № 1 С. 5-14
In this paper the authors describe the methodology for the statistical analysis of texts in social networks based on comparison of automatically generated frequency dictionaries by methods of correlation analysis. Psycholinguistic characteristics and coefficients of pairwise rank correlation are considered for comparing the frequency characteristics of texts in natural language ...
Added: April 14, 2021
Аванесян Н. Л., Зенькова В. В., Chepovskiy A. et al., Успехи кибернетики 2023 Т. 4 № 2 С. 33-39
In this paper the authors describe the methodology for the statistical analysis of texts in the network of Telegram channels based on comparison of automatically generated frequency dictionaries by methods of correlation analysis. Coefficients of pairwise rank correlation are considered for comparing the frequency characteristics of texts in natural language. The method is proposed to ...
Added: July 19, 2023
Аванесян Н. Л., Соловьев Ф. Н., Тихомирова Е. А. et al., Вопросы кибербезопасности 2020 № 4(38) С. 76-84
Разработана методика частотного анализа лексики противоправных текстов, которая позволяет по частотным словарям сравнивать различные наборы текстов и выявлять дифференцирую-шие признаки; приведена методика вычисления коэффициента попарной ранговой корреляции для сравнения
частотных словарей различных лексических характеристик; проведен сравнительный анализ различных по те-матике коллекций текстов противоправной направленности; показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью ...
Added: December 4, 2020
Болховитянов А. В., Chepovskiy A., Информационные технологии 2012 № 2 С. 25-29
In this paper, we propose two mathematical models intended for analyzing the russian sentence to detect noun phrases and participial clauses. Algorithm for participial clause identification is based on the concept of syntactic relation between verb and dependent syntactic units in the russian language. Considered algorithms designed on the basis of the proposed models can ...
Added: September 6, 2012
Болховитянов А. В., Gusev S., Chepovskiy A., Информационные технологии 2011 № 12 С. 37-39
This paper proposes the model that is used to describe relations between verb and set expressions during analysis of the sentence in the Russian language. It describes the developed knowledge base that is used to describe syntactic units of the Russian language. The model is used to objects identification and knowledge extraction from the text ...
Added: December 10, 2012
Budennaya E., В кн. : Восьмая международная конференция по когнитивной науке: тезисы докладов. : М. : Институт психологии РАН, 2018. С. 1291-1293.
В статье на основе мультимодального корпуса "Рассказы и разговоры о грушах" сопоставляются указательные жесты и различные референциальные выражения, совпадающие с ними по времени. В ходе анализа было установлено, что на полные именные группы махи в указательных жестах приходились значимо чаще,
чем на местоимения и демонстративы. Кроме того, несколько указательных жестов подряд значимо чаще встречалось на полных именных группах, ...
Added: November 1, 2019
Михайлов А. С., Соколова Т. В., Chepovskiy A. et al., Искусственный интеллект и принятие решений 2016 № 1 С. 9-17
This paper presents a novel method of text categorization based on the use of specialized dictionaries.The method is applied to texts of mass media and short comments on the Internet. The analysis indicates the effectiveness and efficiency of word stemming for text categorization problem and the validity of the proposed method ...
Added: April 22, 2016
Klyshinskiy E., Kochetkova N. A., В кн. : Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия). Том 2. Т. 2.: Белгород : Белгородский государственный технологический университет им. В.Г. Шухова, 2012. С. 227-235.
Рассмотрен метод автоматической генерации словаря глагольного управления русского языка. Основой является статистическая обработка результатов поверхностного синтаксического анализа. Для анализа берутся неомонимичные группы слов, которые позволяют однозначноРассмотрен метод автоматической генерации словаря глагольного управления русского языка. Основой является статистическая обработка результатов поверхностного синтаксического анализа. Для анализа берутся неомонимичные группы слов, которые позволяют однозначно провести их синтаксический разбор. ...
Added: November 14, 2012
Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н. et al., Системы высокой доступности 2018 Т. 14 № 3 С. 76-81
The extension of the TXM platform for case analysis is considered. It is proposed to use the allocation of pseudo-words in words of text on the basis of the method of structural schemes and the identification of nominal groups in the structure of the text forselecting subcorps in terms of parameters. The results of the ...
Added: September 20, 2018
Болховитянов А. В., Chepovskiy A., М. : МГУП им. Ивана Федорова, 2013
Рассматриваются методики морфологического анализа в задачах автоматической обработки текстов на естественном языке. Рассматривается обобщенная схема алгоритмов аналитического выделения основ. Подробно описаны алгоритмы аналитического выделения основ для большинства индоевропейских языков.
Пособие предназначено для студентов, изучающих курсы «Обработка текстовой информации», «Компьютерная лингвистика», «Поисковые системы», «Математические основы компьютерной лингвистики», «Вычислительная математика и прикладная статистика в издательском деле», «Математические и ...
Added: October 29, 2013
Akinina Y., Kuznetsov I., Toldova S., Научно-техническая информация. Серия 2: Информационные процессы и системы 2013 № 6 С. 26-34
Описывается одна из задач извлечения информации из текста - извлечение фактов из неструктурированных источников. Рассматриваются различные методы определения существительных, которые являются типовыми наименованиями участников события. Предлагается использовать для решения этой задачи статистические методы выделения коллокаций. ...
Added: October 15, 2013
Musabirov I., Bulygin D., Марченко Е. Ю., / National Research University Higher School of Economics. Series WP BRP "Basic research program". 2019. No. 90.
Added: December 12, 2019
Лаврентьев А. М., Соловьев Ф. Н., Суворова М. И. et al., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2018 Т. 16 № 3 С. 19-31
ПлатформаTXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий,
кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпу-сов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структур-ных единиц анализа. Она интегрирована с единственным расширениемTreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, ...
Added: September 8, 2018
Tyers F. M., Bibaeva M., / Association for Computational Linguistics. Series 2020.iwclul-1.2 "Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages". 2020.
Lemmatisers in Uralic languages are required for dictionary lookup, an
important task for language learners. We explore how to decide which
of the rule-based and unsupervised categories is more efficient to
invest in. We present a comparison of rule-based and unsupervised
lemmatisers, derived from the Giellatekno finite-state morphology
project and the Morfessor surface segmenter trained on Wikipedia,
respectively. The comparison spanned ...
Added: April 20, 2021
Kuvshinskaya Y. M., Сибирский филологический журнал 2019 № 2 С. 189-215
The work deals with the strategies for predicate agreement to quantified noun groups headed by nouns. In Russian, as in other Slavic languages, predicate agreement with quantified noun phrases allows singular or plural forms of the predicate. As for the sentences with quantifiers-nouns r’ad, polovina, chast’, mnozestvo, three agreement strategy are probable: predicate agrees with ...
Added: September 8, 2019
Budin E., Smirnova K., Suvorova A. et al., , in : Digital Transformation and Global Society: 4th International Conference, DTGS 2019, St. Petersburg, Russia, June 19–21, 2019, Revised Selected Papers. : Cham : Springer, 2019. P. 461-467.
Information from users’ profiles on social networking sites is an important data source for analysis of the users’ psychological characteristics. Texts, video and audio files, images, public pages can be easily accessible and analyzed. We consider the ways of estimating the users’ psychological characteristics on the base of his or her profile in the social ...
Added: November 27, 2019
Politsyna E., Балакирев Н. Е., Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии 2013 № 1 С. 162-168
The article reveals the necessity of creating new user-level text analysis tools which
should provide facilities for the open text analysis system for extending its functionality by users.
The article shows details of the open text analysis system and used text analyses approaches which
it is based on. A script language is suggested as an expandable tool for ...
Added: November 5, 2015