?
Вопросы обработки текстовых сообщений на естественных языках
С. 250-254.
In book
Протвино : Изд-во ИФТИ, 2014
Ананьева М. И., Девяткин Д. А., Кобозева М. В. et al., Труды Института системного анализа Российской академии наук 2017 Т. 67 № 3 С. 86-97
В работе описаны корпуса текстов для обучения и тестирования методов обнаружения текстов экстремистской направленности. Выполнено исследование характеристик текстов русскоязычного корпуса. Сформирован набор признаков, характерных для материалов противоправного содержания. Эмпирически показана применимость выявленных признаков для решения задачи обнаружения сообщений экстремистского содержания. ...
Added: September 29, 2017
Smetanin S., PeerJ Computer Science 2022 No. 8 Article e1039
The Russian language is still not as well resourced as English, especially in the field of sentiment analysis of Twitter content. Though several sentiment analysis datasets of tweets in Russia exist, they all are either automatically annotated or manually annotated by one annotator. Thus, there is no inter-annotator agreement, or annotation may be focused on ...
Added: June 29, 2022
Malafeev A., Nikolaev K., , in : Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Kazan, Russia, July 17–19, 2019, Revised Selected Papers. Communications in Computer and Information Science. Vol. 1086.: Springer, 2020. P. 154-159.
In this paper, a deep learning method study is conducted to solve a new multiclass text classification problem, identifying user interests by text messages. We used an original dataset of almost 90 thousand forum text messages, labeled for ten interests. We experimented with different modern neural network architectures: recurrent and convolutional, as well as simpler ...
Added: November 7, 2019
Builova N., Научно-техническая информация. Серия 2: Информационные процессы и системы 2018 № 8 С. 34-38
The problem of documents classification by genre was examined in this review. The main characteristics of the text used to recognize the genre of text were highlighted, and the most widely used algorithms of machine learning were described. The methods considered serve for the classification of scientific, technical, journalistic and artistic texts. ...
Added: March 28, 2018
Romanov A., Lomotin K.E., Kozlova E.S., , in : Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017. Vol. 1975.: Aachen : CEUR-WS.org, 2017. P. 122-133.
This research examines the problems of automatic scientific articles classification according to Universal Decimal Classifier. To reveal the structure of the train data its visualization was obtained using the recursive feature elimination algorithm. Further; the study provides a comparison of TF-IDF and Weirdness – two statistic-based metrics of keyword significance. The most efficient classification methods ...
Added: November 28, 2017
Durandin O. V., Strebkov D. Y., Hilal N. R., , in : Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue” (2016). : М. : Изд-во РГГУ, 2016. P. 1-13.
The paper presents work on automatic Arabic dialect classification and proposes machine learning classification method where training dataset consists of two corpora. The first one is a small corpus of manually dialectannotated instances. The second one contains big amount of instances that were grabbed from the Web automatically using word-marks—most unique and frequent dialectal words ...
Added: January 18, 2017
Romanov A., Lomotin K.E., Kozlova E.S. et al., , in : 2016 International Siberian Conference on Control and Communications (SIBCON). Proceedings. : M. : HSE, 2016. Ch. 543fu4t.
In this work realization of automatic scientific articles classification according to Universal Decimal Classifier is presented. Efficiency of neural networks technologies application for current task is researched, and optimal neural network structure and parameters are offered ...
Added: June 11, 2016
Кусакин И. К., Федорец О. В., Romanov A., Научно-техническая информация. Серия 2: Информационные процессы и системы 2022 Т. 12 С. 6-9
This paper discusses modern approaches to natural language processing and appliance of artificial intelligence technologies in the task of classifying scientific texts in Russian. The report contains an analysis of implementations of text vectorization methods, a description of experiments with training various classifier models: from classical machine learning algorithms to neural network transformer architectures. ...
Added: January 31, 2023
Romanov A., Ломотин К. Е., Козлова Е. С., Информационные технологии 2017 Т. 23 № 6 С. 418-423
The paper deals with the applicability of modern machine learning methods to the problem of automatic generation of UDC for scientific articles. As the classifiers, such models as artificial neural networks, logistic regression and boosting are considered. Graph algorithms and a prototype software module to generate UDC are designed. ...
Added: July 30, 2017
Karpov N., Demidovskij A., Malafeev A., , in : Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017. Vol. 1975.: Aachen : CEUR-WS.org, 2017. P. 69-78.
This paper presents a method to analyze discussions from social network by using deep learning. We have prepared a new dataset by collecting discussions from a social network and annotating remarks of the discussion. The annotation consists of two types of labels for each message: intention type and direction of intention. Using this dataset and ...
Added: November 14, 2017
Ананьева М. И., Кобозева М. В., Соловьев Ф. Н. et al., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2016 Т. 14 № 4 С. 5-13
Рассматриваются методы, используемые для обнаружения экстремистских текстов из Интернета. Дальнейшее исследование необходимо, чтобы найти новые методы классификации текстов и дифференцирующие признаки для классификации текстов экстремистской тематики. ...
Added: January 25, 2017
Polyakov I. V., Соловьев Ф. Н., Chepovskiy A. et al., М. : Национальный открытый университет «ИНТУИТ», 2017
В учебном пособии представлены методики и алгоритмы автоматического распознавания языков и классификации текстов на естественных языках. Предназначено для изучающих методы распознавания образов и обработку текстов на естественных языках. ...
Added: May 17, 2017
Kharlamov A. A., В кн. : Речевая коммуникация в информационном пространстве. : М. : Издательская группа URSS, 2016.
В работе представлен подход к реализации языковой модели, которая совместно с произносительной моделью, подходы к реализации которой в настоящий момент достаточно хорошо проработаны, позволяет повысить качество распознавания. Языковая модель в данном подходе реализуется в виде ассоциативной (однородной семантической) сети, которая дополняется такими же ассоциативными сетями в качестве моделей предметных областей. Отличие модели предметной области от ...
Added: November 19, 2016
Kharlamov A. A., Kulikov A., , in : Neuroinformatics and Semantic Representations: Theory and Applications. : Cambridge Scholars Publishing, 2020. P. 219-231.
В работе показано использование механизма сравнения семантических сетей текстов в задаче диагностики заболеваний с использованием сигнальных сетей. Выявление степени пересечения семантических сетей текстов позволяет говорить о степени их смыслового подобия. Однородная семантическая сеть как множество узлов, связанных дугами, имеет численные характеристики – частоты появления слов, а также пар слов в тексте, которые перенормируются с использованием ...
Added: December 7, 2021
Ломотин К. Е., Romanova I., В кн. : ФЭЭ 2017: Физика, Электроника, Электротехника. Материалы научно-технической конференции. : Сумы : СумДу, 2017. С. 152-152.
В процессе обработки текстов остро встает проблема нехватки производительности. Семантические и статистические модели документов требуют сложных вычислений, которые могут занимать длительное время. Эта проблема является преградой на пути внедрения последних разработок в области классификации текстов. В данной работе рассматривается проект аппаратного модуля, реализующего классификацию входящих документов по заданным тематикам. ...
Added: July 31, 2017
Kharlamov A. A., , in : Neuroinformatics and Semantic Representations: Theory and Applications. : Cambridge Scholars Publishing, 2020. P. 156-167.
На основе представлений об обработке информации в мозге человека [1] реализована технология автоматической смысловой обработки текстов TextAnalyst, позволяющая выявить ключевые понятия текста в их взаимосвязях, реализовать реферирование текстов и их смысловое сравнение (классификацию). Реализованы продукты, использующие функциональность этой технологии: персональный – TextAnalyst, и библиотека COM модулей – TextAnalyst SDK. ...
Added: December 7, 2021
Sergey Smetanin, Mathematics 2022 Vol. 10 No. 16 Article 2947
Policymakers and researchers worldwide are interested in measuring the subjective well-being (SWB) of populations. In recent years, new approaches to measuring SWB have begun to appear, using digital traces as the main source of information, and show potential to overcome the shortcomings of traditional survey-based methods. In this paper, we propose the formal model for ...
Added: August 15, 2022
Byzov A., Социология: методология, методы, математическое моделирование 2019 № 49 С. 131-160
Throughout most of their history, sociologists have sought to study unstructured organic texts: newspaper materials, diaries, memoirs, letters, documents, and, more recently, messages, publications and other texts on various online platforms. This article discusses how modern techniques of text mining can improve classical sociological approaches to the analysis of this type of data. The article ...
Added: December 9, 2019
Polyakov I. V., Соколова Т. В., Chepovskiy A. et al., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2015 Т. 13 № 2 С. 55-63
This paper presents a text classification method based on mutual information method. It was shown that word stems are universal features for text classification problem ...
Added: October 24, 2015
Durandin O., Zolotykh N., Хилал Н. Р. et al., Научно-технический вестник информационных технологий, механики и оптики 2017 № 1(107) С. 110-116
Subject of Research.We propose an approach for solving machine learning classification problem that uses the information about the probability distribution on the training data class label set. The algorithm is illustrated on a complex natural language processing task - classification of Arabic dialects. Method. Each object in the training set is associated with a probability distribution over ...
Added: February 8, 2017
Кусакин И. К., Цурупа А. М., Алмакаев А. В. et al., В кн. : НТИ-2022. Научная информация в современном мире: глобальные вызовы и национальные приоритеты : материалы 10-ой научной конференции с международным участием, посвященной 70-летию ВИНИТИ РАН, Москва, 25–26 октября 2022 года. : М. : ВИНИТИ РАН, 2022. С. 103-109.
This work is devoted to the study of approaches for training BERT-based classifiers of scientific articles to implement the application with the adoption of the best models for use in the infrastructure of the VINITI RAS. For this purpose, the BERT linguistic model was trained on a specialized corpus of scientific texts for subsequent use ...
Added: January 31, 2023
Smetanin S., , in : Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (Москва, 17–20 июня 2020 г.). Issue 19(26): дополнительный том.: -, 2020. P. 1149-1159.
Added: November 30, 2020
Malafeev A., Дружков К. А., В кн. : Нелинейная динамика в когнитивных исследованиях – 2015. Труды IV всероссийской конференции. : Н. Новгород : ИПФ РАН, 2015. С. 147-148.
В данной публикации была сформулирована задача автоматического определения интолерантных высказываний в политическом дискурсе и СМИ и намечен один из возможных путей ее решения. В дальнейшем предполагается реализовать предложенный метод и оценить его эффективность. ...
Added: September 21, 2015