Вопросы обработки текстовых сообщений на естественных языках

А. М. Чеповский

?

Вопросы обработки текстовых сообщений на естественных языках

С. 250–254.

Рассматривается задача классификации текстовых сообщений. Описываются модели выделения структурных единиц текстов и методика классификации на основе взаимной информации. Анализируется выбор дифференцирующих признаков для задачи классификации.

Язык: русский

Ключевые слова: классификация текстов дифференцирующие признаки классификации тексты на естественном языке

В книге

SCVRT2013-14 Труды Международной научной конференции Международного центра по ядерной безопасности Института физико-технической информатики.

Протвино: Изд-во ИФТИ, 2014.

Дискриминативная лемматизация сокращений в эпоху LLM

Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155

В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...

Добавлено: 10 марта 2026 г.

Использование BERT для классификации коротких научных текстов на русском языке

Кусакин И. К., Цурупа А. М., Алмакаев А. В. и др., В кн.: НТИ-2022. Научная информация в современном мире: глобальные вызовы и национальные приоритеты : материалы 10-ой научной конференции с международным участием, посвященной 70-летию ВИНИТИ РАН, Москва, 25–26 октября 2022 года.: М.: ВИНИТИ РАН, 2022. С. 103–109.

В данной работе рассматриваются подходы к обучению классификаторов научных статей на основе BERT с целью реализации приложения для адаптации лучших моделей для последующего использования в инфраструктуре ВИНИТИ РАН. Для этого лингвистическая модель BERT была обучена на специализированном корпусе научных текстов для последующего использования в качестве встроенной части классификатора. В работе приведены результаты экспериментов по обучению ...

Добавлено: 31 января 2023 г.

Исследование методов машинного обучения для классификации научных текстов на русском языке

Кусакин И. К., Федорец О. В., Романов А. Ю., Научно-техническая информация. Серия 2: Информационные процессы и системы 2022 Т. 12 С. 6–9

В данной работе рассматриваются современные подходы к обработке естественного языка и применения технологий искусственного интеллекта в задаче классификации научных текстов на русском языке. Работа посвящена анализу реализаций методов векторизации текстовой информации применительно к задаче обучения различных моделей классификаторов: от классических алгоритмов машинного обучения до нейросетевых архитектур-трансформеров. ...

Добавлено: 31 января 2023 г.

Pulse of the Nation: Observable Subjective Well-Being in Russia Inferred from Social Network Odnoklassniki

Sergey Smetanin, Mathematics 2022 Vol. 10 No. 16 Article 2947

Добавлено: 15 августа 2022 г.

RuSentiTweet: a sentiment analysis dataset of general domain tweets in Russian

Сметанин С. И., PeerJ Computer Science 2022 No. 8 Article e1039

The Russian language is still not as well resourced as English, especially in the field of sentiment analysis of Twitter content. Though several sentiment analysis datasets of tweets in Russia exist, they all are either automatically annotated or manually annotated by one annotator. Thus, there is no inter-annotator agreement, or annotation may be focused on ...

Добавлено: 29 июня 2022 г.

Using a Homogeneous Semantic Network to Classify the Results of Genetic Analysis

Харламов А. А., Kulikov A., , in: Neuroinformatics and Semantic Representations: Theory and Applications.: Cambridge Scholars Publishing, 2020. P. 219–231.

В работе показано использование механизма сравнения семантических сетей текстов в задаче диагностики заболеваний с использованием сигнальных сетей. Выявление степени пересечения семантических сетей текстов позволяет говорить о степени их смыслового подобия. Однородная семантическая сеть как множество узлов, связанных дугами, имеет численные характеристики – частоты появления слов, а также пар слов в тексте, которые перенормируются с использованием ...

Добавлено: 7 декабря 2021 г.

TextAnalyst Technology for Automatic Semantic Analysis of Text

Харламов А. А., , in: Neuroinformatics and Semantic Representations: Theory and Applications.: Cambridge Scholars Publishing, 2020. P. 156–167.

На основе представлений об обработке информации в мозге человека [1] реализована технология автоматической смысловой обработки текстов TextAnalyst, позволяющая выявить ключевые понятия текста в их взаимосвязях, реализовать реферирование текстов и их смысловое сравнение (классификацию). Реализованы продукты, использующие функциональность этой технологии: персональный – TextAnalyst, и библиотека COM модулей – TextAnalyst SDK. ...

Добавлено: 7 декабря 2021 г.

Toxic Comments Detection in Russian

Сметанин С. И., , in: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (Москва, 17–20 июня 2020 г.)Issue 19(26): дополнительный том.: -, 2020. P. 1149–1159.

Добавлено: 30 ноября 2020 г.

Интеллектуальный анализ текстов в социальных науках

Бызов А. А., Социология: методология, методы, математическое моделирование 2019 № 49 С. 131–160

На протяжении практически всей своей истории социологи стремились изучать неструктурированные органические тексты: материалы газет, дневники, мемуары, письма, документы, а с недавнего времени и сообщения, публикации и другие тексты на различных онлайн-платформах. В этой статье обсуждается то, как современные техники интеллектуального анализа текста (ИАТ) могут улучшить классические социологические подходы к анализу такого типа данных. Статья построена ...

Добавлено: 9 декабря 2019 г.

A Deep Learning Method Study of User Interest Classification

Малафеев А. Ю., Николаев К. И., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Kazan, Russia, July 17–19, 2019, Revised Selected Papers. Communications in Computer and Information ScienceVol. 1086.: Springer, 2020. P. 154–159.

В статье проводится исследование методов глубокого обучения для решения новой задачи многоклассовой классификации текстов, а именно определения интересов пользователей с помощью текстовых сообщений. Мы использовали оригинальный набор данных из почти 90 тысяч текстовых сообщений с форумов, размеченных по десяти интересам. Мы экспериментировали с различными современными архитектурами нейронных сетей: рекуррентными и сверточными, а также с более простыми сетями с прямой связью. ...

Добавлено: 7 ноября 2019 г.

Классификация текстов по жанрам при помощи алгоритмов машинного обучения

Буйлова Н. Н., Научно-техническая информация. Серия 2: Информационные процессы и системы 2018 № 8 С. 34–38

В настоящем обзоре была рассмотрена проблема классификации документов по жанрам, выделены основные характеристики текста, используемые для распознавания жанра текста, и описаны наиболее широко применяемые алгоритмы машинного обучения. Рассмотренные методы служат для классификации научных, технических, публицистических и художественных текстов. ...

Добавлено: 28 марта 2018 г.

Automatization of Scientific Articles Classification According to Universal Decimal Classifier

Романов А. Ю., Lomotin K.E., Kozlova E.S., , in: Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017Vol. 1975.: Aachen: CEUR-WS.org, 2017. P. 122–133.

Добавлено: 28 ноября 2017 г.

Development of a Model to Predict Intention Using Deep Learning

Karpov N., Demidovskij A., Malafeev A., , in: Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017Vol. 1975.: Aachen: CEUR-WS.org, 2017. P. 69–78.

Добавлено: 14 ноября 2017 г.

Исследование характеристик текстов противоправного содержания

Ананьева М. И., Девяткин Д. А., Кобозева М. В. и др., Труды Института системного анализа Российской академии наук 2017 Т. 67 № 3 С. 86–97

В работе описаны корпуса текстов для обучения и тестирования методов обнаружения текстов экстремистской направленности. Выполнено исследование характеристик текстов русскоязычного корпуса. Сформирован набор признаков, характерных для материалов противоправного содержания. Эмпирически показана применимость выявленных признаков для решения задачи обнаружения сообщений экстремистского содержания. ...

Добавлено: 29 сентября 2017 г.

Разработка аппаратного модуля классификации текстовых документов на базе ПЛИС

Ломотин К. Е., Романова И. И., В кн.: ФЭЭ 2017: Физика, Электроника, Электротехника. Материалы научно-технической конференции.: Сумы: СумДу, 2017. С. 152–152.

В процессе обработки текстов остро встает проблема нехватки производительности. Семантические и статистические модели документов требуют сложных вычислений, которые могут занимать длительное время. Эта проблема является преградой на пути внедрения последних разработок в области классификации текстов. В данной работе рассматривается проект аппаратного модуля, реализующего классификацию входящих документов по заданным тематикам. ...

Добавлено: 31 июля 2017 г.

Применение методов машинного обучения для решения задачи автоматической рубрикации статей по УДК

Романов А. Ю., Ломотин К. Е., Козлова Е. С., Информационные технологии 2017 Т. 23 № 6 С. 418–423

Работа посвящена исследованию применимости современных методов машинного обучения к задаче автоматической генерации кодов УДК научных статей. В качестве классификаторов рассматриваются такие модели, как искусственные нейронные сети, логистическая регрессия и бустинг. Разработаны графовые алгоритмы и прототип программного модуля для генерации кода УДК. ...

Добавлено: 30 июля 2017 г.

Задача распознавания для текстов на естественных языках

Поляков И. В., Соловьев Ф. Н., Чеповский А. А. и др., М.: Национальный открытый университет «ИНТУИТ», 2017.

В учебном пособии представлены методики и алгоритмы автоматического распознавания языков и классификации текстов на естественных языках. Предназначено для изучающих методы распознавания образов и обработку текстов на естественных языках. ...

Добавлено: 17 мая 2017 г.

Использование вероятностного распределения над множеством классов в задаче классификации арабских диалектов

Дурандин О. В., Золотых Н. Ю., Хилал Н. Р. и др., Научно-технический вестник информационных технологий, механики и оптики 2017 № 1(107) С. 110–116

Предмет исследования. Предложен подход к решению задачи классификации, использующий информацию о распределении вероятностей на множестве классов в обучающей выборке. Алгоритм проиллюстрирован на одной из сложных задач автоматической обработки текстов на естественном языке – классификации арабских диалектов. Метод.Каждому объекту обучающей выборки сопоставляется распределение вероятностей над метками классов, вместо сопоставления единственной метки класса. Предлагаемый подход решает задачу с учетом ...

Добавлено: 8 февраля 2017 г.

О проблеме выявления экстремистской направленности в текстах

Ананьева М. И., Кобозева М. В., Соловьев Ф. Н. и др., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2016 Т. 14 № 4 С. 5–13

Рассматриваются методы, используемые для обнаружения экстремистских текстов из Интернета. Дальнейшее исследование необходимо, чтобы найти новые методы классификации текстов и дифференцирующие признаки для классификации текстов экстремистской тематики. ...

Добавлено: 25 января 2017 г.

Automatic Arabic Dialect Classification

Durandin O. V., Strebkov D. Y., Hilal N. R., , in: Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue” (2016).: М.: Изд-во РГГУ, 2016. P. 1–13.

Добавлено: 18 января 2017 г.