?
Использование BERT для классификации коротких научных текстов на русском языке
С. 103-109.
В данной работе рассматриваются подходы к обучению классификаторов научных статей на основе BERT с целью реализации приложения для адаптации лучших моделей для последующего использования в инфраструктуре ВИНИТИ РАН. Для этого лингвистическая модель BERT была обучена на специализированном корпусе научных текстов для последующего использования в качестве встроенной части классификатора. В работе приведены результаты экспериментов по обучению моделей классификации научных статей по первому и второму уровням Российского государственного рубрикатора научно-технической информации (ГРНТИ).
I. K. Kusakin, Fedorets O. V., A. Y. Romanov, Scientific and Technical Information Processing 2023 Vol. 50 No. 3 P. 176-183
Добавлено: 4 ноября 2023 г.
Кусакин И. К., Федорец О. В., Романов А. Ю., Научно-техническая информация. Серия 2: Информационные процессы и системы 2022 Т. 12 С. 6-9
В данной работе рассматриваются современные подходы к обработке естественного языка и применения технологий искусственного интеллекта в задаче классификации научных текстов на русском языке. Работа посвящена анализу реализаций методов векторизации текстовой информации применительно к задаче обучения различных моделей классификаторов: от классических алгоритмов машинного обучения до нейросетевых архитектур-трансформеров. ...
Добавлено: 31 января 2023 г.
Sergey Smetanin, Mathematics 2022 Vol. 10 No. 16 Article 2947
Добавлено: 15 августа 2022 г.
Малафеев А. Ю., Николаев К. И., , in : Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Kazan, Russia, July 17–19, 2019, Revised Selected Papers. Communications in Computer and Information Science. Vol. 1086.: Springer, 2020. P. 154-159.
В статье проводится исследование методов глубокого обучения для решения новой задачи многоклассовой классификации текстов, а именно определения интересов пользователей с помощью текстовых сообщений. Мы использовали оригинальный набор данных из почти 90 тысяч текстовых сообщений с форумов, размеченных по десяти интересам. Мы экспериментировали с различными современными архитектурами нейронных сетей: рекуррентными и сверточными, а также с более простыми сетями с прямой связью. ...
Добавлено: 7 ноября 2019 г.
Работа посвящена исследованию применимости современных методов машинного обучения к задаче автоматической генерации кодов УДК научных статей. В качестве классификаторов рассматриваются такие модели, как искусственные нейронные сети, логистическая регрессия и бустинг. Разработаны графовые алгоритмы и прототип программного модуля для генерации кода УДК. ...
Добавлено: 30 июля 2017 г.
Ананьева М. И., Кобозева М. В., Соловьев Ф. Н. и др., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2016 Т. 14 № 4 С. 5-13
Рассматриваются методы, используемые для обнаружения экстремистских текстов из Интернета. Дальнейшее исследование необходимо, чтобы найти новые методы классификации текстов и дифференцирующие признаки для классификации текстов экстремистской тематики. ...
Добавлено: 25 января 2017 г.
Lomotin K. E., Kozlova E. S., Романов А. Ю., , in : Information Innovative Technologies: Materials of the International scientific–рractical conference. : M. : Association of graduates and employees of AFEA named after prof. Zhukovsky, 2017. P. 359-363.
Добавлено: 30 июля 2017 г.
Щербаков В. С., Карпов И. А., Economy of Region 2024 Vol. 20 No. 4 P. 1-23
Добавлено: 7 декабря 2023 г.
Dmitry Romanov, Казанцев Н. С., Edgeeva E., , in : Business Process Management: Blockchain and Central and Eastern Europe Forum. BPM 2019. Vol. 361.: Springer, 2019. P. 337-341.
Добавлено: 26 октября 2020 г.
Поляков И. В., Соколова Т. В., Чеповский А. А. и др., Вестник Новосибирского государственного университета. Серия: Информационные технологии 2015 Т. 13 № 2 С. 55-63
Описан метод классификации текстов на естественных языках, основанный на методе взаимной информации. Показано, что псевдоосновы, выделенные аналитическим алгоритмом морфологического анализа, являются универсальными дифференцирующими признаками при классификации текстовых сообщений. ...
Добавлено: 24 октября 2015 г.
Сметанин С. И., Комаров М. М., , in : IEEE 23rd Conference on Business Informatics (CBI). : IEEE Computer Society, 2021. P. 65-70.
Добавлено: 14 сентября 2021 г.
Буйлова Н. Н., Научно-техническая информация. Серия 2: Информационные процессы и системы 2018 № 8 С. 34-38
В настоящем обзоре была рассмотрена проблема классификации документов по жанрам, выделены основные характеристики текста, используемые для распознавания жанра текста, и описаны наиболее широко применяемые алгоритмы машинного обучения. Рассмотренные методы служат для классификации научных, технических, публицистических и художественных текстов. ...
Добавлено: 28 марта 2018 г.
Pimonova E., Дурандин О. В., Малафеев А. Ю., , in : Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Lecture Notes in Computer Science, Revised Selected Papers. Vol. 11832.: Cham : Springer, 2019. P. 193-204.
В данной работе рассматривается проблема моделирования авторского стиля на русском языке. В частности, мы решаем задачу атрибуции авторства, используя собранный набор данных из 30 авторов, 1506 текстов, написанных в период с 18 по 21 век. Мы применяем различные подходы к решению проблемы атрибуции: случайный лес, логистическая регрессия, метод опорных векторов. С точки зрения представления текста, ...
Добавлено: 7 ноября 2019 г.
Ryzhova A., Рыжова Д. А., Соченков И. В., , in : Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue” (2021). Issue 20: Основной том.: -, 2021. P. 597-606.
Добавлено: 30 октября 2021 г.
A. V. Belov, E. A. Egorova, Bulletin D. Serikbayev East Kazakhstan Technical University 2023 No. 4 P. 92-102
Добавлено: 9 марта 2024 г.
Бызов А. А., Социология: методология, методы, математическое моделирование 2019 № 49 С. 131-160
На протяжении практически всей своей истории социологи стремились изучать неструктурированные органические тексты: материалы газет, дневники, мемуары, письма, документы, а с недавнего времени и сообщения, публикации и другие тексты на различных онлайн-платформах. В этой статье обсуждается то, как современные техники интеллектуального анализа текста (ИАТ) могут улучшить классические социологические подходы к анализу такого типа данных. Статья построена ...
Добавлено: 9 декабря 2019 г.
Харламов А. А., , in : Neuroinformatics and Semantic Representations: Theory and Applications. : Cambridge Scholars Publishing, 2020. P. 156-167.
На основе представлений об обработке информации в мозге человека [1] реализована технология автоматической смысловой обработки текстов TextAnalyst, позволяющая выявить ключевые понятия текста в их взаимосвязях, реализовать реферирование текстов и их смысловое сравнение (классификацию). Реализованы продукты, использующие функциональность этой технологии: персональный – TextAnalyst, и библиотека COM модулей – TextAnalyst SDK. ...
Добавлено: 7 декабря 2021 г.
Романов А. Ю., Lomotin K.E., Kozlova E.S. и др., , in : 2016 International Siberian Conference on Control and Communications (SIBCON). Proceedings. : M. : HSE, 2016. Ch. 543fu4t.
В данной работе рассмотрена реализация автоматической рубрикации текстов научных статей по классификатору UDC, проведено исследование эффективности применения нейросетевых технологий для данной задачи. Предложены оптимальная архитектура и параметры нейронной сети. ...
Добавлено: 11 июня 2016 г.
Сметанин С. И., , in : Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (Москва, 17–20 июня 2020 г.). Issue 19(26): дополнительный том.: -, 2020. P. 1149-1159.
Добавлено: 30 ноября 2020 г.
Денис Турдаков, Астраханцев Н. А., Недумов Я. Р. и др., Труды Института системного программирования РАН 2014 Т. 26 С. 421-438
В статье описан проект Texterra, в рамках которого была создана инфраструктура для анализа текстов. Texterra предоставляет масштабируемое решение для быстрой обработки текстовых документов, основанное на использовании знаний, извлекаемых из Веб-ресурсов и текстовых документов. В данной статье раскрываются детали реализации проекта, варианты использования и результаты экспериментальных исследований разработанных инструментов. ...
Добавлено: 6 ноября 2017 г.
Ломотин К. Е., Романова И. И., В кн. : ФЭЭ 2017: Физика, Электроника, Электротехника. Материалы научно-технической конференции. : Сумы : СумДу, 2017. С. 152-152.
В процессе обработки текстов остро встает проблема нехватки производительности. Семантические и статистические модели документов требуют сложных вычислений, которые могут занимать длительное время. Эта проблема является преградой на пути внедрения последних разработок в области классификации текстов. В данной работе рассматривается проект аппаратного модуля, реализующего классификацию входящих документов по заданным тематикам. ...
Добавлено: 31 июля 2017 г.
Дурандин О. В., Золотых Н. Ю., Хилал Н. Р. и др., Научно-технический вестник информационных технологий, механики и оптики 2017 № 1(107) С. 110-116
Предмет исследования. Предложен подход к решению задачи классификации, использующий информацию о распределении вероятностей на множестве классов в обучающей выборке. Алгоритм проиллюстрирован на одной из сложных задач автоматической обработки текстов на естественном языке – классификации арабских диалектов. Метод.Каждому объекту обучающей выборки сопоставляется распределение вероятностей над метками классов, вместо сопоставления единственной метки класса. Предлагаемый подход решает задачу с учетом ...
Добавлено: 8 февраля 2017 г.
Karpov N., Demidovskij A., Malafeev A., , in : Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017. Vol. 1975.: Aachen : CEUR-WS.org, 2017. P. 69-78.
Добавлено: 14 ноября 2017 г.
Добавлено: 8 сентября 2023 г.