• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Сборка, хранение и предобработка коллекции документов для обучения multi-label классификатора текстов на естественном русском языке
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
30 апреля 2026 г.
«Моя цель - стать ординарным профессором»
Михаил Саматов занимается теоретическими исследованиями перовскитных солнечных батарей. В интервью проекту «Молодые ученые Вышки» он рассказал о работе на суперкомпьютере Вышки, сотрудничестве с Пекинским университетом и умении делать мебель.
29 апреля 2026 г.
Научить машину читать прошлое: на ФГН создают нейросеть для расшифровки рукописей
Дневники и письма — бесценный источник для гуманитария-исследователя. Но что делать, если текст невозможно прочитать? На факультете гуманитарных наук (ФГН) ВШЭ эту проблему решили перевести на язык математики: команда филологов, историков и специалистов по машинному обучению создала информационную систему, которая не только распознает неразборчивый почерк, но и помогает анализировать содержание архивов.
29 апреля 2026 г.
8 драйверов технологического будущего: что изменит экономику
Какие отрасли определят облик ближайших десятилетий? Премьер-министр  Михаил Мишустин назвал 8 направлений, которые будут развиваться в ближайшие годы. О том, какие образовательные программы НИУ ВШЭ готовят специалистов по этим направлениям — в материале IQ медиа.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Сборка, хранение и предобработка коллекции документов для обучения multi-label классификатора текстов на естественном русском языке

.
Краюшкин О. Н., Смирнов М., Чернобай Ю.

в работе были выявлены основные особенности организации сборки, хранения и предобработки датасета для формирования обучающей выборки multi-label классификатора текстов на естественном русском языке

Язык: русский
Текст на другом сайте
Ключевые слова: n-граммыобучающая выборканормализацияСУБДweb crawlerмногоклассовая классификацияmultilabel classification

В книге

1st conference on Software Engineering and Information Management (SEIM-2016)
СПб.: [б.и.], 2016.
Похожие публикации
Речевые средства эмоционального и психологического воздействия на пользователя в маркетинговой коммуникации: кейс «инфоцыганства»
Цыганкова А. В., В кн.: Исследование речи: теоретические и прикладные аспекты.: Улан-Удэ: Бурятский государственный университет имени Доржи Банзарова, 2025.
В статье представлен анализ корпуса текстов из Telegram-каналов, принадлежащих представителям «инфоцыганства» — феномена, определяемого как продажа псевдообразовательных продуктов, не имеющих практической ценности. Выявляются лингвистические маркеры, характерные для дискурса «инфоцыган», включая частотные n-граммы, леммы, словоформы и части речи. Особое внимание уделяется речевым стратегиям эмоционального и психологического воздействия, используемым в маркетинговой коммуникации для убеждения и мотивации потенциальных ...
Добавлено: 6 июня 2025 г.
Катехон в эпоху ярости кибернетических систем
Хестанов Р. З., Логос 2024 Т. 34 № 6 С. 275–296
В статье утверждается, что одной из основных характеристик модерна является лежащий в его основании парадокс, который можно было бы обозначить как установку на секьюритизацию через катастрофу. Автор показывает, каким образом из стремления к преодолению катастроф и кризисов формируется установка на их утилизацию, то есть на создание аппаратов или устройств, гарантирующих безопасность и успешное преобразование катастроф ...
Добавлено: 1 января 2025 г.
Применение трансформеров для определения профильного врача на основе запросов пользователей
Люткин Д. А., Поздняков Д. В., Соловьев А. А. и др., Автоматика и телемеханика 2024 № 3 С. 86–100
Представлен новый подход, использующий модель RuBERT для классификации пользовательских запросов в области медицинских консультаций с учетом специализации эксперта. Входе исследования был собран обширный набор данных, который использовался для дообучения модели RuBERT. Метрика качества полученной модели F1-score составила более 91,8% как при использовании блоковой кросс-валидации, так и при разделении набора данных на обучающую и тестовую выборки. ...
Добавлено: 8 мая 2024 г.
Linguistic mechanisms of colour term evolution: A diachronic investigation of “Russian browns” buryj and koričnevyj
Bochkarev V. V., Shevlyakova A., Solovyev V. и др., Diachronica 2023 Vol. 40 No. 4 P. 492–531
Добавлено: 19 февраля 2024 г.
Spatial Data Management
Родригес Залепинос Р. А., St. Petersburg: Naukoemkie Technologii, 2023.
По оценкам экспертов, около 80% всех данных в мире содержат локационные (пространственные) компоненты. Пространственные данные имеют решающее значение для управления городскими, лесными и водными ресурсами, быстрого реагирования на чрезвычайные ситуации, контроля качества воздуха, продовольственной безопасности, мониторинга окружающей среды и огромного множества других практически важных задач. Учебная программа предлагает получить фундаментальные знания и навыки управления пространственными данными, ...
Добавлено: 19 января 2024 г.
О принципах нормализации тематической разметки Корпуса русского рассказа XX века
Кирина М. А., Социо- и психолингвистические исследования 2023 № 11 С. 28–38
В статье рассматривается проблема нормализации тематической разметки Корпуса русского рассказа XX в. Целью исследования стала разработка методологии, сочетающей в себе лингвистические и литературоведческие подходы к анализу текста, и стандартизация параметра «тема», выделяемого экспертным путем. В рамках исследования предлагается рассматривать тематику художественного произведения как социокультурный феномен, в связи с чем обсуждаются перспективы изучения влияния внетекстологических факторов на ...
Добавлено: 10 декабря 2023 г.
Эмпирические вызовы и методологические подходы в сравнительной политологии (сквозь призму “Политического атласа современного мира 2.0”)
Мельвиль А. Ю., Мальгин А. В., Миронюк М. Г. и др., Полис. Политические исследования 2023 № 5 С. 153–171
Растущие объемы, разнообразие и охват данных в последние десятилетия не только открывают перед учеными новые или меняют уже существующие области исследования, но и превращают данные в значимый элемент политики. В этом контексте эмпирические исследования, ставшие на рубеже XX-XXI вв. мейнстримом политической науки, с одной стороны, претендуют на статус строго научного обоснованного знания, а с другой ...
Добавлено: 29 сентября 2023 г.
Между осознанностью и незаконностью: молодежные культуры потребления психоактивных веществ в Санкт-Петербурге
Чернышёва Н. С., Балацюк Е. С., Laboratorium. Журнал социальных исследований 2023 Т. 15 № 2 С. 4–26
Исследование потребительских практик запрещённых психоактивных веществ среди молодёжи зачастую рассматривается через призму стигматизации, а ценности и опыт включённых в подобное потребление молодых людей маркируются как «рисковые». Такое внешнее маркирование не учитывает стремление самих молодых людей нормализовать свой опыт потребления, в рамках которого регулируются язык, смыслы и нормы поведения – составляющие в совокупности культуру наркопотребления. В данной ...
Добавлено: 21 сентября 2023 г.
Разработка инструментальных средств для исследования информационных характеристик естественного языка
Малашина А. Г., Промышленные АСУ и контроллеры 2021 № 2 С. 9–15
В статье представлены результаты разработки программного обеспечения для исследования информационных характеристик естественных языков. Вопросы исследования информационных характеристик естественных языков вызваны необходимостью разра- ботки методов оценки защищенных информационных систем. При исследовании криптографических алгоритмов возникает задача восстановления входного сообщения или некоторой его части по информации о возможных вари- антах его знаков. В этом случае существенную роль играет структура источника сообщений, например, количес- тво сообщений заданной ...
Добавлено: 2 февраля 2021 г.
Baselines and Symbol N-Grams: Simple Part-Of-Speech Tagging of Russian?
Arefyev, N.V., Ermolaev P., , in: Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017Vol. 1975.: Aachen: CEUR-WS.org, 2017. P. 9–19.
Добавлено: 9 октября 2020 г.
Multilabel Classification for Inflow Profile Monitoring
Игнатов Д. И., Spesivtsev P., Kurgansky D. и др., , in: Proceedings of the MACSPro Workshop 2019Vol. 2478: CEUR Workshop Proceedings.: CEUR-WS.org, 2019. P. 177–184.
Добавлено: 1 ноября 2019 г.
An adaptive multiclass nearest neighbor classifier
Пучкин Н. А., Спокойный В. Г., ESAIM: Probability and Statistics 2020 Vol. 24 P. 69–99
Добавлено: 30 октября 2019 г.
ЭФФЕКТИВНОСТЬ КЛАССИФИКАТОРОВ ДЛЯ ВЫЯВЛЕНИЯ ФРОДА В ФИНАНСОВЫХ ТРАНЗАКЦИЯХ
Левашов М. В., Овчинников П. В., Вопросы кибербезопасности 2019 № 5 С. 63–69
Цель статьи: экспериментальный расчет эффективности алгоритмического метода выявления мошеннических финансовых транзакций с использованием классификаторов, построенных с помощью большого объема обучающей выборки из реальных транзакций. Сравнение полученных значений эффективностей с аналогичными данными, рассчитанными ранее в статистической модели процесса фрод-мониторинга. Метод: применение стандартного алгоритма построения классификаторов для выявления мошеннических транзакций, основанного на анализе данных обучающей выборки с использованием ...
Добавлено: 2 августа 2019 г.
Пусть расцветают сто цветов
Кузнецов С. Д., Открытые системы. СУБД 2013 № 2 С. 48–51
Проблемы больших объемов не обошли стороной транзакционные системы, данных в которых на порядки меньше, чем в аналитических, но и через них сегодня проходят огромные массивы данных и транзакций, поэтому требуются подходы, надежно обеспечивающие масштабирование. Какое масштабирование хорошо для мира транзакционных систем, какие проблемы при этом возникают и каковы истинные причины появления систем NoACID? ...
Добавлено: 30 января 2018 г.
Использование индексов в реляционных СУБД
Вендин А. С., В кн.: Интеллектуальный и научный потенциал XXI века: сборник статей Международной научно-практической конференции: в 4 частях. 2017Ч. 3.: Уфа: Общество с ограниченной ответственностью "ОМЕГА САЙНС", 2017. С. 13–16.
В данной работе рассматривается решение, которое помогает увеличить скорость поиска и выборки данных в реляционных СУБД, таких как ORACLE и MySQL. Это решение называется индексом. Рассматриваются виды индексов, которые уникальны только для конкретной СУБД, и индексы, которые используются практически во всех СУБД. Создана тестовая база данных для проведения экспериментов. Анализ производится по определённым видам запросов, одинаковых для всех исследуемых СУБД. ...
Добавлено: 12 декабря 2017 г.
Обзор основных индексов, использующихся в реляционных СУБД
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 40–42.
При работе с реляционными базами данных основное время составляет загрузка, поиск, обновление и выгрузка данных. При увеличении объема данных время на выполнение этих операций значительно увеличивается, так как фактически проводится перебор всех имеющихся записей, а это снижает производительность и скорость обработки данных. Одним из возможных путей повышения производительности и увеличения скорости обработки данных может быть использование индексов. ...
Добавлено: 12 декабря 2017 г.
Использование индексов в реляционных СУБД
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 42–45.
В данной работе рассматривается решение, которое помогает увеличить скорость поиска и выборки данных в реляционных СУБД, таких как ORACLE и MySQL. Это решение называется индексом. Рассматриваются виды индексов, которые уникальны только для конкретной СУБД, и индексы, которые используются практически во всех СУБД. Создана тестовая база данных для проведения экспериментов. Анализ производится по определённым видам запросов, ...
Добавлено: 12 декабря 2017 г.
Использование индексов в реляционных СУБД
Вендин А. С., Успехи современной науки 2017 Т. 6 № 3 С. 38–41
В данной работе рассматривается решение, которое помогает увеличить скорость поиска и выборки данных в реляционных СУБД, таких как ORACLE и MySQL. Это решение называется индексом. Рассматриваются виды индексов, которые уникальны только для конкретной СУБД, и индексы, которые используются практически во всех СУБД. Создана тестовая база данных для проведения экспериментов. Анализ производится по определённым видам запросов, ...
Добавлено: 11 декабря 2017 г.
SciDB - новая СУБД для больших объемов научных данных
Велихов П. Е., Суперкомпьютеры 2011 № 5 С. 24–27
Развитие технологий приемных устройств привело к необходимости хранения, обработки и анализа сверхбольших объемов научных данных. Современное компьютерные и информационные технологии не готовы для решения этих задач и требуются новые решения, ориентированные на работу с научными данными, доступные для научного сообщества и масштабируемые на сотни петабайт. В данной статье мы рассматриваем СУБД SCIDB, как решение большинства ...
Добавлено: 10 декабря 2017 г.
Measuring influencers in twitter ad-hoc discussions: Active users vs. internal networks in the discourse on biryuliovo bashings in 2013
Svetabod S. Bodrunova, Blekanov I., Maksimov A., , in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016.: FRUCT Oy, 2016.
Добавлено: 5 октября 2017 г.
Основы компьютерной грамотности и информационно-коммуникационной компетентности: Учебно-методическое пособие в 3 частях. Часть 1. Введение в информатику
Лядова Л. Н., Фролова Н. В., Замятина Е. Б. и др., Пермь: Пермский государственный национальный исследовательский университет, 2007.
Добавлено: 3 декабря 2016 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору