• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • HSE University
  • Publications
  • Book chapter
  • Сборка, хранение и предобработка коллекции документов для обучения multi-label классификатора текстов на естественном русском языке
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Priority areas
  • business informatics
  • economics
  • engineering science
  • humanitarian
  • IT and mathematics
  • law
  • management
  • mathematics
  • sociology
  • state and public administration
by year
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • More
Subject
News
June 5, 2026
Neural Network Maps as a Method for Constructing Mathematical Models
Scientists from HSE University–Nizhny Novgorod and the Institute of Physics Belgrade, Serbia, are jointly exploring the application of machine learning techniques and neural networks to the study of nonlinear dynamics. Natalya Stankevich, Leading Research Fellow at the Laboratory of Topological Methods in Dynamics of the Faculty of Informatics, Mathematics, and Computer Science at HSE University–Nizhny Novgorod, spoke to the HSE News Service about this international project.
June 5, 2026
‘In the Age of Technology, It Is Interesting to Look into the Past and Think about What We Can Take from It
Polina Tabakova decided to apply for a Philology degree at HSE in Nizhny Novgorod because she grew up in Mari El and did not want to move far away from the Russian forests. In an interview for the Young Scientists of HSE University project, she spoke about the genre of the campus novel, the existential drama of Kolobok, and a blackout version of Eugene Onegin.
June 5, 2026
HSE Scientists Develop Method to Compress Large Language Models Without Losing Quality
Researchers from the AI and Digital Science Institute at the HSE Faculty of Computer Science have developed a new compression method for large language models such as GPT and LLaMA that reduces their size by 25–36% without additional training or significant loss of accuracy. This is the first approach to use mathematical transformations—specifically, rotations of model weights—to make models more amenable to compression with structured matrices. The study results have been published in ACL Findings 2025. The code is available on GitHub.

 

Have you spotted a typo?
Highlight it, click Ctrl+Enter and send us a message. Thank you for your help!

Publications
  • Books
  • Articles
  • Chapters of books
  • Working papers
  • Report a publication
  • Research at HSE

?

Сборка, хранение и предобработка коллекции документов для обучения multi-label классификатора текстов на естественном русском языке

.
Krayushkin O., Смирнов М., Чернобай Ю.
Language: Russian
Text on another site
Keywords: n-граммыобучающая выборканормализацияСУБДweb crawlerмногоклассовая классификацияmultilabel classification

In book

1st conference on Software Engineering and Information Management (SEIM-2016)
СПб.: [б.и.], 2016.
Similar publications
Речевые средства эмоционального и психологического воздействия на пользователя в маркетинговой коммуникации: кейс «инфоцыганства»
Tsygankova A., В кн.: Исследование речи: теоретические и прикладные аспекты.: Улан-Удэ: Бурятский государственный университет имени Доржи Банзарова, 2025.
В статье представлен анализ корпуса текстов из Telegram-каналов, принадлежащих представителям «инфоцыганства» — феномена, определяемого как продажа псевдообразовательных продуктов, не имеющих практической ценности. Выявляются лингвистические маркеры, характерные для дискурса «инфоцыган», включая частотные n-граммы, леммы, словоформы и части речи. Особое внимание уделяется речевым стратегиям эмоционального и психологического воздействия, используемым в маркетинговой коммуникации для убеждения и мотивации потенциальных ...
Added: June 6, 2025
Катехон в эпоху ярости кибернетических систем
Khestanov R., Логос 2024 Т. 34 № 6 С. 275–296
The article argues that one of the main characteristics of modernity is the underlying paradox that could be labeled as an attitude of securitization through catastrophe. The author shows how the aspiration to overcome catastrophes and crises forms the attitude to their utilization, i.e. to create apparatuses or devices that guarantee safety and successful transformation ...
Added: January 1, 2025
Применение трансформеров для определения профильного врача на основе запросов пользователей
Люткин Д. А., Поздняков Д. В., Соловьев А. А. et al., Автоматика и телемеханика 2024 № 3 С. 86–100
Представлен новый подход, использующий модель RuBERT для классификации пользовательских запросов в области медицинских консультаций с учетом специализации эксперта. Входе исследования был собран обширный набор данных, который использовался для дообучения модели RuBERT. Метрика качества полученной модели F1-score составила более 91,8% как при использовании блоковой кросс-валидации, так и при разделении набора данных на обучающую и тестовую выборки. ...
Added: May 8, 2024
Linguistic mechanisms of colour term evolution: A diachronic investigation of “Russian browns” buryj and koričnevyj
Bochkarev V. V., Shevlyakova A., Solovyev V. et al., Diachronica 2023 Vol. 40 No. 4 P. 492–531
We investigated diachrony of distributional semantics of two competing Russian colour terms (CTs) for ‘brown’, buryj (11th century) and koričnevyj (17th century), using the Russian subcorpus of Google Books Ngram (2020). Time-series analysis (1800–2019) of bigrams gauged each term’s frequencies of occurrence and changes in combinability with nouns for natural objects, artefacts, abstract concepts and figurative expressions. In frequency, koričnevyj overtook buryj in the ...
Added: February 19, 2024
Spatial Data Management
Rodriges Zalipynis R. A., St. Petersburg: Naukoemkie Technologii, 2023.
Experts estimate that location (spatial) components are part of about 80% of all data in the world. Spatial Data are crucial for Urban, Forest, and Water Management, Rapid Response to Emergencies, Air Quality Control, Food Security, Environmental Monitoring, and myriads of other practical tasks. The Course Syllabus (Curriculum) proposes to acquire fundamental knowledge and skills in ...
Added: January 19, 2024
О принципах нормализации тематической разметки Корпуса русского рассказа XX века
Kirina M., Социо- и психолингвистические исследования 2023 № 11 С. 28–38
The article discusses the problem of normalization of the thematic annotation of the Corpus of Russian Short Stories of the 20th century. The aim of the research was to develop a methodology that combines linguistic and literary approaches to text analysis, in order to standardize the "theme" parameter, identified by expert. The study proposes to ...
Added: December 10, 2023
Эмпирические вызовы и методологические подходы в сравнительной политологии (сквозь призму “Политического атласа современного мира 2.0”)
Melville A. Y., Мальгин А. В., Mironyuk M. et al., Полис. Политические исследования 2023 № 5 С. 153–171
In recent decades, the expanding volume, diversity and coverage of data have created new or have transformed existing areas of research. They have also turned data into a key element of politics today. In this context, the status of empirical research that became the political science mainstream at the turn of the 20th - 21st ...
Added: September 29, 2023
Между осознанностью и незаконностью: молодежные культуры потребления психоактивных веществ в Санкт-Петербурге
Чернышёва Н. С., Balatsyuk E., Laboratorium. Журнал социальных исследований 2023 Т. 15 № 2 С. 4–26
Abstract: Research on psychoactive substance use among youth most often stigmatizes users and makes young peoples’ experience "risk-taking". This approach does not take into account the need of young people to normalize their consumption experience. At the same time, the consumer experience itself includes not only the direct use of psychoactive substances, but also regulated language, ...
Added: September 21, 2023
Разработка инструментальных средств для исследования информационных характеристик естественного языка
Malashina A., Промышленные АСУ и контроллеры 2021 № 2 С. 9–15
В статье представлены результаты разработки программного обеспечения для исследования информационных характеристик естественных языков. Вопросы исследования информационных характеристик естественных языков вызваны необходимостью разра- ботки методов оценки защищенных информационных систем. При исследовании криптографических алгоритмов возникает задача восстановления входного сообщения или некоторой его части по информации о возможных вари- антах его знаков. В этом случае существенную роль играет структура источника сообщений, например, количес- тво сообщений заданной ...
Added: February 2, 2021
Baselines and Symbol N-Grams: Simple Part-Of-Speech Tagging of Russian?
Arefyev, N.V., Ermolaev P., , in: Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017Vol. 1975.: Aachen: CEUR-WS.org, 2017. P. 9–19.
We propose using NB-SVM over bag of character n-grams input representation for determining part-of-speech tags and grammatical categories like gender, number, etc. for words in Russian texts. Several methods are compared including CRF (Conditional Random Fields), SVM (Support Vector Machines) and NB-SVM (Naive Bayes SVM) and superiority of NB-SVM over other classifiers is shown. The ...
Added: October 9, 2020
Multilabel Classification for Inflow Profile Monitoring
Ignatov D. I., Spesivtsev P., Kurgansky D. et al., , in: Proceedings of the MACSPro Workshop 2019Vol. 2478: CEUR Workshop Proceedings.: CEUR-WS.org, 2019. P. 177–184.
The purpose of this study is to identify the position of non- performing inflow zones (sources) in a wellbore by means of machine learning techniques. The training data are obtained using the transient multiphase simulators and represented as the following time-series: bottom- hole pressure, well-head pressure, flowrates of gas, oil, and water along with a ...
Added: November 1, 2019
An adaptive multiclass nearest neighbor classifier
Puchkin N., Spokoiny V., ESAIM: Probability and Statistics 2020 Vol. 24 P. 69–99
We consider a problem of multiclass classification, where the training sample Sn={(Xi,Yi)}ni=1 is generated from the model ℙ(Y=m|X=x)=ηm(x), 1≤m≤M, and η1(x),…,ηM(x) are unknown α-Holder continuous functions.Given a test point X, our goal is to predict its label. A widely used 𝗄-nearest-neighbors classifier constructs estimates of η1(X),…,ηM(X) and uses a plug-in rule for the prediction. However, it requires a proper choice of the smoothing parameter 𝗄, which may ...
Added: October 30, 2019
ЭФФЕКТИВНОСТЬ КЛАССИФИКАТОРОВ ДЛЯ ВЫЯВЛЕНИЯ ФРОДА В ФИНАНСОВЫХ ТРАНЗАКЦИЯХ
Levashov M., Овчинников П. В., Вопросы кибербезопасности 2019 № 5 С. 63–69
Цель статьи: экспериментальный расчет эффективности алгоритмического метода выявления мошеннических финансовых транзакций с использованием классификаторов, построенных с помощью большого объема обучающей выборки из реальных транзакций. Сравнение полученных значений эффективностей с аналогичными данными, рассчитанными ранее в статистической модели процесса фрод-мониторинга. Метод: применение стандартного алгоритма построения классификаторов для выявления мошеннических транзакций, основанного на анализе данных обучающей выборки с использованием ...
Added: August 2, 2019
Пусть расцветают сто цветов
Kuznetsov S. D., Открытые системы. СУБД 2013 № 2 С. 48–51
The issues of Big Data begin to touch upon transactional systems despite the fact that they contain orders of magnitude less data than some others do. Yet, today they process vast amount of information and transactions requiring approaches that ensure robust scalability. Let’s consider the types of scalability suitable for transactional domain, the issues specific ...
Added: January 30, 2018
Использование индексов в реляционных СУБД
Вендин А. С., В кн.: Интеллектуальный и научный потенциал XXI века: сборник статей Международной научно-практической конференции: в 4 частях. 2017Ч. 3.: Уфа: Общество с ограниченной ответственностью "ОМЕГА САЙНС", 2017. С. 13–16.
In this paper, we consider a solution that helps increase the search speed and data fetching in relational databases such as Oracle and MySQL. This solution is called an index. We consider types of indices, which are unique only for specific DBMS, and indexes, which are used in almost all databases. Created by test database ...
Added: December 12, 2017
Обзор основных индексов, использующихся в реляционных СУБД
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 40–42.
When working with relational databases, the main time is loading, searching, update and unload data. When the amount of data is increased, the time to perform these operations is significantly increased, since in fact, all available records, and this reduces the performance and processing speed of the data. One possible way to increase productivity and ...
Added: December 12, 2017
Использование индексов в реляционных СУБД
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 42–45.
In this paper, we consider a solution that helps increase the speed of searching and retrieving data in relational DBMSs, such as Oracle and MySQL. This solution is called an index. We consider the types of indexes that are unique only for a particular DBMS, and indexes that are used in almost all databases. A ...
Added: December 12, 2017
Использование индексов в реляционных СУБД
Вендин А. С., Успехи современной науки 2017 Т. 6 № 3 С. 38–41
In this work we consider a solution that helps to increase the speed of search and retrieval of data in relational database management systems, such as ORACLE and MySQL. This solution is called the index. We consider the types of indexes that are unique only for a particular database and indexes that are used in all ...
Added: December 11, 2017
SciDB - новая СУБД для больших объемов научных данных
Velikhov P., Суперкомпьютеры 2011 № 5 С. 24–27
Развитие технологий приемных устройств привело к необходимости хранения, обработки и анализа сверхбольших объемов научных данных. Современное компьютерные и информационные технологии не готовы для решения этих задач и требуются новые решения, ориентированные на работу с научными данными, доступные для научного сообщества и масштабируемые на сотни петабайт. В данной статье мы рассматриваем СУБД SCIDB, как решение большинства ...
Added: December 10, 2017
Measuring influencers in twitter ad-hoc discussions: Active users vs. internal networks in the discourse on biryuliovo bashings in 2013
Svetabod S. Bodrunova, Blekanov I., Maksimov A., , in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016.: FRUCT Oy, 2016.
Despite disputable possibility of extension of analysis of social relations on Twitter to real life, Twitter discussions are stiU being under attention of scholars studying structures and meanings of news-and issue-based ad-hoc public discourse. One of the socially relevant aspects of Twitter studies is that of influencers-accounts that produce impact, either inside or outside Twitter. ...
Added: October 5, 2017
Основы компьютерной грамотности и информационно-коммуникационной компетентности: Учебно-методическое пособие в 3 частях. Часть 1. Введение в информатику
Lyadova L. N., Фролова Н. В., Zamyatina E. et al., Пермь: Пермский государственный национальный исследовательский университет, 2007.
Added: December 3, 2016
  • About
  • About
  • Key Figures & Facts
  • Sustainability at HSE University
  • Faculties & Departments
  • International Partnerships
  • Faculty & Staff
  • HSE Buildings
  • HSE University for Persons with Disabilities
  • Public Enquiries
  • Studies
  • Admissions
  • Programme Catalogue
  • Undergraduate
  • Graduate
  • Exchange Programmes
  • Summer University
  • Summer Schools
  • Semester in Moscow
  • Business Internship
  • Research
  • International Laboratories
  • Research Centres
  • Research Projects
  • Monitoring Studies
  • Conferences & Seminars
  • Academic Jobs
  • Yasin (April) International Academic Conference on Economic and Social Development
  • Media & Resources
  • Publications by staff
  • HSE Journals
  • Publishing House
  • iq.hse.ru: commentary by HSE experts
  • Library
  • Economic & Social Data Archive
  • Video
  • HSE Repository of Socio-Economic Information
  • HSE1993–2026
  • Contacts
  • Copyright
  • Privacy Policy
  • Site Map
Edit