?
Сборка, хранение и предобработка коллекции документов для обучения multi-label классификатора текстов на естественном русском языке
.
Krayushkin O., Смирнов М., Чернобай Ю.
In book
СПб.: [б.и.], 2016.
Tsygankova A., В кн.: Исследование речи: теоретические и прикладные аспекты.: Улан-Удэ: Бурятский государственный университет имени Доржи Банзарова, 2025.
В статье представлен анализ корпуса текстов из Telegram-каналов, принадлежащих представителям «инфоцыганства» — феномена, определяемого как продажа псевдообразовательных продуктов, не имеющих практической ценности. Выявляются лингвистические маркеры, характерные для дискурса «инфоцыган», включая частотные n-граммы, леммы, словоформы и части речи. Особое внимание уделяется речевым стратегиям эмоционального и психологического воздействия, используемым в маркетинговой коммуникации для убеждения и мотивации потенциальных ...
Added: June 6, 2025
Khestanov R., Логос 2024 Т. 34 № 6 С. 275–296
The article argues that one of the main characteristics of modernity is the underlying paradox that could be labeled as an attitude of securitization through catastrophe. The author shows how the aspiration to overcome catastrophes and crises forms the attitude to their utilization, i.e. to create apparatuses or devices that guarantee safety and successful transformation ...
Added: January 1, 2025
Люткин Д. А., Поздняков Д. В., Соловьев А. А. et al., Автоматика и телемеханика 2024 № 3 С. 86–100
Представлен новый подход, использующий модель RuBERT для классификации пользовательских запросов в области медицинских консультаций с учетом специализации эксперта. Входе исследования был собран обширный набор данных, который использовался для дообучения модели RuBERT. Метрика качества полученной модели F1-score составила более 91,8% как при использовании блоковой кросс-валидации, так и при разделении набора данных на обучающую и тестовую выборки. ...
Added: May 8, 2024
Bochkarev V. V., Shevlyakova A., Solovyev V. et al., Diachronica 2023 Vol. 40 No. 4 P. 492–531
We investigated diachrony of distributional semantics of two competing Russian colour terms (CTs) for ‘brown’, buryj (11th century) and koričnevyj (17th century), using the Russian subcorpus of Google Books Ngram (2020). Time-series analysis (1800–2019) of bigrams gauged each term’s frequencies of occurrence and changes in combinability with nouns for natural objects, artefacts, abstract concepts and figurative expressions. In frequency, koričnevyj overtook buryj in the ...
Added: February 19, 2024
Rodriges Zalipynis R. A., St. Petersburg: Naukoemkie Technologii, 2023.
Experts estimate that location (spatial) components are part of about 80% of all data in the world. Spatial Data are crucial for Urban, Forest, and Water Management, Rapid Response to Emergencies, Air Quality Control, Food Security, Environmental Monitoring, and myriads of other practical tasks.
The Course Syllabus (Curriculum) proposes to acquire fundamental knowledge and skills in ...
Added: January 19, 2024
Kirina M., Социо- и психолингвистические исследования 2023 № 11 С. 28–38
The article discusses the problem of normalization of the thematic annotation of the Corpus of Russian Short Stories of the 20th century. The aim of the research was to develop a methodology that combines linguistic and literary approaches to text analysis, in order to standardize the "theme" parameter, identified by expert. The study proposes to ...
Added: December 10, 2023
Melville A. Y., Мальгин А. В., Mironyuk M. et al., Полис. Политические исследования 2023 № 5 С. 153–171
In recent decades, the expanding volume, diversity and coverage of data have created new or have transformed existing areas of research. They have also turned data into a key element of politics today. In this context, the status of empirical research that became the political science mainstream at the turn of the 20th - 21st ...
Added: September 29, 2023
Чернышёва Н. С., Balatsyuk E., Laboratorium. Журнал социальных исследований 2023 Т. 15 № 2 С. 4–26
Abstract:
Research on psychoactive substance use among youth most often stigmatizes users and makes young peoples’ experience "risk-taking". This approach does not take into account the need of young people to normalize their consumption experience. At the same time, the consumer experience itself includes not only the direct use of psychoactive substances, but also regulated language, ...
Added: September 21, 2023
Malashina A., Промышленные АСУ и контроллеры 2021 № 2 С. 9–15
В статье представлены результаты разработки программного обеспечения для исследования информационных характеристик естественных языков.
Вопросы исследования информационных характеристик естественных языков вызваны необходимостью разра- ботки методов оценки защищенных информационных систем. При исследовании криптографических алгоритмов возникает задача восстановления входного сообщения или некоторой его части по информации о возможных вари- антах его знаков. В этом случае существенную роль играет структура источника сообщений, например, количес- тво сообщений заданной ...
Added: February 2, 2021
Arefyev, N.V., Ermolaev P., , in: Supplementary Proceedings of the Sixth International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2017), Moscow, Russia, July 27-29, 2017Vol. 1975.: Aachen: CEUR-WS.org, 2017. P. 9–19.
We propose using NB-SVM over bag of character n-grams input representation for determining part-of-speech tags and grammatical categories like gender, number, etc. for words in Russian texts. Several methods are compared including CRF (Conditional Random Fields), SVM (Support Vector Machines) and NB-SVM (Naive Bayes SVM) and superiority of NB-SVM over other classifiers is shown. The ...
Added: October 9, 2020
Ignatov D. I., Spesivtsev P., Kurgansky D. et al., , in: Proceedings of the MACSPro Workshop 2019Vol. 2478: CEUR Workshop Proceedings.: CEUR-WS.org, 2019. P. 177–184.
The purpose of this study is to identify the position of non- performing inflow zones (sources) in a wellbore by means of machine learning techniques. The training data are obtained using the transient multiphase simulators and represented as the following time-series: bottom- hole pressure, well-head pressure, flowrates of gas, oil, and water along with a ...
Added: November 1, 2019
Puchkin N., Spokoiny V., ESAIM: Probability and Statistics 2020 Vol. 24 P. 69–99
We consider a problem of multiclass classification, where the training sample Sn={(Xi,Yi)}ni=1 is generated from the model ℙ(Y=m|X=x)=ηm(x), 1≤m≤M, and η1(x),…,ηM(x) are unknown α-Holder continuous functions.Given a test point X, our goal is to predict its label. A widely used 𝗄-nearest-neighbors classifier constructs estimates of η1(X),…,ηM(X) and uses a plug-in rule for the prediction. However, it requires a proper choice of the smoothing parameter 𝗄, which may ...
Added: October 30, 2019
Levashov M., Овчинников П. В., Вопросы кибербезопасности 2019 № 5 С. 63–69
Цель статьи: экспериментальный расчет эффективности алгоритмического метода выявления мошеннических финансовых транзакций с использованием классификаторов, построенных с помощью большого объема обучающей выборки из реальных транзакций. Сравнение полученных значений эффективностей с аналогичными данными, рассчитанными ранее в статистической модели процесса фрод-мониторинга.
Метод: применение стандартного алгоритма построения классификаторов для выявления мошеннических транзакций, основанного на анализе данных обучающей выборки с использованием ...
Added: August 2, 2019
Kuznetsov S. D., Открытые системы. СУБД 2013 № 2 С. 48–51
The issues of Big Data begin to touch upon transactional systems despite the fact that they contain orders of magnitude less data than some others do. Yet, today they process vast amount of information and transactions requiring approaches that ensure robust scalability. Let’s consider the types of scalability suitable for transactional domain, the issues specific ...
Added: January 30, 2018
Вендин А. С., В кн.: Интеллектуальный и научный потенциал XXI века: сборник статей Международной научно-практической конференции: в 4 частях. 2017Ч. 3.: Уфа: Общество с ограниченной ответственностью "ОМЕГА САЙНС", 2017. С. 13–16.
In this paper, we consider a solution that helps increase the search speed and data fetching in relational databases such as Oracle and MySQL. This solution is called an index. We consider types of indices, which are unique only for specific DBMS, and indexes, which are used in almost all databases. Created by test database ...
Added: December 12, 2017
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 40–42.
When working with relational databases, the main time is loading, searching, update and unload data. When the amount of data is increased, the time to perform these operations is significantly increased, since in fact, all available records, and this reduces the performance and processing speed of the data. One possible way to increase productivity and ...
Added: December 12, 2017
Вендин А. С., В кн.: Инновационные технологии научного развития: сборник статей международной научно-практической конференции: в 5 частях. 2017.: Уфа: Общество с ограниченной ответственностью "Аэтерна", 2017. С. 42–45.
In this paper, we consider a solution that helps increase the speed of searching and retrieving data in relational DBMSs, such as Oracle and MySQL. This solution is called an index. We consider the types of indexes that are unique only for a particular DBMS, and indexes that are used in almost all databases. A ...
Added: December 12, 2017
Вендин А. С., Успехи современной науки 2017 Т. 6 № 3 С. 38–41
In this work we consider a solution that helps to increase the speed of search and retrieval of data in relational database management systems, such as ORACLE and MySQL.
This solution is called the index. We consider the types of indexes that are unique only for a particular database and indexes that are used in all ...
Added: December 11, 2017
Velikhov P., Суперкомпьютеры 2011 № 5 С. 24–27
Развитие технологий приемных устройств привело к необходимости хранения, обработки и анализа сверхбольших объемов научных данных. Современное компьютерные и информационные технологии не готовы для решения этих задач и требуются новые решения, ориентированные на работу с научными данными, доступные для научного сообщества и масштабируемые на сотни петабайт. В данной статье мы рассматриваем СУБД SCIDB, как решение большинства ...
Added: December 10, 2017
Svetabod S. Bodrunova, Blekanov I., Maksimov A., , in: Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference, Saint-Petersburg, Russia, 10-12 November 2016.: FRUCT Oy, 2016.
Despite disputable possibility of extension of analysis of social relations on Twitter to real life, Twitter discussions are stiU being under attention of scholars studying structures and meanings of news-and issue-based ad-hoc public discourse. One of the socially relevant aspects of Twitter studies is that of influencers-accounts that produce impact, either inside or outside Twitter. ...
Added: October 5, 2017
Lyadova L. N., Фролова Н. В., Zamyatina E. et al., Пермь: Пермский государственный национальный исследовательский университет, 2007.
Added: December 3, 2016