• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • HSE University
  • Publications
  • Book chapter
  • Возможности и ограничения текст-майнинга: применение современных методов анализа текстовых данных
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Priority areas
  • business informatics
  • economics
  • engineering science
  • humanitarian
  • IT and mathematics
  • law
  • management
  • mathematics
  • sociology
  • state and public administration
by year
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • More
Subject
News
May 25, 2026
HSE Scientists Train Neural Network to 'Hear' Faults in Electric Motors
Researchers at the AI and Digital Science Institute of the HSE Faculty of Computer Science have developed a new method—the Signature-Guided Data Augmentation (SGDA) framework—that achieves 99% accuracy in motor fault detection and 86% accuracy in fault classification. The application of this approach can reduce industrial equipment repair costs, minimise downtime, and improve production safety. The study results have been published in Engineering Applications of Artificial Intelligence.
May 25, 2026
'The Humanities Serve as a Conscience'
Maria Mizernaia studies Soviet literature and the history of book publishing. In this interview for the HSE Young Scientists project, she discusses plans to publish a novel about besieged Leningrad, AI-provoked reflections on what it means to be human, and how novels can help satisfy our dopamine hunger.
May 25, 2026
Is It Possible to Predict a Citys Life Based on the Shape of Its Neighbourhoods?
Is it possible to predict, based on the configuration of streets and buildings, where a café will open or where traffic congestion will occur? Participants in the Spatial Analysis and Modelling of Urban Processes research and study group use open data and machine learning to identify universal patterns. Alexander Sheludkov and Eduard Somov discuss the purpose of comparing cities, the need for new forms of urban statistics, and how open data is transforming approaches to urban studies.

 

Have you spotted a typo?
Highlight it, click Ctrl+Enter and send us a message. Thank you for your help!

Publications
  • Books
  • Articles
  • Chapters of books
  • Working papers
  • Report a publication
  • Research at HSE

?

Возможности и ограничения текст-майнинга: применение современных методов анализа текстовых данных

Гл. 11. С. 273–312.
Aleksandrova M.

This textbook is an analytical toolkit demonstrating a variety of approaches to analyzing qualitative data — interview materials, observations, photos, letters and online messages. The authors are practicing social researchers who share their experience of narrative analysis, the- matic analysis, discourse analysis, grounded theory, qualitative content analysis and text-min- ing. Each chapter contains an explanation of key concepts, and shows examples and possible algorithms for working with data.

The book consists of three interrelated sections. The first section shows the specifics of qualitative analysis and the methodological landscape. These chapters are devoted to the origin and application of the methods. The second section shows researchers the features of coding and processing, and demonstrates the specifics of working with various software, in- cluding ATLAS.ti, NVivo, Dedoose, and Python. The third section describes the formats for the presentation of the results of qualitative research. Each chapter contains an explanation of key concepts and shows examples and possible algorithms for working with data.

The book is addressed to a wide range of readers — students, researchers, and lecturers who conduct research projects and teach courses on the methodology and methods of social research.

Language: Russian
Full text
DOI
Keywords: сегментациялемматизациякорпус документовтокенизацияпредобработка данныхСтемминг

In book

Практики анализа качественных данных в социальных науках
Практики анализа качественных данных в социальных науках
Aleksandrova M., Govorova A., Nefedova A., Polukhina E., Рудь Д. С., Savinskaya O., Strelnikova A., Trotsuk I. М.: Издательский дом НИУ ВШЭ, 2023.
Similar publications
Дискриминативная лемматизация сокращений в эпоху LLM
Глазкова А. В., Смаль И. В., Lyashevskaya O. et al., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155
This paper presents a study on the effectiveness of discriminative methods for abbreviation lemmatization in Russian texts. Unlike generative approaches, discriminative models select the optimal lemma from a fixed set of candidates, eliminating the risk of generating grammatically incorrect word forms. For the first time in Russian language processing, we conduct a comprehensive analysis of ...
Added: March 10, 2026
Rubic2: Ensemble Model for Russian Lemmatization
Afanasev I., Glazkova A., Lyashevskaya O. et al., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.
Pre-trained language models have significantly advanced natural language processing (NLP), particularly in analyzing languages with complex morphological structures. This study addresses lemmatization for the Russian language, the errors in which can critically affect the performance of information retrieval, question answering, and other tasks. We present the results of experiments on generative lemmatization using pre-trained language ...
Added: March 10, 2026
Transformer-based approaches for lemmatizing abbreviations in Russian texts
Glazkova A., Lyashevskaya O., Morozov D. et al., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47
This paper addresses the task of lemmatizing abbreviations in the Russian language. Abbreviation lemmatization is particularly challenging, as it involves not only transforming a word into its normal form but also correctly expanding the abbreviation. We explore two approaches to this task, both leveraging large pretrained language models. The first approach is generative, where the ...
Added: March 10, 2026
Определение фолликулярного резерва яичников по данным ультразвукового исследования на основе методов машинного обучения
Moshkin A., Лапутин Ф. А., Сидоров И. В., DIGITAL DIAGNOSTICS 2024 Т. 5 № S1 С. 40–42
BACKGROUND: Ovarian reserve reflects a woman's ability to successfully realize reproductive function. The assessment of ovarian reserve is an urgent task for clinical practice [1] and is important in scientific research. The use of computerized diagnostic image processing methods can accelerate and facilitate the performance of routine tasks in clinical practice. Their use in retrospective ...
Added: February 21, 2026
Токенизация недвижимости: новые формы инвестирования и сопутствующие правовые риски
Panarina M., Законы России: опыт, анализ, практика 2025 № 10 С. 69–73
В условиях цифровой трансформации гражданско-правовых отношений и цифровизации гражданского оборота последовательно развиваются новые формы владения и управления активами с использованием технологий блокчейн и токенов. При приобретении токенов на недвижимость на специализированных площадках операторов информационных систем («Атомайз», СберБанк, «А-токен») от девелоперов правообладателю такого токена предлагают приобрести «цифровой квадратный метр», «электронный сертификат», «аналог ценной бумаги», «часть квартиры». ...
Added: October 6, 2025
Невзаимозаменяемые токены (NFT) и токенизация в спорте: сравнительный анализ правового регулирования
Khusainov G., Евразийский юридический журнал 2025 № 9 (208) С. 167–171
This article provides a comprehensive analysis of the legal aspects of applying distributed ledger technology (blockchain) and tokenization of assets in the field of physical culture and sports. It examines key areas of implementation for these technologies, including the issuance of tokenized assets, the release of non-fungible tokens (NFTs), the creation of loyalty systems based ...
Added: October 2, 2025
Цифровые финансовые активы как объекты имущественных отношений: актуальные вопросы теории и практики
Polezhaev O., Новоселова Л. А., Власть Закона 2021 С. 75–91
В статье рассмотрены вопросы регулирования отношений, возникающих в сфере цифровых финансовых активов. Авторами освещены основные теоретические и практические недостатки введенного правового регулирования отношений, связанных с оборотом таких активов. Согласно авторской позиции, отечественный законодатель сформировал несколько моделей цифровизации прав, формирующих содержание ценных бумаг, характеризующихся непоследовательностью и противоречивостью. Не разработана последовательная система законодательного регулирования отношений, возникающих в ...
Added: October 1, 2025
Автоматизированная система проверки файлов, содержащих программный код, на наличие заимствований
Bubnova M., Информационные технологии 2025 Т. 31 № 9 С. 496–503
The article outlines the results of developing a system designed to identify plagiarism in files containing program code. The automated system integrates multiple methods of program code analysis. It serves as a decision-support tool for university instructors by enabling the detection of assignments with plagiarism levels exceeding a predefined threshold. The system is specifically designed ...
Added: May 11, 2025
Disambiguation in context in the Russian National Corpus: 20 yeas later
Lyashevskaya O., Afanasev I., Stefan Rebrikov et al., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 307–318.
An updated annotation of the Main, Media, and some other corpora of the Russian National Corpus (RNC) features the part-of-speech and other morphological information, lemmas, dependency structures, and constituency types. Transformer-based architectures are used to resolve the homonymy in context according to a schema based on the manually disambiguated subcorpus of the Main corpus (morphology ...
Added: September 15, 2023
Риски и перспективы токенизации творчества
Budnik R., Journal of Digital Technologies and Law 2023 Т. 1 № 3 С. 587–611
Objective: tokenization of creativity, alongside with cryptoeconomy and Web3 network infrastructure, is a notable trend in the development of modern society in the third decade of the 21st century. The objective of this article is to explore the risks and prospects emerging in the process of disposition of the creative labor results in the form ...
Added: August 22, 2023
Определение засвеченных пикселей на изображении
И.В.Семенков, Е.И. Ершов, Савчик А. В., В кн.: Труды 63-й Всероссийской научной конференции МФТИ. Прикладная математика и информатика.: М.: МФТИ, 2020. С. 216–218.
В случае наличия в фотографируемой сцене слишком ярких объектов, сенсор камеры не всегда может правильно определить цвета, так как ставит в соответствие слишком ярким пикселям максимальное значение, которое сенсор способен зарегистрировать. Принято считать, что засвеченный пиксель - это пиксель у которого хотя бы один из каналов достиг максимального значения. Поэтому часто в научной литературе описание ...
Added: December 19, 2022
A hybrid lemmatiser for Old Church Slavonic
Afanasev I., / NRU HSE. Series WP BRP "Linguistics". 2021.
The article considers a lemmatiser that is developed specifically for Old Church Slavonic (OCS). The introduction underlines the problem of the lack of lemmatisers that might deal with different datasets of the OCS. The review gives a short description of previous attempts and current trends in lemmatisation. The lemmatiser is hybrid-based and uses the advantages ...
Added: December 28, 2021
Оттенки "зеленой" коммуникации в ретейле: экономический анализ учета экотренда
Lebedev A. V., Исраелян Е. А., Маркетинговые коммуникации 2021 № 02(114) С. 124–138
During the pandemic, health has become a core value. Grocery retailers realized the benefits of communicating with eco-consumers. The authors identified customer segments based on their attitude to healthy lifestyles. The article provides data on the gender and age structure of consumers with the average values of receipts, describes portraits of different types of eco-consumers ...
Added: June 10, 2021
Spatially intermixed objects of different categories are parsed automatically
Khvostov V., Lukashevich A., Utochkin I. S., Scientific Reports 2021 No. 11 P. 1–8
Added: January 26, 2021
Блокчейн для науки: революционные возможности, перспективы внедрения, потенциальные проблемы
Kosmarsky A., Мониторинг общественного мнения: Экономические и социальные перемены 2019 № 2 С. 388–409
В статье рассматриваются перспективы применения технологии блокчейна (распределенного реестра) в сфере науки. Объясняется, чем ключевые свойства технологии (децентрализация, гарантия неизменности данных, доверие среди не доверяющих друг другу субъектов) могут быть полезны в организации науки. Подробно рассказывается о том, насколько реально работающие проекты в Европе, США и России смогли воплотить в жизнь обещания новой технологии. Описываются ...
Added: January 6, 2021
Стратегические маркетинговые решения
Panteleeva E., В кн.: Маркетинг-менеджмент : учебник и практикум для бакалавриата и магистратуры.: М.: Юрайт, 2018. Гл. 6 С. 117–147.
Перед вами — первый российский учебник по дисциплине «Маркетинг-менеджмент». В нем раскрываются основы маркетинга в XXI в., клиентоориентированность, брендинг и другие темы, знание которых будет полезно как студентам (бакалаврам и магистрам), так и практикующим менеджерам и маркетологам. Вы познакомитесь с особенностями интернет-маркетинга, отношений со стейкхолдерами и создания идей для новых продуктов и услуг. ...
Added: September 29, 2020
Подходы к сегментации потребителей экологических продуктов
Никоноров С. М., Lebedev A. V., Аверьянова Л. С., Маркетинг в России и за рубежом 2020 № 1 С. 26–36
Environmental marketing is aimed at satisfying the desires of consumers, taking into account the minimal impact on the environment. Its goal is a growing number of eco-conscious consumers. The article is intended to expand the research base of Russian consumers of environmentally friendly products, identify segments to improve the effectiveness of marketing activities. In a ...
Added: June 19, 2020
Биржа токенизированных активов для превращения их в рыночный товар
Senin V., Davydov V., Шмонов М. М., Бизнес. Общество. Власть 2019 № 2 (32) С. 196–211
В статье приведён пример платформы токенизированных активов на финансовом рынке. Рассмотрены области применения токенизированных активов для участников финансового рынка. Описаны правовая база и финансовая модель токенизации кредитного портфеля коммерческого банка. Приведена методика расчета процентной ставки пакета токенов, состоящего из токенов различных кредитов, а также алгоритм расчета размера токена для кредита с заданными параметрами PD и ...
Added: October 23, 2019
The Rapid Segmentation of Multiple Objects Is Based On Global Rather Than Local Sampling
Khvostov V., Utochkin I. S., Stakina Y., Perception 2019 Vol. 48 No. SI P. 126–126
We previously showed that people can discriminate multiple intermixed groups of objects based on "segmentability," large gaps between values in feature distributions forming several peaks. Here, we test whether such discrimination is based on local or global sampling. Two arrays of lines of various orientation (O) and length (L) were presented; both had identical feature ...
Added: August 12, 2019
A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian
Lyashevskaya O., , in: Computational Linguistics and Intellectual TechnologiesIssue 18.: M.: Russian State University for the Humanitie, 2019. P. 422–434.
The paper discusses the standardization efforts to create a morphological standard for the Middle Russian corpus, which is part of the historical collection of the Russian National Corpus (RNC). To meet the needs of different categories of corpus researchers as well as NLP developers, we consider two styles of the morphological annotation (RNC schema and ...
Added: June 12, 2019
Continuous to discrete: Ensemble-based segmentation in the perception of multiple feature conjunctions
Utochkin I. S., Khvostov V., Stakina Y., Cognition 2018 Vol. 179 P. 178–191
Although objects around us vary in a number of continuous dimensions (color, size, orientation, etc.), we tend to perceive the objects using more discrete, categorical descriptions (e.g., berries and leaves). Previously, we described howcontinuous ensemblestatistics ofsimple featuresaretransformedinto categorical classes: Thevisual system tests whether the feature distribution has one or several peaks, each representing a likely ...
Added: June 25, 2018
  • About
  • About
  • Key Figures & Facts
  • Sustainability at HSE University
  • Faculties & Departments
  • International Partnerships
  • Faculty & Staff
  • HSE Buildings
  • HSE University for Persons with Disabilities
  • Public Enquiries
  • Studies
  • Admissions
  • Programme Catalogue
  • Undergraduate
  • Graduate
  • Exchange Programmes
  • Summer University
  • Summer Schools
  • Semester in Moscow
  • Business Internship
  • Research
  • International Laboratories
  • Research Centres
  • Research Projects
  • Monitoring Studies
  • Conferences & Seminars
  • Academic Jobs
  • Yasin (April) International Academic Conference on Economic and Social Development
  • Media & Resources
  • Publications by staff
  • HSE Journals
  • Publishing House
  • iq.hse.ru: commentary by HSE experts
  • Library
  • Economic & Social Data Archive
  • Video
  • HSE Repository of Socio-Economic Information
  • HSE1993–2026
  • Contacts
  • Copyright
  • Privacy Policy
  • Site Map
Edit