• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • HSE University
  • Publications
  • Book chapter
  • Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Priority areas
  • business informatics
  • economics
  • engineering science
  • humanitarian
  • IT and mathematics
  • law
  • management
  • mathematics
  • sociology
  • state and public administration
by year
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • More
Subject
News
May 25, 2026
HSE Scientists Train Neural Network to 'Hear' Faults in Electric Motors
Researchers at the AI and Digital Science Institute of the HSE Faculty of Computer Science have developed a new method—the Signature-Guided Data Augmentation (SGDA) framework—that achieves 99% accuracy in motor fault detection and 86% accuracy in fault classification. The application of this approach can reduce industrial equipment repair costs, minimise downtime, and improve production safety. The study results have been published in Engineering Applications of Artificial Intelligence.
May 25, 2026
'The Humanities Serve as a Conscience'
Maria Mizernaia studies Soviet literature and the history of book publishing. In this interview for the HSE Young Scientists project, she discusses plans to publish a novel about besieged Leningrad, AI-provoked reflections on what it means to be human, and how novels can help satisfy our dopamine hunger.
May 25, 2026
Is It Possible to Predict a Citys Life Based on the Shape of Its Neighbourhoods?
Is it possible to predict, based on the configuration of streets and buildings, where a café will open or where traffic congestion will occur? Participants in the Spatial Analysis and Modelling of Urban Processes research and study group use open data and machine learning to identify universal patterns. Alexander Sheludkov and Eduard Somov discuss the purpose of comparing cities, the need for new forms of urban statistics, and how open data is transforming approaches to urban studies.

 

Have you spotted a typo?
Highlight it, click Ctrl+Enter and send us a message. Thank you for your help!

Publications
  • Books
  • Articles
  • Chapters of books
  • Working papers
  • Report a publication
  • Research at HSE

?

Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем

С. 16–24.
Senina A., Ismakaeva I.
Language: Russian
Full text
Text on another site
Keywords: корпусисторико-ориентированные информационные системы веб-скрейпингпрограммирование в гуманитарных исследованиях

In book

Шестая зимняя школа по гуманитарной информатике
Калининград: Балтийский федеральный университет им. Иммануила Канта, 2022.
Similar publications
От вина до самогона: топика пьянства в студенческих песнях
Воробьев В. А., В кн.: Толока: сборник статей к 60-летию А.Б. Мороза.: М.: РГГУ, 2025. С. 127–152.
The topic of drunkenness plays a significant role in student songs and is expressed through specific vocabulary,  primarily the names of alcoholic beverages. The article examines a group of over 400 occurrences in three corpora (more than 500 texts) in comparison with the social and historical-cultural context of the songs’ existence. The analysis focuses on the ...
Added: October 9, 2025
АВТОМАТИЗАЦИЯ СБОРА ДАННЫХ С САЙТОВ НЕДВИЖИМОСТИ И АНАЛИЗ МОСКОВСКОГО РЫНКА ЖИЛЬЯ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНОЙ СРЕДНЕЙ ЦЕНЫ КВАДРАТНОГО МЕТРА
Чурбанов Р. Р., Правовая информатика 2025 № 3 С. 79–89
The article describes an integrated solution for automated collection of detailed data on apartment listings in the primary and secondary housing markets of Moscow and their analytical processing. The solution combines web scraping tools (parsing HTML code of real estate websites using Python) with a data warehouse based on Microsoft SQL Server and an interactive ...
Added: August 28, 2025
Специфика разметки мультимодального корпуса эмоциональной речи
Куликова Е. Р., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 9.1 С. 399–411.
Added: November 29, 2024
Теоретическая семантика и идеографическая лексикография: Словарь. Дискурс. Корпус: тезисы докладов Всероссийской науч. конф. с международным участием. 17-18 октября 2024, Екатеринбург
Екатеринбург: Кабинетный ученый, 2024.
В сборнике представлены тезисы докладов разных научных школ, обединенные проблемами семантики и лексикографии. ...
Added: October 21, 2024
Язык Л. Н. Толстого: корпусный подход и интроспекция
Orekhov B., Труды института русского языка им. В.В. Виноградова 2024 № 1(39) С. 67–73
The paper presents a corpus check for the series of notes by Alexander Bisk. In the mid-twentieth century, A. Bisk, an attentive reader and expert in Russian literature, who was then in exile, published an article in a journal specializing in the problems of teaching Russian to foreigners. In this article, he shares the results ...
Added: April 23, 2024
Национальный корпус русского языка 2.0: новые возможности и перспективы развития
Савчук С. О., Архангельский Т. А., Bonch-Osmolovskaya A. A. et al., Вопросы языкознания 2024 № 2 С. 7–34
The paper provides an overview of the results of the fundamental reconstruction and modernization project of the National Corpus of the Russian Language platform, carried out from 2020 to 2023. The focus of the paper is on the new opportunities that are opening up for linguists and a wider audience. This includes improving the representativeness ...
Added: March 21, 2024
Исследовательский потенциал корпуса советских песен: эмоциональная тональность и география песенных текстов через призму компьютерных технологий
Kolmogorova A., Зарембо В. С., Ткачева Е. С. et al., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 10 С. 423–445.
The purpose of this study is to describe the characteristics of the text of a popular Soviet song as a linguo-ideological phenomenon. The corpus of Soviet songs collected by the research group is used as material. The focus of this publication is on two characteristics: changes in the emotional tonality of popular songs released on ...
Added: December 10, 2023
ИССЛЕДОВАНИЕ СЕМАНТИКИ СЛОВ С ПОЗИЦИЙ ЯЗЫКОВЫХ КАТЕГОРИЙ (НА ПРИМЕРЕ АНГЛИЙСКИХ СИНОНИМОВ С ОБЩИМ ЗНАЧЕНИЕМ ХИТРЫЙ)
Лукошус О. Г., Филологические науки. Вопросы теории и практики 2020 Т. 13 № 4 С. 130–134
The article considers the role of linguistic categorization when studying the semantic structure of synonymous adjectives. Originality of the paper lies in the fact that for the first time the author identifies differential features and linguistic categories characterizing the semantics of the analysed synonyms. The analysis of lexicographical definitions of the English synonyms with the ...
Added: September 28, 2022
Семантический анализ синонимов с помощью корпуса СОСА
Лукошус О. Г., Казанская наука 2021 № 1 С. 98–102
Статья посвящена семантическому анализу английских прилагательных faithful, devoted, dedicated. С помощью корпусного анализа (СОСА) автор раскрывает основные особенности, характеризующие каждую из исследуемых лексических единиц. Проведённое исследование позволило выявить сходные компоненты значения исследуемых синонимов, которые делают возможной замену одной лексемы другой в некоторых контекстах, а также раскрыть отличительные характеристики, делающие подобную замену невозможной. ...
Added: September 28, 2022
Цифровой архив литературного журнала с дореформенной орфографией «Отечественные Записки» (1839-1884)
Eugeniya Z., Klyshinskiy E., Voloshina E. et al., Компьютерная лингвистика и интеллектуальные технологии 2021 Т. дополнительный № 20 С. 1239–1244
The paper describes an initial version of the digital archive of the literary magazine with the pre-reform orthography «Otechestvennye Zapiski». Today, the corpus contains 10 XML-volumes of the literary magazine (~ 2 mil. words). The web-application of the digital archive allows users to search for words and lemmas in corpus and to edit magazine’s texts ...
Added: June 6, 2022
Тексты св. Августина в русской книжной традиции XV–XVIII вв.: к проблеме формирования корпуса
Preobrazhenskaya A., В кн.: Европа в Средние века и Новое время: Общество. Власть. Культура. Материалы IX Всероссийской, с международным участием, научной конференции молодых ученых. Ижевск, 23–24 ноября 2021 г.: Ижевск: Удмуртский университет, 2022. С. 95–102.
The article is devoted to the problem of building a corpus of Russian medieval texts related to saint Augustine of Hippo. The author provides a brief and selected review of works by st. Augustine, texts containing quotations and fragments of his works, and finally, texts about Augustine. Both well-known and well-researched texts and texts identified by the author are ...
Added: May 30, 2022
МЕТАФОРЫ ДЕПРЕССИИ, ТРЕВОГИ И ГНЕВА В ТЕРАПЕВТИЧЕСКОМ ДИСКУРСЕ
Tsygunova M., Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал 2021 № 4 С. 136–152
В обзоре анализируются место и роль метафоры в концептуализации депрессии, тревоги и гнева. Рассматриваются примеры из материалов корпусов: записи блогов, форумов и транскриптов сеансов психотерапии. Исследуется роль образно-схематической метафоры при описании тех же расстройств пациентами в терапевтическом дискурсе. ...
Added: November 2, 2021
Good Intentions Exploited Badly: Contested Metaphors of Russian Patriotism
Inna Skrynnikova, Permyakova T. M., Pozdeeva E., Journal of Intercultural Communication Research 2022 Vol. 51 No. 4 P. 343–360
Generating and cultivating patriotic sentiments has been universally recognized as being critical for any nation. The originally sacralized Russian patriotism has evolved into an ambiguous concept due to its discrediting in the post-Soviet era. The paper claims that patriotism is an essentially contested concept, frequently employed as a promotional tool in political campaigns, with figurative language serving as a tool for ...
Added: August 27, 2021
Цены растут, зарплата падает: актантная структура глаголов ‘увеличения’ и ‘уменьшения’ в русском языке
Apresyan V., Russian Journal of Linguistics 2022 Т. 26 № 1 С. 194–223
Our study examines the motivation of the syntactic properties of metaphorical verbs in the Russian lexicographic types ‘increase’ and ‘decrease’ (‘fall,’ ‘rise,’ ‘collapse,’ ‘drop,’ etc.). Using corpus research methods, we demonstrate that syntactic properties of metaphorical verbs in these lexicographic types are motivated not so much by their syntactic properties in their direct meanings, but ...
Added: May 9, 2020
К вопросу о согласовании времен в современном русском языке: Корпусное исследование дистрибутивных характеристик временных форм в сентенциальных актантах
Schnittke E., Вопросы языкознания 2020 № 3 С. 26–51
The study examines tense variation in complement and subject clauses subordinate to and co-temporal with matrix past tense verbs in Russian. The semantics of the matrix verb is commonly named as one of the major factors that govern tense choice in complement and subject clauses: verbs of speech are said to exclusively license present tense ...
Added: October 23, 2019
Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы
Khazova A., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2020 Т. 18 № 1 С. 22–32
The article deals with the method of automatic detection of authors ' gender identity on the material of fiction prose of 1980-2000. During this period, there is a special construct, called "women's prose", which is characterized by a special genre and stylistic originality. We set ourselves the task to find out whether the concept of ...
Added: October 3, 2019
Omnia Russica: Even Larger Russian Corpus
Shavrina T., Benko V., , in: Труды международной конференции "Корпусная лингвистика - 2019".: СПб.: Издательство Санкт-Петербургского университета, 2019. Ch. 13 P. 94–102.
This paper focuses on combining Russian open corpus resources into one single source. The article describes the motivation for gradual integration of existing text resources to create a more general project and analyzes in detail the main steps to merge the existing data to formats based on NoSketch Engine corpus standards and interface. ...
Added: September 9, 2019
  • About
  • About
  • Key Figures & Facts
  • Sustainability at HSE University
  • Faculties & Departments
  • International Partnerships
  • Faculty & Staff
  • HSE Buildings
  • HSE University for Persons with Disabilities
  • Public Enquiries
  • Studies
  • Admissions
  • Programme Catalogue
  • Undergraduate
  • Graduate
  • Exchange Programmes
  • Summer University
  • Summer Schools
  • Semester in Moscow
  • Business Internship
  • Research
  • International Laboratories
  • Research Centres
  • Research Projects
  • Monitoring Studies
  • Conferences & Seminars
  • Academic Jobs
  • Yasin (April) International Academic Conference on Economic and Social Development
  • Media & Resources
  • Publications by staff
  • HSE Journals
  • Publishing House
  • iq.hse.ru: commentary by HSE experts
  • Library
  • Economic & Social Data Archive
  • Video
  • HSE Repository of Socio-Economic Information
  • HSE1993–2026
  • Contacts
  • Copyright
  • Privacy Policy
  • Site Map
Edit