• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
30 июня 2026 г.
Аспирантка НИУ ВШЭ получила премию за выдающуюся научную статью
Международное научное общество по коллективному выбору и экономике благосостояния — Society for Social Choice and Welfare (SSCW) — присудило награду для молодых исследователей Ангелине Юдиной, аспирантке и преподавателю департамента математики ФЭН, младшему научному сотруднику Международного центра анализа и выбора решений НИУ ВШЭ. Ученые отметили ее статью, посвященную решениям задачи выбора наилучших альтернатив на основании результатов их попарных сравнений.
30 июня 2026 г.
«Я хотела бы, чтобы мои исследования помогали делать мир спокойнее и лучше»
Какую бы задачу ни решала младший научный сотрудник Лаборатории методов анализа больших данных Института искусственного интеллекта и цифровых наук ФКН ВШЭ Сараа Али, она думает, какую пользу она может принести людям. О своей большой семье, диагностике трехфазных двигателей и мечте построить на родине детский приют она рассказала проекту «Молодые ученые Вышки».
30 июня 2026 г.
Экономисты ВШЭ научились прогнозировать рождаемость по поисковым запросам
Сотрудники факультета экономических наук НИУ ВШЭ показали, что точность прогноза рождаемости в России можно улучшить почти в полтора раза, если добавить в модель динамику поисковых запросов по темам, связанным с беременностью и родами. В наиболее эффективных моделях ошибка прогноза снижается с 4,6 до 3,2%. Результаты исследования опубликованы в журнале Populations and Economics.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем

С. 16–24.
Сенина А. В., Исмакаева И. Д.

Рассматриваются возможности применения веб-скрейпинга для формирования корпуса текстов на примере системы «Пермская губернская периодика: 1914-1922». Веб-скрейпинг дополняет функционал источнико-ориентированной информационной системы, гибко настраивается под задачи исследования, позволяет извлечь полную информацию об источниках. Представленная в докладе программа, написанная на языке программирования Python, выполняет автоматизированный сбор информации, очищает и обрабатывает корпус текстов для задач исследования. Программа - скрейпер информации используется в качестве средства поддержки научных исследований. Результатом выполнения программы стал подготовленный датафрейм с атрибутами статей и корпус текстов. Блокнот с кодом Python выложен в открытом доступе, что позволяет использовать его для сбора структурированной информации и адаптировать под иные информационные системы.

Язык: русский
Полный текст
Текст на другом сайте
Ключевые слова: корпусисторико-ориентированные информационные системы веб-скрейпингпрограммирование в гуманитарных исследованиях

В книге

Шестая зимняя школа по гуманитарной информатике
Калининград: Балтийский федеральный университет им. Иммануила Канта, 2022.
Похожие публикации
От вина до самогона: топика пьянства в студенческих песнях
Воробьев В. А., В кн.: Толока: сборник статей к 60-летию А.Б. Мороза.: М.: РГГУ, 2025. С. 127–152.
Топика пьянства значима в студенческих песнях и выражается через определенную лексику, прежде всего наименования алкоголя. В статье рассмотрена группа из свыше 400 вхождений в трех корпусах (более 500 текстов) в сопоставлении с социальным и историко-культурным контекстом бытования песен. Анализируется сочетаемость номинаций напитков в песне со статистическими данными, их связь с другими группами лексических единиц, а также типологические сходства топики пьянства ...
Добавлено: 9 октября 2025 г.
АВТОМАТИЗАЦИЯ СБОРА ДАННЫХ С САЙТОВ НЕДВИЖИМОСТИ И АНАЛИЗ МОСКОВСКОГО РЫНКА ЖИЛЬЯ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНОЙ СРЕДНЕЙ ЦЕНЫ КВАДРАТНОГО МЕТРА
Чурбанов Р. Р., Правовая информатика 2025 № 3 С. 79–89
В статье описывается интегрированное решение для автоматизированного сбора детализированных данных о предложениях квартир на первичном и вторичном рынках жилья Москвы и их аналитической обработки. Решение объединяет программные средства веб-скрейпинга (парсинг HTML-кода сайтов недвижимости с помощью Python) с хранилищем данных на базе Microsoft SQL Server и системой интерактивной визуализации в Microsoft Power BI. Основной аналитический показатель ...
Добавлено: 28 августа 2025 г.
Специфика разметки мультимодального корпуса эмоциональной речи
Куликова Е. Р., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 9.1 С. 399–411.
Добавлено: 29 ноября 2024 г.
Теоретическая семантика и идеографическая лексикография: Словарь. Дискурс. Корпус: тезисы докладов Всероссийской науч. конф. с международным участием. 17-18 октября 2024, Екатеринбург
Екатеринбург: Кабинетный ученый, 2024.
В сборнике представлены тезисы докладов разных научных школ, обединенные проблемами семантики и лексикографии. ...
Добавлено: 21 октября 2024 г.
Язык Л. Н. Толстого: корпусный подход и интроспекция
Орехов Б. В., Труды института русского языка им. В.В. Виноградова 2024 № 1(39) С. 67–73
В середине XX в. внимательный читатель и ценитель русской литературы Александр Биск, находившийся в тот момент в эмиграции, публикует статью в журнале, специализирующемся на проблемах преподавания русского языка для иностранцев. В этой статье он делится результатами медленного чтения произведений Л. Н. Толстого, прежде всего, романа «Война и мир». Опираясь на собственные представления о языковой норме ...
Добавлено: 23 апреля 2024 г.
Национальный корпус русского языка 2.0: новые возможности и перспективы развития
Савчук С. О., Архангельский Т. А., Бонч-Осмоловская А. А. и др., Вопросы языкознания 2024 № 2 С. 7–34
В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020-2023 годах. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ...
Добавлено: 21 марта 2024 г.
Исследовательский потенциал корпуса советских песен: эмоциональная тональность и география песенных текстов через призму компьютерных технологий
Колмогорова А. В., Зарембо В. С., Ткачева Е. С. и др., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 10 С. 423–445.
Цель данного исследования – описать характеристики текста популярной советской песни как лингвоидеологического феномена. В качестве материала используется корпус советской песни, собранный исследовательской группой. В фокусе данной публикации – две характеристики: изменения эмоциональной тональности популярных песен, выпускавшихся на граммпластинках фирмой «Мелодия» в разные периоды советской эпохи, и города, упоминавшиеся в песнях с 1950 по 2000 гг. ...
Добавлено: 10 декабря 2023 г.
ИССЛЕДОВАНИЕ СЕМАНТИКИ СЛОВ С ПОЗИЦИЙ ЯЗЫКОВЫХ КАТЕГОРИЙ (НА ПРИМЕРЕ АНГЛИЙСКИХ СИНОНИМОВ С ОБЩИМ ЗНАЧЕНИЕМ ХИТРЫЙ)
Лукошус О. Г., Филологические науки. Вопросы теории и практики 2020 Т. 13 № 4 С. 130–134
Цель статьи заключается в описании роли языковой категоризации в исследовании семантической структуры прилагательных, составляющих синонимичный ряд. Новизна работы состоит в том, что в ней впервые уточнены дифференциальные признаки и языковые категории, характеризующие семантику выбранных для изучения синонимов. Полученные результаты анализа словарных дефиниций английских синонимов с общим значением «хитрый» и корпусного анализа их употреблений показали наличие ...
Добавлено: 28 сентября 2022 г.
Семантический анализ синонимов с помощью корпуса СОСА
Лукошус О. Г., Казанская наука 2021 № 1 С. 98–102
Статья посвящена семантическому анализу английских прилагательных faithful, devoted, dedicated. С помощью корпусного анализа (СОСА) автор раскрывает основные особенности, характеризующие каждую из исследуемых лексических единиц. Проведённое исследование позволило выявить сходные компоненты значения исследуемых синонимов, которые делают возможной замену одной лексемы другой в некоторых контекстах, а также раскрыть отличительные характеристики, делающие подобную замену невозможной. ...
Добавлено: 28 сентября 2022 г.
Цифровой архив литературного журнала с дореформенной орфографией «Отечественные Записки» (1839-1884)
Заковоротная Е. М., Клышинский Э. С., Волошина Е. Ю. и др., Компьютерная лингвистика и интеллектуальные технологии 2021 Т. дополнительный № 20 С. 1239–1244
В данной статье представлена начальная версия цифрового архива литературного журнала с дореформенной орфографией «Отечественные Записки». Корпус содержит десять томов, размеченных в формате XML, и насчитывает более 2 млн слов. Для доступа к архиву разработан веб-интерфейс, с помощью которого пользователи смогут проводить поиск по корпусу, скачивать тома «Отечественных Записок» в машиночитаемом формате и редактировать выпуски журнала ...
Добавлено: 6 июня 2022 г.
Тексты св. Августина в русской книжной традиции XV–XVIII вв.: к проблеме формирования корпуса
Преображенская А. А., В кн.: Европа в Средние века и Новое время: Общество. Власть. Культура. Материалы IX Всероссийской, с международным участием, научной конференции молодых ученых. Ижевск, 23–24 ноября 2021 г.: Ижевск: Удмуртский университет, 2022. С. 95–102.
Статья посвящена проблеме формирования корпуса текстов, связанных с именем св. Августина, епископа Гиппонского (переводов его сочинений, разнообразных выдержек из них, текстов о нем), и бытовавших на Руси в период Средневековья и раннего Нового времени. Приводится краткий и выборочный обзор переводов сочинений Августина, памятников, содержащих цитаты и выдержки из его трудов, а также сочинений о епископе. Перечисляются как ...
Добавлено: 30 мая 2022 г.
МЕТАФОРЫ ДЕПРЕССИИ, ТРЕВОГИ И ГНЕВА В ТЕРАПЕВТИЧЕСКОМ ДИСКУРСЕ
Цыгунова М. М., Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал 2021 № 4 С. 136–152
В обзоре анализируются место и роль метафоры в концептуализации депрессии, тревоги и гнева. Рассматриваются примеры из материалов корпусов: записи блогов, форумов и транскриптов сеансов психотерапии. Исследуется роль образно-схематической метафоры при описании тех же расстройств пациентами в терапевтическом дискурсе. ...
Добавлено: 2 ноября 2021 г.
Good Intentions Exploited Badly: Contested Metaphors of Russian Patriotism
Inna Skrynnikova, Пермякова Т. М., Поздеева Е. В., Journal of Intercultural Communication Research 2022 Vol. 51 No. 4 P. 343–360
Добавлено: 27 августа 2021 г.
Цены растут, зарплата падает: актантная структура глаголов ‘увеличения’ и ‘уменьшения’ в русском языке
Апресян В. Ю., Russian Journal of Linguistics 2022 Т. 26 № 1 С. 194–223
В работе на примере глаголов ‘увеличения’ и ‘уменьшения’ (увеличиться, уменьшиться, упасть, опуститься, подняться, рухнуть, обвалиться, вырасти, сократиться) показывается влияние когнитивных факторов на изменение синтаксических свойств предикатов при переходе от прямого значения к переносному. Исследование опирается на данные  корпусов НКРЯ и ruskell.sketchengine.co.uk. С  помощью анализа коллокаций сравниваются семантические и синтаксические свойства глаголов данных групп в прямом ...
Добавлено: 9 мая 2020 г.
К вопросу о согласовании времен в современном русском языке: Корпусное исследование дистрибутивных характеристик временных форм в сентенциальных актантах
Шнитке Е. Л., Вопросы языкознания 2020 № 3 С. 26–51
В работе исследуется вариативность глагольных временных форм в сентенциальных актантах, подчиненных глаголу в прошедшем времени и выражающих одновременный таксис с  матричной клаузой.  Одним из решающих  факторов, влияющих на  выбор временной формы, в литературе называется обычно принадлежность матричного глагола к тому или иному семантическому классу. В частности, считается, что глаголы речи не терпят прошедшего  времени в ...
Добавлено: 23 октября 2019 г.
Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы
Хазова А. Б., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2020 Т. 18 № 1 С. 22–32
Статья посвящена изучению методов автоматического определения гендерной идентичности авторов на материале художественной прозы 1960-2000 годов. Цель данной работы - выявление оптимальных методов автоматического определения гендерной идентичности авторов. Задачи данного исследования включают в себя выделение грамматических стилистических особенностей художественной прозы 1960-2000 годов и, в особенности, женской прозы, а также текстов XVIII - XIX в.; отслеживание изменений в ...
Добавлено: 3 октября 2019 г.
Omnia Russica: Even Larger Russian Corpus
Шаврина Т. О., Benko V., , in: Труды международной конференции "Корпусная лингвистика - 2019".: СПб.: Издательство Санкт-Петербургского университета, 2019. Ch. 13 P. 94–102.
Добавлено: 9 сентября 2019 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору