• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.
14 мая 2026 г.
<a>Ученые ФКН ВШЭ представили работы в сфере ИИ и биоинформатики на ICLR 2026
Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭи студенты трека «ИИ360: Инженерия искусственного интеллекта» бакалаврской программы «Прикладная математика и информатика» приняли участие в международной конференции ICLR — одном из самых авторитетных мировых форумов в области машинного обучения и представления данных. В этом году конференция состоялась в Рио-де-Жанейро (Бразилия).

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем

С. 16–24.
Сенина А. В., Исмакаева И. Д.

Рассматриваются возможности применения веб-скрейпинга для формирования корпуса текстов на примере системы «Пермская губернская периодика: 1914-1922». Веб-скрейпинг дополняет функционал источнико-ориентированной информационной системы, гибко настраивается под задачи исследования, позволяет извлечь полную информацию об источниках. Представленная в докладе программа, написанная на языке программирования Python, выполняет автоматизированный сбор информации, очищает и обрабатывает корпус текстов для задач исследования. Программа - скрейпер информации используется в качестве средства поддержки научных исследований. Результатом выполнения программы стал подготовленный датафрейм с атрибутами статей и корпус текстов. Блокнот с кодом Python выложен в открытом доступе, что позволяет использовать его для сбора структурированной информации и адаптировать под иные информационные системы.

Язык: русский
Полный текст
Текст на другом сайте
Ключевые слова: корпусисторико-ориентированные информационные системы веб-скрейпингпрограммирование в гуманитарных исследованиях

В книге

Шестая зимняя школа по гуманитарной информатике
Калининград: Балтийский федеральный университет им. Иммануила Канта, 2022.
Похожие публикации
От вина до самогона: топика пьянства в студенческих песнях
Воробьев В. А., В кн.: Толока: сборник статей к 60-летию А.Б. Мороза.: М.: РГГУ, 2025. С. 127–152.
Топика пьянства значима в студенческих песнях и выражается через определенную лексику, прежде всего наименования алкоголя. В статье рассмотрена группа из свыше 400 вхождений в трех корпусах (более 500 текстов) в сопоставлении с социальным и историко-культурным контекстом бытования песен. Анализируется сочетаемость номинаций напитков в песне со статистическими данными, их связь с другими группами лексических единиц, а также типологические сходства топики пьянства ...
Добавлено: 9 октября 2025 г.
АВТОМАТИЗАЦИЯ СБОРА ДАННЫХ С САЙТОВ НЕДВИЖИМОСТИ И АНАЛИЗ МОСКОВСКОГО РЫНКА ЖИЛЬЯ С ИСПОЛЬЗОВАНИЕМ ЛОКАЛЬНОЙ СРЕДНЕЙ ЦЕНЫ КВАДРАТНОГО МЕТРА
Чурбанов Р. Р., Правовая информатика 2025 № 3 С. 79–89
В статье описывается интегрированное решение для автоматизированного сбора детализированных данных о предложениях квартир на первичном и вторичном рынках жилья Москвы и их аналитической обработки. Решение объединяет программные средства веб-скрейпинга (парсинг HTML-кода сайтов недвижимости с помощью Python) с хранилищем данных на базе Microsoft SQL Server и системой интерактивной визуализации в Microsoft Power BI. Основной аналитический показатель ...
Добавлено: 28 августа 2025 г.
Специфика разметки мультимодального корпуса эмоциональной речи
Куликова Е. Р., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 9.1 С. 399–411.
Добавлено: 29 ноября 2024 г.
Теоретическая семантика и идеографическая лексикография: Словарь. Дискурс. Корпус: тезисы докладов Всероссийской науч. конф. с международным участием. 17-18 октября 2024, Екатеринбург
Екатеринбург: Кабинетный ученый, 2024.
В сборнике представлены тезисы докладов разных научных школ, обединенные проблемами семантики и лексикографии. ...
Добавлено: 21 октября 2024 г.
Язык Л. Н. Толстого: корпусный подход и интроспекция
Орехов Б. В., Труды института русского языка им. В.В. Виноградова 2024 № 1(39) С. 67–73
В середине XX в. внимательный читатель и ценитель русской литературы Александр Биск, находившийся в тот момент в эмиграции, публикует статью в журнале, специализирующемся на проблемах преподавания русского языка для иностранцев. В этой статье он делится результатами медленного чтения произведений Л. Н. Толстого, прежде всего, романа «Война и мир». Опираясь на собственные представления о языковой норме ...
Добавлено: 23 апреля 2024 г.
Национальный корпус русского языка 2.0: новые возможности и перспективы развития
Савчук С. О., Архангельский Т. А., Бонч-Осмоловская А. А. и др., Вопросы языкознания 2024 № 2 С. 7–34
В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020-2023 годах. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ...
Добавлено: 21 марта 2024 г.
Исследовательский потенциал корпуса советских песен: эмоциональная тональность и география песенных текстов через призму компьютерных технологий
Колмогорова А. В., Зарембо В. С., Ткачева Е. С. и др., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 10 С. 423–445.
Цель данного исследования – описать характеристики текста популярной советской песни как лингвоидеологического феномена. В качестве материала используется корпус советской песни, собранный исследовательской группой. В фокусе данной публикации – две характеристики: изменения эмоциональной тональности популярных песен, выпускавшихся на граммпластинках фирмой «Мелодия» в разные периоды советской эпохи, и города, упоминавшиеся в песнях с 1950 по 2000 гг. ...
Добавлено: 10 декабря 2023 г.
ИССЛЕДОВАНИЕ СЕМАНТИКИ СЛОВ С ПОЗИЦИЙ ЯЗЫКОВЫХ КАТЕГОРИЙ (НА ПРИМЕРЕ АНГЛИЙСКИХ СИНОНИМОВ С ОБЩИМ ЗНАЧЕНИЕМ ХИТРЫЙ)
Лукошус О. Г., Филологические науки. Вопросы теории и практики 2020 Т. 13 № 4 С. 130–134
Цель статьи заключается в описании роли языковой категоризации в исследовании семантической структуры прилагательных, составляющих синонимичный ряд. Новизна работы состоит в том, что в ней впервые уточнены дифференциальные признаки и языковые категории, характеризующие семантику выбранных для изучения синонимов. Полученные результаты анализа словарных дефиниций английских синонимов с общим значением «хитрый» и корпусного анализа их употреблений показали наличие ...
Добавлено: 28 сентября 2022 г.
Семантический анализ синонимов с помощью корпуса СОСА
Лукошус О. Г., Казанская наука 2021 № 1 С. 98–102
Статья посвящена семантическому анализу английских прилагательных faithful, devoted, dedicated. С помощью корпусного анализа (СОСА) автор раскрывает основные особенности, характеризующие каждую из исследуемых лексических единиц. Проведённое исследование позволило выявить сходные компоненты значения исследуемых синонимов, которые делают возможной замену одной лексемы другой в некоторых контекстах, а также раскрыть отличительные характеристики, делающие подобную замену невозможной. ...
Добавлено: 28 сентября 2022 г.
Цифровой архив литературного журнала с дореформенной орфографией «Отечественные Записки» (1839-1884)
Заковоротная Е. М., Клышинский Э. С., Волошина Е. Ю. и др., Компьютерная лингвистика и интеллектуальные технологии 2021 Т. дополнительный № 20 С. 1239–1244
В данной статье представлена начальная версия цифрового архива литературного журнала с дореформенной орфографией «Отечественные Записки». Корпус содержит десять томов, размеченных в формате XML, и насчитывает более 2 млн слов. Для доступа к архиву разработан веб-интерфейс, с помощью которого пользователи смогут проводить поиск по корпусу, скачивать тома «Отечественных Записок» в машиночитаемом формате и редактировать выпуски журнала ...
Добавлено: 6 июня 2022 г.
Тексты св. Августина в русской книжной традиции XV–XVIII вв.: к проблеме формирования корпуса
Преображенская А. А., В кн.: Европа в Средние века и Новое время: Общество. Власть. Культура. Материалы IX Всероссийской, с международным участием, научной конференции молодых ученых. Ижевск, 23–24 ноября 2021 г.: Ижевск: Удмуртский университет, 2022. С. 95–102.
Статья посвящена проблеме формирования корпуса текстов, связанных с именем св. Августина, епископа Гиппонского (переводов его сочинений, разнообразных выдержек из них, текстов о нем), и бытовавших на Руси в период Средневековья и раннего Нового времени. Приводится краткий и выборочный обзор переводов сочинений Августина, памятников, содержащих цитаты и выдержки из его трудов, а также сочинений о епископе. Перечисляются как ...
Добавлено: 30 мая 2022 г.
МЕТАФОРЫ ДЕПРЕССИИ, ТРЕВОГИ И ГНЕВА В ТЕРАПЕВТИЧЕСКОМ ДИСКУРСЕ
Цыгунова М. М., Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал 2021 № 4 С. 136–152
В обзоре анализируются место и роль метафоры в концептуализации депрессии, тревоги и гнева. Рассматриваются примеры из материалов корпусов: записи блогов, форумов и транскриптов сеансов психотерапии. Исследуется роль образно-схематической метафоры при описании тех же расстройств пациентами в терапевтическом дискурсе. ...
Добавлено: 2 ноября 2021 г.
Good Intentions Exploited Badly: Contested Metaphors of Russian Patriotism
Inna Skrynnikova, Пермякова Т. М., Поздеева Е. В., Journal of Intercultural Communication Research 2022 Vol. 51 No. 4 P. 343–360
Добавлено: 27 августа 2021 г.
Цены растут, зарплата падает: актантная структура глаголов ‘увеличения’ и ‘уменьшения’ в русском языке
Апресян В. Ю., Russian Journal of Linguistics 2022 Т. 26 № 1 С. 194–223
В работе на примере глаголов ‘увеличения’ и ‘уменьшения’ (увеличиться, уменьшиться, упасть, опуститься, подняться, рухнуть, обвалиться, вырасти, сократиться) показывается влияние когнитивных факторов на изменение синтаксических свойств предикатов при переходе от прямого значения к переносному. Исследование опирается на данные  корпусов НКРЯ и ruskell.sketchengine.co.uk. С  помощью анализа коллокаций сравниваются семантические и синтаксические свойства глаголов данных групп в прямом ...
Добавлено: 9 мая 2020 г.
К вопросу о согласовании времен в современном русском языке: Корпусное исследование дистрибутивных характеристик временных форм в сентенциальных актантах
Шнитке Е. Л., Вопросы языкознания 2020 № 3 С. 26–51
В работе исследуется вариативность глагольных временных форм в сентенциальных актантах, подчиненных глаголу в прошедшем времени и выражающих одновременный таксис с  матричной клаузой.  Одним из решающих  факторов, влияющих на  выбор временной формы, в литературе называется обычно принадлежность матричного глагола к тому или иному семантическому классу. В частности, считается, что глаголы речи не терпят прошедшего  времени в ...
Добавлено: 23 октября 2019 г.
Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы
Хазова А. Б., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2020 Т. 18 № 1 С. 22–32
Статья посвящена изучению методов автоматического определения гендерной идентичности авторов на материале художественной прозы 1960-2000 годов. Цель данной работы - выявление оптимальных методов автоматического определения гендерной идентичности авторов. Задачи данного исследования включают в себя выделение грамматических стилистических особенностей художественной прозы 1960-2000 годов и, в особенности, женской прозы, а также текстов XVIII - XIX в.; отслеживание изменений в ...
Добавлено: 3 октября 2019 г.
Omnia Russica: Even Larger Russian Corpus
Шаврина Т. О., Benko V., , in: Труды международной конференции "Корпусная лингвистика - 2019".: СПб.: Издательство Санкт-Петербургского университета, 2019. Ch. 13 P. 94–102.
Добавлено: 9 сентября 2019 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору