?
Подготовка корпуса текстов на основе Python: веб-скрейпинг исторических информационных систем
Рассматриваются возможности применения веб-скрейпинга для формирования корпуса текстов на примере системы «Пермская губернская периодика: 1914-1922». Веб-скрейпинг дополняет функционал источнико-ориентированной информационной системы, гибко настраивается под задачи исследования, позволяет извлечь полную информацию об источниках. Представленная в докладе программа, написанная на языке программирования Python, выполняет автоматизированный сбор информации, очищает и обрабатывает корпус текстов для задач исследования. Программа - скрейпер информации используется в качестве средства поддержки научных исследований. Результатом выполнения программы стал подготовленный датафрейм с атрибутами статей и корпус текстов. Блокнот с кодом Python выложен в открытом доступе, что позволяет использовать его для сбора структурированной информации и адаптировать под иные информационные системы.