?
Цифровые филологические практики: проект «Chekhov Digital»
В статье рассматривается роль «цифровых практик» в формировании междисциплинарности гуманитарного знания, особенности разработки цифровых гуманитарных проектов в области филологии. Рассмотрена модель разработки цифрового проекта в области подготовки семантической разметки литературных изданий Chekhov Digital, который представляет собой цифровую публикацию академического Полного собрания сочинений и писем А. П. Чехова. Цель проекта – разработка машиночитаемой (семантической) разметки текстов писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI). В рамках проекта уточняются стандарты для подготовки цифровых русскоязычных изданий, формулируются концептуальные и технические условия реализации, разрабатывается инфраструктура и новые методы исследования. Разработана структура машиночитаемой аннотации документов, позволяющая разметить смысловые сущности в чеховских текстах, примечаниях и комментариях для организации семантического поиска по корпусу текстов писателя. Для уточнения разметки смысловых сущностей в произведениях А. П. Чехова использованы методы автоматической обработки текстов, включая тематическое моделирование и семантические векторные модели для изучения важнейших авторских концептов; корпусные методы исследования непосредственных контекстов употребления вербальных репрезентаций концептов. Концептуальный анализ позволил провести реконструкцию авторских концептов в контексте разметки смысловых сущностей. Для разметки имен и названий реально существовавших людей и объектов создана специализированная база данных, основанная на указателях к письмам. В рамках проекта реализован принцип открытых исследовательских данных (Open Data), одной из целей которого является создание научных сообществ вокруг данных. Работа над проектом привела к развитию научного сотрудничества Центров цифровых гуманитарных исследований НИУ ВШЭ и ЮФУ.