?
Корпус русских локальных документов и актов CorRIDA: цели формирования, состав, структура
В статье описывается начальный этап создания лингвистически размеченного корпуса русских локальных документов и актов CorRIDA. В повседневной жизни носители русского языка всё чаще сталкиваются с необходимостью читать и подписывать различные официальные документы. Обычно это так называемые локальные документы, например, «Договоры на оказание платных услуг» или «Информированные согласия». Однако язык локальных документов исследован недостаточно и практически не рассматривался с применением корпусных методов.
Существующие корпусы русского языка пока не предоставляют возможностей для систематического анализа языка документа. Это связано в том числе с проблемами жанровой классификации и разметки нехудожественных текстов. Поэтому формирование корпуса локальных документов является актуальной задачей.
CorRIDA насчитывает 1,5 млн. слов, охватывает тексты, адресованные широким категориям пользователей (клиентам), принадлежащие трём социально значимым доменам (здравоохранение, образование, культура), и содержит в том числе разметку по типам текстов. Целью формирования корпуса является, во-первых, описание локальных документов разных типов через выделение и сравнение их языковых черт, во-вторых, оценка официально-деловых текстов с точки зрения их языковой сложности, удобства для восприятия и понимания «простым носителем» русского языка.
Создание корпуса CorRIDA (Corpus of Russian Internal Documents and Acts, Корпус русских локальных документов и актов) производится в рамках исследования, посвящённого функционированию официальных документов в социальных доменах здравоохранения, культуры и образования. Исследование имеет две
магистральные линии, которые можно условно назвать «перцептивной» и «дескриптивной». В рамках «перцептивного» направления производится анкетирование и интервьюирование носителей русского языка, направленное на выявление доступности официальных документов для восприятия и понимания представителями разных социальных групп.
В рамках «дескриптивного» направления исследования планируется многоаспектное лингвистическое описание текстов документов, выполненное корпусными методами. В частности, мы планируем выяснить, насколько сложен для чтения текст официального документа (точнее, определённые типы текстов), опираясь на языковые свойства собранных в корпусе CorRIDA текстов.