?
О подготовке к веб-публикации корпуса повседневной русской речи «Один речевой день»: анонимизация текстов и выборочное кодирование лексики
Речевой корпус «Один речевой день» (ОРД) является на сегодняшний день крупнейшим лингвистическим ресурсом, предназначенным для исследования русского языка повседневного общения. Несмотря на высокий научный потенциал материалов корпуса, эффек-тивность его использования до сих пор существенно ограничена фактом закрытости ресурса для широкого круга пользователей, что вызвано частным характером большинства звукозаписей повседневной речи. Компромиссным решением представляется веб-публикация анонимизированных текстовых расшифровок корпуса ОРД. В статье рассматриваются основные сложности, возникающие при подготовке текстовок корпуса ОРД к онлайн публикации, связанные с анонимизацией текстов и их «цензурной» редактурой, и намечаются пути их решения.