Глава
Семантические фильтры для разрешения многозначности в национальном корпусе русского языка: глаголы
В статье обсуждаются результаты эксперимента по разработке системы семантических фильтров глаголов, используемых для разрешения неоднозначности лексико-семантической разметки в Национальном корпусе русского языка. Основные задачи эксперимента: проверить, в какой степени можно использовать специализированные лексикографические источники для создания таких фильтров (в качестве основного источника использовался словарь глагольного управления [Апресян-Палл 1982]); какие ограничения на актанты (семантические, лексические, грамматические) наиболее значимы для фильтров.
В статье обсуждается использование Национального корпуса русского языка для социолингвистических исследований. Предлагается использовать имеющуюся в Устном корпусе разметку по полу говорящего в качестве основы для статистического анализа различий между речью мужчин и женщин. Подробно обсуждаются результаты одного направления анализа — сравнительная длина высказываний (реплик) мужчин и женщин, измеренная в количестве словоформ. Обнаружена статистическая значимость различий по этому параметру между мужчинами и женщинами в публичной коммуникации — мужчины говорят больше женщин — при отсутствии статистически значимых различий в частной коммуникации. Также значимым оказывается пол адресата, причем корреляция снова носит существенно разный характер в подкорпусе публичной и частной речи. В частной коммуникации реплики говорящего оказываются несколько длиннее в разговоре с человеком того же пола; в публичной коммуникации реплики говорящего оказываются существенно длиннее при обращении к женщине, чем к мужчине, вне зависимости от пола говорящего. Эти выводы хорошо согласуются с результатами гендерных исследований в западной социолингвистике: различия между мужской и женской речью не абсолютны, но зависят от ситуации общения; публичный дискурс является ареной языкового соревнования, в котором преимущество остается за мужчинами, в то время как в частной коммуникации соревновательность исчезает.
Частотный словарь содержит сведения о наиболее употребительных словах современного русского языка. Он создан на основе Национального корпуса русского языка, авторитетного и представительного электронного ресурса. Подкорпус 1950-2007 гг. объемом 92 млн. словоупотреблений включает тексты художественной литературы, средств массовой информации, технические, деловые документы и т.д., а также записи разговорной речи. Словарь представляет разнообразную статистическую информацию для 50 тыс. слов общей лексики и 3 тыс. имен собственных и аббревиатур. Приводятся частотные списки лексики, характерной для публицистики, устной речи и других функциональных жанров, а также списки наиболее употребительных существительных, прилагательных, глаголов и слов других частей речи. Частотный словарь может быть использован в различных приложениях, таких как обучение русскому языку как родному и иностранному, лингвистические исследования, создание русских одноязычных и двуязычных словарей, информационный поиск, обнаружение спама, проверка орфографии и т.д.
В статье приведены примеры, собранные по данным словарей, Национального корпуса русского языка (НКРЯ), наиболее ярко иллюстрирующие объективацию пространства в языковой картине мира. Проанализированные данные лингвистических словарей и энциклопедических источников позволили определить динамику процесса концептуализации и особенности категоризации пространства в русском языковом сознании и осуществить проверку выдвинутых гипотез.
Русская корпусная лингвистика представлена в монографии двумя направлениями. Первая часть включает описание подходов и методов аннотации Национального корпуса русского языка (http://ruscorpora.ru), включая разметку лексико-грамматической, лексико-семантической, семантико-синтаксической и словообразовательной информации. Кроме того, описываются процедуры оценки инструментов автоматической разметки текстов (морфологических и синтаксических парсеров) и идеология создания двух частотных корпусных словарей, общего и лексико-грамматического. Во вторую часть входят исследования грамматики и лексики русского языка с применением квантитативных корпусных методов: изучение грамматических, конструкционных и семантических профилей языковых единиц, в том числе глаголов и глагольных приставок, форм числа имен и пространственных конструкций.
В современной России изучение иностранных языков стало обязательным требованием к получению высшего образования не только в профильных языковых и гуманитарных, но и в рейтинговых неязыковых учреждениях высшего образования. Владение иностранным, преимущественно английским, языком является необходимой составляющей компетентности дипломированных специалистов в любой области их будущей профессиональной деятельности. Между тем знанию родного, русского, языка придается значение лишь на этапе поступления абитуриентов в вуз, что чаще всего предполагает зачисление баллов по результатам ЕГЭ. В дальнейшем процессе обучения студентов преподаватели иностранных языков нередко испытывают трудности не столько в работе над формированием у них инолингвальной компетенции, сколько в
использовании общеязыковых знаний обучаемых, т.е. представлений последних о родном языке как исходном для изучения иноязыковых структур. Вот почему при формировании иноязычной (межкультурной) компетенции в билингвальной коммуникации следует учитывать необходимость поддержания и развития у студентов (в том числе у студентов неязыковых вузов) практики пользования родным, русским, языком.
Обосновывается необходимость создания частотного словаря современного русского языка; дается проспект словаря.
Применение НКРЯ и программ автоматического выравнивания текстов является новым этапом в обучении иностранным языкам, в частности, русскому языку как иностраному. В статье демонстрируются возможности параллельного подкорпуса НКРЯ (на примере русских и польских текстов, а также их переводов) и коллекции выровненных параллельных текстов, созданной при помощи бесплатного программного продукта LF aligner, для последующей разработки творческих лексико-стилистических заданий.