Статья
«Тамань сегодня»: корпусное исследование русского языка XIX века
Работа представляет проект Школы лингвистики НИУ ВШЭ по описанию языка XIX века. Он касается мониторинга изменений, которые претерпел русский язык — и прежде всего, конструкции русского языка — первой трети XIX века по сравнению с началом века XXI. Эти изменения, часто затрагивающие (как это бывает именно в конструкциях) одновременно лексику, морфологию и синтаксис, могут быть малозаметны, но нуждаются в регистрации и обобщении. В докорпусную эпоху многие из них были еще не видны авторам классических трудов по русскому историческому синтаксису — В.В. Виноградову, Н.Ю. Шведовой, Л.А. Булаховскому и др. Материалом проекта служат поздние прозаические тексты М.Ю. Лермонтова. Техническая задача состоит в их сплошной̆ корпусной разметке по выработанной̆ нами системе внутри специально построенного компьютерного ресурса и соотнесении результатов этой̆ разметки с современными языковыми данными, в том числе, экспериментальными. Создаваемый ресурс предназначен для широкого круга специалистов — исследователей истории русского языка, преподавателей, студентов-филологов и лингвистов, а также для всех, кто интересуется русской литературой соответствующего периода.
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
В статье описывается решения задачи выделения групп слов из синтаксически связанных конструкций, которые в свою очередь выделяются из содержимого текстового файла с исходными данными. Решение задачи производится при помощи языка программирования Python с использованием библиотек NLTK и Pymorphy.
В работе дается оценка алгоритма лемматизации несловарных словоформ (единиц текста, которые словарно-ориентированный морфологический анализатор не может вывести из данных исходного словаря). Представленный алгоритм устанавливает парадигматические отношения внутри массива словоформ, подбирая оптимальное членение словоформы на псевдооснову и псевдоокончание. Показано, что соединение методов простой и сложной кластеризации эффективно для морфологического пост–процессинга больших объемов текста.
Данная статья посвящена использованию корпусных данных в исследовании дискурсивных характеристик наименования человека в английском языке. На примере анализа конкретной группы английских синонимов, указывающих на человека human being, man, person, personality, individual, раскрываются некоторые возможности, предоставляемые лексикографическими корпусами для дискурсивных исследований
В российской компьютерной лингвистике до сих пор нет ресурсов, аналогичных FrameNet, VerbNet и PropBank, в которых можно было бы получить иллюстрации глагольного и именного управления, а также периферийных лексически ориентированных конструкций. В работе описываются задачи создания и структура FrameNet-ориентированной системы, предназначенной для исследования морфологических, синтаксических, семантических и лексических ограничений в русских конструкциях.
В статье обсуждается использование Национального корпуса русского языка для социолингвистических исследований. Предлагается использовать имеющуюся в Устном корпусе разметку по полу говорящего в качестве основы для статистического анализа различий между речью мужчин и женщин. Подробно обсуждаются результаты одного направления анализа — сравнительная длина высказываний (реплик) мужчин и женщин, измеренная в количестве словоформ. Обнаружена статистическая значимость различий по этому параметру между мужчинами и женщинами в публичной коммуникации — мужчины говорят больше женщин — при отсутствии статистически значимых различий в частной коммуникации. Также значимым оказывается пол адресата, причем корреляция снова носит существенно разный характер в подкорпусе публичной и частной речи. В частной коммуникации реплики говорящего оказываются несколько длиннее в разговоре с человеком того же пола; в публичной коммуникации реплики говорящего оказываются существенно длиннее при обращении к женщине, чем к мужчине, вне зависимости от пола говорящего. Эти выводы хорошо согласуются с результатами гендерных исследований в западной социолингвистике: различия между мужской и женской речью не абсолютны, но зависят от ситуации общения; публичный дискурс является ареной языкового соревнования, в котором преимущество остается за мужчинами, в то время как в частной коммуникации соревновательность исчезает.
Методические указания содержат указания по выполнению курсового проекта, связанного с проектированием печтаной платы.
Анализ современного общества, пронизанного медиа, ведется с позиций этнометодологического подхода и представляет собой попытку ответа на кардинальный вопрос: что представляют собой наблюдаемые упорядоченности событий, транслируемых массовыми посредниками. Исследование ритуалов идет по двум основным направлениям: во-первых, в организационно-производственной системе медиа, ориентированной на постоянное воспроизводство, в основе которого лежит трансмиссионная модель и различение информация/неинформация и, во-вторых, в анализе восприятия этих сообщений аудиторией, представляющей собой реализацию ритуальной, или экспрессивной, модели, результатом которой является разделенный опыт. Это и означает ритуальный характер современных медиа.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010-2012 гг.
Представлены результаты кросскультурного исследования взаимосвязи социального капитала и экономических представлений у русских (N=150) и китайцев (N=105). Выявлены различия в социальном капитале и экономических представлениях русских и китайцев. В обеих группах социальный капитал позитивно взаимосвязан с «продуктивными» экономическими представлениями и большинство взаимосвязей схожи по своей логике, однако существуют и культурная специфика.
Человечество переживает смену культурно-исторических эпох, что связано с превращением сетевых медиа в ведущее средство коммуникации. Следствием «дигитального раскола» оказываются изменения в социальных разделениях: наряду с традиционным «имущие и неимущие» возникает противостояние «онлайновые (подключенные) versus офлайновые (неподключенные)». В этих условиях теряют значение традиционные межпоколенческие различия, решающим оказывается принадлежность к той или иной информационной культуре, на основе которой формируются медиапоколения. В работе анализируются многообразные последствия осетевления: когнитивные, возникающие при использования «умных» вещей с дружественным интерфейсом, психологические, порождающие сетевой индивидуализм и нарастающую приватизацию общения, социальные, воплощающие «парадокс пустой публичной сферы». Показана роль компьютерных игр как «заместителей» традиционной социализации и образования, рассматриваются превратности знания, теряющего свое значение. В условиях избытка информации самым дефицитным на сегодня человеческим ресурсом оказывается человеческое внимание. Поэтому новые принципы ведения бизнеса можно определить как менеджмент внимания.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010–2012 гг.