Статья
Методы обнаружения и исправления опечаток: исторический обзор
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
В статье описывается решения задачи выделения групп слов из синтаксически связанных конструкций, которые в свою очередь выделяются из содержимого текстового файла с исходными данными. Решение задачи производится при помощи языка программирования Python с использованием библиотек NLTK и Pymorphy.
В работе дается оценка алгоритма лемматизации несловарных словоформ (единиц текста, которые словарно-ориентированный морфологический анализатор не может вывести из данных исходного словаря). Представленный алгоритм устанавливает парадигматические отношения внутри массива словоформ, подбирая оптимальное членение словоформы на псевдооснову и псевдоокончание. Показано, что соединение методов простой и сложной кластеризации эффективно для морфологического пост–процессинга больших объемов текста.
Данная статья посвящена использованию корпусных данных в исследовании дискурсивных характеристик наименования человека в английском языке. На примере анализа конкретной группы английских синонимов, указывающих на человека human being, man, person, personality, individual, раскрываются некоторые возможности, предоставляемые лексикографическими корпусами для дискурсивных исследований
Учебное пособие представляет собой сборник тестов для проверки и контроля знаний по основным темам грамматики русского языка и предназначено для использования на подготовительных курсах для абитуриентов,а также может быть использовано для работы над текстами по специальности (бизнес, менеджмент).
В российской компьютерной лингвистике до сих пор нет ресурсов, аналогичных FrameNet, VerbNet и PropBank, в которых можно было бы получить иллюстрации глагольного и именного управления, а также периферийных лексически ориентированных конструкций. В работе описываются задачи создания и структура FrameNet-ориентированной системы, предназначенной для исследования морфологических, синтаксических, семантических и лексических ограничений в русских конструкциях.
В статье обсуждается использование Национального корпуса русского языка для социолингвистических исследований. Предлагается использовать имеющуюся в Устном корпусе разметку по полу говорящего в качестве основы для статистического анализа различий между речью мужчин и женщин. Подробно обсуждаются результаты одного направления анализа — сравнительная длина высказываний (реплик) мужчин и женщин, измеренная в количестве словоформ. Обнаружена статистическая значимость различий по этому параметру между мужчинами и женщинами в публичной коммуникации — мужчины говорят больше женщин — при отсутствии статистически значимых различий в частной коммуникации. Также значимым оказывается пол адресата, причем корреляция снова носит существенно разный характер в подкорпусе публичной и частной речи. В частной коммуникации реплики говорящего оказываются несколько длиннее в разговоре с человеком того же пола; в публичной коммуникации реплики говорящего оказываются существенно длиннее при обращении к женщине, чем к мужчине, вне зависимости от пола говорящего. Эти выводы хорошо согласуются с результатами гендерных исследований в западной социолингвистике: различия между мужской и женской речью не абсолютны, но зависят от ситуации общения; публичный дискурс является ареной языкового соревнования, в котором преимущество остается за мужчинами, в то время как в частной коммуникации соревновательность исчезает.
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными аспектами развития современного информационного пространства.
Словарь–справочник содержит более 150 терминов и понятий, а также описание методов и средств разработки, применяемых в информационном поиске.
Может использоваться в качестве справочника по терминологии, существующим прикладным системам и средствам обработки текстовой и фактографической информации.
Для специалистов, занимающихся разработкой технологических решений и программных продуктов в области информационного поиска и извлечения фактографических данных из текстовой информации, а также в области семантического Веба.
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными аспектами современных коммуникационных процессов.
Статья посвящена анализу критических очерков, статей и эссе итальянских писталей, литературных критиков и литературоведов (А. Моравии, И. Кальвино, Ф. Фортини, К. Кассола, К. Салинари), опубликованных в 50-ых гг. XX века в Италии (собранных в сборник ""Доктор Живаго", Италия, 1958", М.: Река времен, 2012 г.) - как реакция на публикацию в Италии романа Нобелевского лауреата по литературе - Бориса Пастернака - "Доктора Живаго".
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными этическими вопросами организационной, профессиональной и межличностной коммуникации.
В статье описываются закономерности реализации эмоциональных высказываний в диалогической и монологической речи. Основное внимание автора обращено на характерные признаки речи говорящего, находящегося в состоянии эмоционального напряжения, и на композиционно-прагматические особенности диалогического и монологического текста.
Недостаточное количество учебных часов и ограниченное владение вторым иностранным языком не способствуют полноценному профессионально ориентированному обучению. Приходится использовать лишь некоторые компоненты профессионального обучения: чтение и реферирование текстов по специальности, поиск профессиональной информации в различных её источниках, ведение личной и деловой переписки. Важный компонент профессиональной деятельности – умение анализировать информацию, представленную в графике, таблице или диаграмме. Необходимость диктуется тем, что данный вид деятельности является частью экзамена, для получения сертификата Test DaF, дающего право на обучение или работу в Германии.
Анализ современного общества, пронизанного медиа, ведется с позиций этнометодологического подхода и представляет собой попытку ответа на кардинальный вопрос: что представляют собой наблюдаемые упорядоченности событий, транслируемых массовыми посредниками. Исследование ритуалов идет по двум основным направлениям: во-первых, в организационно-производственной системе медиа, ориентированной на постоянное воспроизводство, в основе которого лежит трансмиссионная модель и различение информация/неинформация и, во-вторых, в анализе восприятия этих сообщений аудиторией, представляющей собой реализацию ритуальной, или экспрессивной, модели, результатом которой является разделенный опыт. Это и означает ритуальный характер современных медиа.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010-2012 гг.
Представлены результаты кросскультурного исследования взаимосвязи социального капитала и экономических представлений у русских (N=150) и китайцев (N=105). Выявлены различия в социальном капитале и экономических представлениях русских и китайцев. В обеих группах социальный капитал позитивно взаимосвязан с «продуктивными» экономическими представлениями и большинство взаимосвязей схожи по своей логике, однако существуют и культурная специфика.
Человечество переживает смену культурно-исторических эпох, что связано с превращением сетевых медиа в ведущее средство коммуникации. Следствием «дигитального раскола» оказываются изменения в социальных разделениях: наряду с традиционным «имущие и неимущие» возникает противостояние «онлайновые (подключенные) versus офлайновые (неподключенные)». В этих условиях теряют значение традиционные межпоколенческие различия, решающим оказывается принадлежность к той или иной информационной культуре, на основе которой формируются медиапоколения. В работе анализируются многообразные последствия осетевления: когнитивные, возникающие при использования «умных» вещей с дружественным интерфейсом, психологические, порождающие сетевой индивидуализм и нарастающую приватизацию общения, социальные, воплощающие «парадокс пустой публичной сферы». Показана роль компьютерных игр как «заместителей» традиционной социализации и образования, рассматриваются превратности знания, теряющего свое значение. В условиях избытка информации самым дефицитным на сегодня человеческим ресурсом оказывается человеческое внимание. Поэтому новые принципы ведения бизнеса можно определить как менеджмент внимания.
В данной научной работе использованы результаты, полученные в ходе выполнения проекта № 10-01-0009 «Медиаритуалы», реализованного в рамках Программы «Научный фонд НИУ ВШЭ» в 2010–2012 гг.