• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Найдены 32 публикации
Сортировка:
по названию
по году
Статья
Alexeeva S. V., Protopopova E. V., Bodrova A. A. et al. Компьютерная лингвистика и интеллектуальные технологии. 2014. P. 562-571.
Добавлено: 8 октября 2014
Статья
Апресян В. Ю. Компьютерная лингвистика и интеллектуальные технологии. 2015. Т. 1. С. 2-18.

Цель данной работы – определить, наличие каких семантических компонентов в значении способствует тому, чтобы языковая единица приобретала лексикализованные просодические и коммуникативные свойства, в частности, обязательное акцентное выделение и способность формировать самостоятельную рему или контрастную тему. В работе показывается, что акцентные и коммуникативные свойства лексем коррелируют с их семантическими свойствами. В частности, на примере сравнения различных значений слов только, правда, еще, вообще, по крайней мере и некоторых других, а также сравнения семантически близких языковых единиц хотя, несмотря на, пусть, демонстрируется связь способности нести на себе акцентное выделение и быть фокусом внимания в высказывании в  у единиц, содержащих семантические компоненты противопоставления, добавления и высокой степени. С другой стороны, наличие в значении уступительного компонента, как правило, ограничивает способность лексемы к акцентному выделению и коммуникативной самостоятельности. Сформулированные тенденции подтверждаются данными мультимедийного корпуса НКРЯ.  

Добавлено: 2 сентября 2015
Статья
Arkhangelskiy T.A., Lander Yu.A. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15 (22). P. 40-49.

Несмотря на то, что в настоящее время существует множество морфологически размеченных корпусов для языков с богатой морфологией, до сих пор не было создано ни одного корпуса полисинтетического языка, который бы учитывал необходимую морфологическую информацию. Разработка корпуса для таких языков ставит перед корпусным лингвистом ряд нетривиальных теоретических и практических задач. Некоторые из них в меньшем объёме встречались и частично решались ранее при создании корпусов языков с большими морфологическими системами и обилием продуктивных деривационных моделей, например, тюркских или уральских языков. Однако многие из этих проблем уникальны для полисинтетических языков. В ходе работы над созданием корпуса полисинтетического адыгейского языка мы обрисовываем эти проблемы и предлагаем ряд теоретических и практических решений. Описываемые проблемы включают в себя токенизацию (связанную с нечёткой границей между синтаксисом и мофологией), лемматизацию и морфологическую разметку, а также ряд вопросов, связанных с глоссированием и поиском в корпусе. Предлагаемые решения частично реализованы и будут доступны для тестирования в пилотной версии корпуса.

Добавлено: 5 июня 2016
Статья
Lyashevskaya O., Kashkin E. Компьютерная лингвистика и интеллектуальные технологии. 2014. No. 20. P. 362-378.
Добавлено: 7 октября 2014
Статья
Lyashevskaya O., Kashkin E. Компьютерная лингвистика и интеллектуальные технологии. 2015. Vol. 14. P. 427-440.

В статье описываются эксперименты по классификации русских глаголов на основе статистических данных, представленных в системе FrameBank (framebank.ru). Хотя лексикологи в основном отказались от мысли, что группы глаголов должны объединяться на основе способности к синтаксическим трансформациям (Apresjan 1967, Levin 1993), оценка близости контекстов по схожей дистрибуции лексики и синтаксических связей по-прежнему остается ведущим критерием для определения лексических типов. Компьютерная лингвистика заимствовала последний подход для получения глагольных классов для английского, немецкого и многих других языков (Dorr and Jones 1996; Lapata 1999; Schulte im Walde; Lenci 2014 и др.), строя векторы лексических и синтаксических признаков на основе корпусов текстов. Наши эксперименты по семантической классификации русских глаголов базируются на статистике двух типов тегов, используемых в аннотации системы ФреймБанк, теге семантической роли и теге морфосинтаксического оформления участника. Поле глаголов речи было структурировано с помощью нескольких вариантов автоматической кластеризации на векторах; затем автоматические результаты мы сравнили с классификацией глаголов в словаре Л. Г. Бабенко (2007) и некоторыми другими построенными вручную классификациями. Классификация глаголов смены посессора была построена с помощью правил и затем была верифицирована относительно сети глагольных фреймов в англоязычной системе FrameNet. Проводится лингвистиче- ский анализ классификаций, получающихся только на морфосинтаксических признаках, только на признаках семантических ролей и клас- сификаций на объединении этих признаков.

Добавлено: 27 марта 2015
Статья
Skorinkin D.A., Budnikov E., Stepanova M. et al. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 721-733.
Добавлено: 28 августа 2016
Статья
Piperski A., Kukhto A. Компьютерная лингвистика и интеллектуальные технологии. 2016. P. 540-550.
Добавлено: 19 октября 2016
Статья
Panchenko A., Lopukhina A., Ustalov D. et al. Компьютерная лингвистика и интеллектуальные технологии. 2018. No. 17. P. 547-564.

В статье описываются результаты первого соревнования по автоматиче- скому извлечению значений слов из неразмеченного корпуса текстов для русского языка. Подобные соревнования проводились для некоторых ро- манских и германских языков; мы исследуем методы извлечения значений и разрешения многозначности на материале одного из славянских языков, обладающих богатой морфологией и достаточно свободным порядком слов. Участникам соревнования было предложено сгруппировать контексты слова в соответствии с его значениями, причем сами значения необходимо было автоматически извлечь из корпуса текстов. Например, для неоднозначного слова «замок» нужно было выделить неизвестное заранее число класте- ров, соответствующее его значениям, и классифицировать контексты этого слова так, чтобы каждый контекст попал в тот или иной кластер, соответству- ющий значению слова — «сооружение» и «устройство, препятствующее до- ступу куда-либо» для контекстов слова «замок». Для оценки качества работы методов мы подготовили три набора данных, различающихся, во-первых, гранулярностью значений и, во-вторых, источниками контекстов (статьи рус- скоязычной Википедии, материалы Национального корпуса русского языка и толкового словаря). В соревновании приняли участие 18 команд, прислав- ших 383 моделей. Качество результата, полученного представленными мо- делями, превосходят эталонные методы, основанные на векторах смыслов.

Добавлено: 7 июня 2018
Статья
Orekhov B., Krylova I., Popov I. et al. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15 (22). P. 452-461.

Статья о малых языках России в Интернете

Добавлено: 7 ноября 2017
Статья
Smirnov I. V., Kuznetsova R., Kopotev M. et al. Компьютерная лингвистика и интеллектуальные технологии. 2017. Vol. 1. No. 16. P. 271-283.
Добавлено: 24 октября 2017
Статья
Letuchiy A. Компьютерная лингвистика и интеллектуальные технологии. 2017. Vol. 2. No. 16. P. 249-260.
Добавлено: 12 марта 2018
Статья
Dybo A., Rezanova Z., Temnikova I. et al. Компьютерная лингвистика и интеллектуальные технологии. 2019. No. 18(25). P. 200-210.

Статья представляет проект создания Корпуса русско-тюркской билингвальной речи Южной Сибири (RuTuBiC), характеризуются основные особенности: цель создания корпуса, типы составляющих его текстов, принципы его разметки и метаразметки, технологические решения. Характеризуется современное состояние корпуса и перспективы его развития. Корпус является частью проекта направленного на изучение динамики взаимодействия языков и культур Южной Сибири, он содержит записи устных интервью информантов, носителей русско-тюркского билингвизма (русско-татарских, русско-шорских, русско-хакасских билингвов), их расшифровку, и аннотацию речевых отклонений. Данные корпуса позволяют выявить проявления русскотюркской интерференции в системе отклонений от речевого стандарта в речи билингвов, их расшифровку, и аннотацию речевых отклонений. Данные корпуса позволяют выявить проявления русскотюркской интерференции в системе отклонений от речевого стандарта в речи билингвов, соотнести их с другими источниками отклонений, а также проследить влияние социальных и языковых факторов на появление отклонений от речевого стандарта.

Добавлено: 1 декабря 2019
Статья
Лопухин К. А., Lopukhina A., Носырев Г. В. Компьютерная лингвистика и интеллектуальные технологии. 2015. Vol. 2. No. 14. P. 145-154.
Добавлено: 11 октября 2016
Статья
Lyashevskaya O., Kashkin E. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 440-454.

Предикатно-аргументные конструкции имен прилагательных, в от- личие от глагольных конструкций, чаще всего остаются вне зоны внимания как теоретиков, так и специалистов IT-отрасли. Ставя вопрос о включении семантических ролей прилагательных в общую сеть семантических ролей, прежде всего, важно определиться, образуют ли они отдельную систему или их можно рассматривать как расширение инвентаря ролей глаголов и номинализаций. Для проверки наших предположений о принципиальном устройстве системы адъективных ролей мы провели опрос экспертов, в котором просили оценить сходство между ролями прилагательных и глаголов. Результаты показали, что и семантическая интерпретация ролей, и их морфо-синтаксическое оформление оказывают влияние на оценку, а следовательно, должны быть приняты во внимание при разработке инвентаря. Кроме того, прототипически имена прилагательные имеют стативную семантику, и это находит отражение в том, насколько близкими восприни- маются роли участников при прилагательном и глаголе. Результаты опроса дают также новые данные для проверки и уточнения инвентаря семантических ролей самих глаголов.

Добавлено: 14 декабря 2016
Статья
Lopukhina A., Лопухин К. А. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 393-405.
Добавлено: 11 октября 2016
Статья
Iomdin B., Lopukhina A., Лопухин К. А. et al. Компьютерная лингвистика и интеллектуальные технологии. 2016. No. 15. P. 214-225.
Добавлено: 11 октября 2016
Статья
Лопухин К. А., Iomdin B., Lopukhina A. Компьютерная лингвистика и интеллектуальные технологии. 2017. Vol. 1. No. 16. P. 121-134.
Добавлено: 27 сентября 2017
Статья
Orehov B.V., Panova T.A., Kirjanov D.P. Компьютерная лингвистика и интеллектуальные технологии. 2014. Vol. Доклады, принятые к публикации на сайте.
Добавлено: 12 декабря 2014
Статья
Баранов А. Н. Компьютерная лингвистика и интеллектуальные технологии. 2014. № 13. С. 43-52.

В статье рассматриваются методы формальной оценки активности участников в диалоге. Предлагается оценивать активность участника по трем различным параметрам: коммуникативная активность (количество независимых реплик, коммуникативно вынуждающих реплики партнера по общению), содержательная активность (кто вводит темы общения) и количественная активность (количестве словоупотреблений, использованных в обсуждении темы беседы). Такие параметры оценки активности необходимы для проведения лингвистических экспертиз по делам о взятках, вымогательстве, мошенничестве и некоторых других.

Добавлено: 20 октября 2016
Статья
Богданова-Бегларян Н. В., Блинова О. В., Шерстинова Т. Ю. и др. Компьютерная лингвистика и интеллектуальные технологии. 2019. № 18. С. 72-85.

В статье описывается опыт аннотирования прагматических маркеров (ПМ) в двух русских речевых корпусах: «Один речевой день» (ОРД; диалоги) и «Сбалансированная аннотированная текстотека» (САТ; монологи). Для подготовки сплошной разметки ПМ было проведено 4 пилотных аннотирования на выборках из ОРД и САТ, что позволило сформировать итоговый список ПМ: 450 единиц, представляющих собой варианты 53 базовых структурных типов. В ходе обработки результатов пилотного аннотирования удалось получить предварительные данные о частоте встречаемости отдельных прагматических маркеров и их типов, а также о зависимости употребления ПМ от пола и уровня речевой компетенции говорящего. В результате обработки данных были получены частотные списки как самих ПМ, так и выполняемых ими функций.

Добавлено: 28 октября 2019
Статья
Орехов Б. В., Галлямов А. А. Компьютерная лингвистика и интеллектуальные технологии. 2012. Т. 1. № 11 (18). С. 502-509.

В работе представляются результаты подсчётов, проведённых в башкироязычном сегменте Интернета. Лексикостатистика показывает ориентированность башкирского интернета не на общение или передачу актуальной информации, а на представление официально-деловых документов и прочие формы представительского присутствия башкирского языка в Сети.

Добавлено: 28 сентября 2013
1 2