Статья
Статистика языка
В данной статье рассматриваются применения математики в компьютерной и корпусной лингвистике.
Представлены четыре электронных корпуса, созданные в 2011 г. в рамках Программы фундаментальных исследований РАН «Корпусная лингвистика»: албанский, калмыцкий, лезгинский и осетинский. Даётся описание интерфейса и функциональности этих корпусов, освещаются технические вопросы, которые пришлось решать при их создании, обсуждаются перспективы их развития. Особое внимание уделяется вопросам составления грамматических словарей и автоматической грамматической разметки корпусов.
Сборник включает 78 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2012», представляющих широкий спектр теоретических и прикладных исследований в области описания естественного языка, моделирования языковых процессов, создание практических применимых компьютерных лингвистических технологий.
Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий.
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
В работе дается оценка алгоритма лемматизации несловарных словоформ (единиц текста, которые словарно-ориентированный морфологический анализатор не может вывести из данных исходного словаря). Представленный алгоритм устанавливает парадигматические отношения внутри массива словоформ, подбирая оптимальное членение словоформы на псевдооснову и псевдоокончание. Показано, что соединение методов простой и сложной кластеризации эффективно для морфологического пост–процессинга больших объемов текста.
Данная статья посвящена использованию корпусных данных в исследовании дискурсивных характеристик наименования человека в английском языке. На примере анализа конкретной группы английских синонимов, указывающих на человека human being, man, person, personality, individual, раскрываются некоторые возможности, предоставляемые лексикографическими корпусами для дискурсивных исследований
Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
В статье обсуждается использование Национального корпуса русского языка для социолингвистических исследований. Предлагается использовать имеющуюся в Устном корпусе разметку по полу говорящего в качестве основы для статистического анализа различий между речью мужчин и женщин. Подробно обсуждаются результаты одного направления анализа — сравнительная длина высказываний (реплик) мужчин и женщин, измеренная в количестве словоформ. Обнаружена статистическая значимость различий по этому параметру между мужчинами и женщинами в публичной коммуникации — мужчины говорят больше женщин — при отсутствии статистически значимых различий в частной коммуникации. Также значимым оказывается пол адресата, причем корреляция снова носит существенно разный характер в подкорпусе публичной и частной речи. В частной коммуникации реплики говорящего оказываются несколько длиннее в разговоре с человеком того же пола; в публичной коммуникации реплики говорящего оказываются существенно длиннее при обращении к женщине, чем к мужчине, вне зависимости от пола говорящего. Эти выводы хорошо согласуются с результатами гендерных исследований в западной социолингвистике: различия между мужской и женской речью не абсолютны, но зависят от ситуации общения; публичный дискурс является ареной языкового соревнования, в котором преимущество остается за мужчинами, в то время как в частной коммуникации соревновательность исчезает.
Сборник включает 78 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2012», представляющих широкий спектр теоретических и прикладных исследований в области описания естественного языка, моделирования языковых процессов, создания практически применимых компьютерных лингвистических технологий.
Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий.
Рассматриваются пространства функций на окружности, естественным образом возникающие в гармоническом анализе, и операторы замены переменной (суперпозиции с гомеоморфизмами окружности) в этих пространствах. В работе рассматривается вопрос о том, какие функции обладают тем свойством, что любая их суперпозиция с гомеоморфизмом принадлежит заданному пространству. Рассмотрен также многомерный случай.
Рассматриваются пространства функций на m -мерном торе, преобразование Фурье которых p -суммируемо. Получены оценки норм экспонент деформированных посреством C1 -гладкой фазовой функции. Результаты являются распространением на многомерный случай оценок, полученных автором ранее для одномерного случая в работе «Количественные оценки в теоремах типа теоремы Берлинга--Хелсона» Математический сборник, 201:12 (2010), 103-130.
В сборнике представлены работы, выполненные в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 годы. Раскрывается широкий спектр проблем, связанных с различными аспектами современных коммуникационных процессов.
В первой части пособия рассмотрены дополнительные вопросы теории вероятностей, необходимые для изучения математической статистики, и начальные сведения по математической статистике.
Во второй части пособия подробно изложены вопросы, связанные с решением одной из основных задач математической статистики - параметрической задачи. Приведено много примеров.
Рекомендуется всем студентам МИЭМа, изучающим математическую статистику.
Рассматриваются пространства функций на окружности таких, что их преобразование Фурье является p-суммируемым. Получены оценки норм экспонент, деформированных посредством C1 -гладкой фазовой функции.
Настоящая книга представляет собой своеобразный расширенный учебник по математической статистике. Данный учебник не ограничен рамками учебного стандарта или вузовской программы --- он предназначен всем, кто интересуется математикой вообще и, в частности, хочет узнать, что такое современная математическая статистика, какие задачи и какими методами она решает, какие результаты в ней уже накоплены, какие проблемы в ней сегодня актуальны; наконец, каковы ее истоки, какой путь она прошла и какие ученые были ее творцами. По замыслу авторов, книга простым и доступным языком рассказывает о математической статистике и одновременно обучает ей. Вся теория объясняется и иллюстрируется на интересных и тщательно подобранных примерах. Книга может служить и задачником, так как содержит большой список упражнений для самостоятельного решения, а также справочным пособием по математической статистике, а в некоторых аспектах --- и по теории вероятностей.
Книга будет интересна преподавателям, аспирантам и студентам естественных и технических вузов, в которых изучается математическая статистика, научным работникам, использующим в своей деятельности методы математической статистики, а также самому широкому кругу любителей математики.