Книга
Proceedings of COLING 2012: Posters
This paper is devoted to the use of two tools for creating morphologically annotated linguistic corpora: UniParser and the EANC platform. The EANC platform is the database and search framework originally developed for the Eastern Armenian National Corpus (www.eanc.net) and later adopted for other languages. UniParser is an automated morphological analysis tool developed specifically for creating corpora of languages with relatively small numbers of native speakers for which the development of parsers from scratch is not feasible. It has been designed for use with the EANC platform and generates XML output in the EANC format.
UniParser and the EANC platform have already been used for the creation of the corpora of several languages: Albanian, Kalmyk, Lezgian, Ossetic, of which the Ossetic corpus is the largest (5 million tokens, 10 million planned for 2013), and are currently being employed in construction of the corpora of Buryat and Modern Greek languages. This paper will describe the general architecture of the EANC platform and UniParser, providing the Ossetic corpus as an example of the advantages and disadvantages of the described approach.
RU-EVAL – это форум по оценке русскоязычных ресурсов, методов и инструментов автоматической обработки текста. Первый этап форума состоялся в 2010 году и был посвящен оценке морфологических парсеров (Lyashevskaya et al. 2010), второй цикл (2011-2012) связан с оценкой синтаксического анализа текста (Toldova et al. 2012). На синтаксическом форуме результаты разметки тестового корпуса в формате синтаксиса зависимостей прислали 8 участников из коммерческих компаний и академических учреждений. В статье описываются принципы «мягкой» оценки, позволившие сравнивать ответы, которые весьма значительно различались как теоретическими подходами и методами парсинга, так и по конкретному составу тегов и направлению зависимостей. Обсуждаются результаты, сложные для оценки случаи, а также некоторые проблемные точки в работе русских синтаксических парсеров, которые выявила экспертиза результатов.

Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференции в этой области, а именно, 24-ой Международная конференция по компьютерной лингвистике Coling2012. В ней приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста такие, как извлечение фактов, извлечения мнений, анализ контента на основе привлечения онтологических ресурсов Веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.
This book constitutes the refereed proceedings of the 20th International Symposium on String Processing and Information Retrieval, SPIRE 2013, held in Jerusalem, Israel, in October 2013. The 18 full papers, 10 short papers were carefully reviewed and selected from 60 submissions. The program also featured 4 keynote speeches. The following topics are covered: fundamentals algorithms in string processing and information retrieval; SP and IR techniques as applied to areas such as computational biology, DNA sequencing, and Web mining.
Труды 15-й международной научной конференции по искусственному интеллекту: методология, системы, применения (Болгария, Варна, 12-15 сентября 2012).
Область силовых процессов в универсальных онтологиях обычно описана значительно хуже, чем смежная с ней область пространственных отношений. В статье предпринята попытка показать возможный вариант семантического представления текста, описывающего ситуации силового взаимодействия с помощью онтологии и лексикона, созданного на ее базе.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).
A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.
Formal Concept Analysis (FCA) is an unsupervised clustering technique and many scientific papers are devoted to applying FCA in Information Retrieval (IR) research. We collected 103 papers published between 2003-2009 which mention FCA and information retrieval in the abstract, title or keywords. Using a prototype of our FCA-based toolset CORDIET, we converted the pdf-files containing the papers to plain text, indexed them with Lucene using a thesaurus containing terms related to FCA research and then created the concept lattice shown in this paper. We visualized, analyzed and explored the literature with concept lattices and discovered multiple interesting research streams in IR of which we give an extensive overview. The core contributions of this paper are the innovative application of FCA to the text mining of scientific papers and the survey of the FCA-based IR research.
Doctoral students were invited to the Doctoral Consortium held in conjunction with the main conference of ECIR 2013. The Doctoral Consortium aimed to provide a constructive setting for presentations and discussions of doctoral students’ research projects with senior researchers and other participating students. The two main goals of the Doctoral Consortium were: 1) to advise students regarding current critical issues in their research; and 2) to make students aware of the strengths and weakness of their research as viewed from different perspectives. The Doctoral Consortium was aimed for students in the middle of their thesis projects; at minimum, students ought to have formulated their research problem, theoretical framework and suggested methods, and at maximum, students ought to have just initiated data analysis. The Doctoral Consortium took place on Sunday, March 24, 2013, at the ECIR 2013 venue, and participation is by invitation only. The format was designed as follows: The doctoral students presents summaries of their work to other participating doctoral students and the senior researchers. Each presentation was followed by a plenary discussion, and individual discussion with one senior advising researcher. The discussions in the group and with the advisors were intended to help the doctoral student to reflect on and carry on with their thesis work.
Рассматриваются пространства функций на окружности, естественным образом возникающие в гармоническом анализе, и операторы замены переменной (суперпозиции с гомеоморфизмами окружности) в этих пространствах. В работе рассматривается вопрос о том, какие функции обладают тем свойством, что любая их суперпозиция с гомеоморфизмом принадлежит заданному пространству. Рассмотрен также многомерный случай.
Рассматриваются пространства функций на m -мерном торе, преобразование Фурье которых p -суммируемо. Получены оценки норм экспонент деформированных посреством C1 -гладкой фазовой функции. Результаты являются распространением на многомерный случай оценок, полученных автором ранее для одномерного случая в работе «Количественные оценки в теоремах типа теоремы Берлинга--Хелсона» Математический сборник, 201:12 (2010), 103-130.
Рассматриваются пространства функций на окружности таких, что их преобразование Фурье является p-суммируемым. Получены оценки норм экспонент, деформированных посредством C1 -гладкой фазовой функции.
Настоящая книга представляет собой своеобразный расширенный учебник по математической статистике. Данный учебник не ограничен рамками учебного стандарта или вузовской программы --- он предназначен всем, кто интересуется математикой вообще и, в частности, хочет узнать, что такое современная математическая статистика, какие задачи и какими методами она решает, какие результаты в ней уже накоплены, какие проблемы в ней сегодня актуальны; наконец, каковы ее истоки, какой путь она прошла и какие ученые были ее творцами. По замыслу авторов, книга простым и доступным языком рассказывает о математической статистике и одновременно обучает ей. Вся теория объясняется и иллюстрируется на интересных и тщательно подобранных примерах. Книга может служить и задачником, так как содержит большой список упражнений для самостоятельного решения, а также справочным пособием по математической статистике, а в некоторых аспектах --- и по теории вероятностей.
Книга будет интересна преподавателям, аспирантам и студентам естественных и технических вузов, в которых изучается математическая статистика, научным работникам, использующим в своей деятельности методы математической статистики, а также самому широкому кругу любителей математики.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра. Методами степенной геометрии ищутся асимптотические разложения его решений в окрестности его неособой точки z=z0, z0≠0, z0≠∞, при любых значениях параметров уравнения. Показано, что имеется ровно 10 семейств разложений решений уравнения. Все они - по целым степеням локальной переменной z - z0. Из них одно новое; у него произвольный коэффициент при четвертой степени локальной переменной. Одно из семейств однопараметрическое, остальные - двухпараметрические. Доказано, что все разложения сходятся в окрестности (а являющиеся полюсами - в проколотой окрестности) точки z=z0.
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра α, β, γ, δ. Методами степенной геометрии ищутся асимптотические разложения его решений при x → ∞. При α≠0 найдено 10 степенных разложений с двумя экспоненциальными добавками каждое. Шесть из них - по целым степеням x (они были известны), и четыре по полуцелым (они новые). При α=0 найдено 4 однопараметрических семейства экспоненциальных асимптотик y(x) и 3 однопараметрических семейства сложных разложений x=x(y). Все экспоненциальные добавки, экспоненциальные асимптотики и сложные разложения найдены впервые. Также уточнена техника вычисления экспоненциальных добавок.
В данной работе рассматривается пятое уравнение Пенлеве. Методами степенной геометрии ищутся асимптотические разложения его решений при x → 0. Получено 27 семейств разложений решений уравнения. 19 из них получены из разложений решений шестого уравнения Пенлеве. Среди остальных 8 семейств одно было известно раньше, ещё одно может быть получено из разложения решения третьего уравнения Пенлеве. Новыми являются 3 семейства полуэкзотических разложений, 2 семейства сложных разложений и семейство степенно-логарифмических разложений.