Статья
Annotated suffix tree as a way of text representation for information retrieval in text collections
Статья посвящена описанию реализации сервиса автоматического сбора структурированной информации из неструктурированных интернет-документов. Сервис позволяет унифицировать решение для различных предметных областей за счет явного онтологического описания задачи. Кроме того, для увеличения количества анализируемых источников не требуется изменения кода программы, следовательно, сложность разработки не изменяется.
This book constitutes the thoroughly refereed proceedings of the 8 th Russian Summer School on Information Retrieval, RuSSIR 2014, held in Nizhniy Novgorod, Russia, in August 2014.
The 14 papers presented were selected from various submissions. The papers focus on visualization for information retrieval along with other topics related to information retrieval.
В статье описан проект Texterra, в рамках которого была создана инфраструктура для анализа текстов. Texterra предоставляет масштабируемое решение для быстрой обработки текстовых документов, основанное на использовании знаний, извлекаемых из Веб-ресурсов и текстовых документов. В данной статье раскрываются детали реализации проекта, варианты использования и результаты экспериментальных исследований разработанных инструментов.
This volume contains the papers selected for presentation at the 2014 IEEE/WIC/ACM International Conference on Web Intelligence (WI'14), held as part of the 2014 Web Intelligence Congress (WIC'14) at the University of Warsaw, Warsaw, Poland, from 11 to 14 in August, 2014. The conference was sponsored and co-organized by the IEEE Computer Society, the Web Intelligence Consortium (WIC), Association for Computing Machinery (ACM), the University of Warsaw, Polish Mathematical Society and Warsaw University of Technology.
The series of Web Intelligence conferences was started in Japan in 2001. Since then, it has been held yearly in several countries, including: Canada, China, France, USA, Australia and Italy. It is recognized as the World's leading forum focusing on the role of Web Intelligence as one of the most important directions for scientific research and development of solutions that contribute to creation of the Knowledge-based Society. In 2014, WI visited Poland as a special event commemorating the 25th anniversary of the Web.
WI'14 received 242 paper submissions, in the areas of foundations of Web Intelligence, semantic aspects of Web Intelligence, World Wide Wisdom Web, Web search and recommendation, Web mining and warehousing, Human-Web interaction, as well as Web Intelligence technologies and applications. After a rigorous evaluation process, 85 papers were selected as regular contributions, giving an acceptance rate of 35.1%.
The first five sections of this volume include 40 regular contributions. Additionally, the first paper in the first section corresponds to one of WIC'14 keynotes. The last four sections of this volume contain 23 papers selected for oral presentations in WI'14 workshops. The remaining 45 regular contributions and 25 papers accepted to WI'14 special sessions are published in another volume of WI’14 proceedings.
Веб спам является одной из ключевых проблем современных поисковых систем в интернете. В данной работе мы исследуем эффективность применения различных методов уменьшения размерности пространства на примере спам классификатора поисковой системы go.mail.ru. Эффективное применение подобных методов позволяет значительно увеличить количество признаков и качество самого классификатора без потери в скорости обучения и классификации. Был проведен ряд экспериментов с методами PCA (Principal Component Analysis) и RP (Random Projection). К сожалению, данные методы показали свою несостоятельность применительно к задачам подобного класса, из-за относительно малой размерности пространства признаков. Однако, данный эксперимент, привел к необходимости детального анализа самих признаков, участвующих в обучении. Инструментом подобного анализа был выбран критерий MRMR (Minimum Redundancy Maximum Relevance). Применение данного критерия позволило выявить бесполезные признаки, а также оценить эффективность каждого, участвующего в обучении признака. Проведенное исследование позволило значительно повысить качество исследуемого классификатора без увеличения количества признаков. Результаты, описанные в данном исследовании, показывают эффективность критериев отбора признаков в задаче обучения на практике, и еще раз подчеркивают важность детального анализа данных и информативных признаков, которые выбираются для обучения.
Журналы событий, сохраняемые современными информационными и техническими системами, как правило, содержат достаточно данных для автоматизированного восстановления моделей соответствующих процессов. Разработано множество алгоритмов для построения моделей процессов, проверки соответствия фактического поведения системы модельному, сравнения моделей процессов, и т.д. Однако возможность быстрого анализа выбираемых пользователями частей журнала до сих пор не нашла полноценной реализации. В статье описан метод многомерного хранения журналов событий для извлечения и анализа процессов, основанный на подходе ROLAP. Результатом анализа журнала является направленный невзвешенный граф, представляющий собою сумму возможных последовательностей событий, упорядоченных по вероятности их возникновения с учетом заданных условий. Разработанный инструмент позволяет выполнять совместный анализ моделей подпроцессов, восстановленных из частей журнала путем задания критериев отбора событий и требуемого уровня детализации модели.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).
В сборнике представлены тезисы докладов участников XIX Международной студенческой конференции-школы-семинара «Новые информационные технологии», состоявшейся в мае 2011 года.
Сборник состоит из двух разделов. Первый раздел сборника включает пленарные доклады ведущих специалистов. Второй раздел содержит тезисы докладов студентов и аспирантов, учащихся техникумов и колледжей, участвовавших в работе школы-семинара.