Статья
Frequent Itemset Mining for Clustering Near Duplicate Web Documents
A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.
Существующие данные о связи оптимизма с академической успешностью довольно противоречивы. Было проведено два исследования связи между оптимистическим атрибутивным стилем, благополучием и академической успешностью. Использовался новый русскоязычный инструмент для измерения оптимистического стиля объяснения успехов и неудач (СТОУН: Гордеева, Осин, Шевяхова, 2009), включающий субшкалы стабильности, глобальности и контролируемости. В первом исследовании оптимистический стиль объяснения позитивных событий был связан с более высокой учебной успешностью старших школьников (N=225) и являлся медиатором связи между учебной успешностью и самооценкой. Во втором исследовании пессимистический стиль объяснения негативных событий предсказывал у абитуриентов университета (N=108) успешную сдачу трёх сложных письменных вступительных экзаменов. Медиатором связи оптимистического атрибутивного стиля объяснения позитивных событий с успешностью сдачи экзаменов выступали ожидания успеха. Результаты свидетельствуют о том, что стили объяснения успехов и неудач неодинаково связаны с академической успешностью и субъективным благополучием в ситуациях различного типа.
Проект "Разработка учебно-методических материалов для преподавания курсов по применению количественного инструментария к решению социально-экономических задач"; предназначен прежде всего для помощи преподавателям, разрабатывающим или уже преподающим курсы по методным дисциплинам на непрофильных для себя факультетах. Зачастую в такой ситуации преподавателям сложно привести достаточное количество понятных и интересных примеров для изложения материала и задач для самостоятельной работы студентов. Кроме того, нередко возникают сложности с поиском реальных данных по той или иной новой для преподавателя направленности, на которых изучаемые методы можно отрабатывать в компьютерных классах. В статье описываются авторские учебно-методические разработки, направленные на преодоление этих проблем.
The paper describes the results of an experimental study of topic models applied to the task of single-word term extraction. The experiments encompass several probabilistic and non-probabilistic topic models and demonstrate that topic information improves the quality of term extraction, as well as NMF with KL-divergence minimization is the best among the models under study.
Рассматривается способ улучшения производительности рекомендательных систем при помощи предварительного выделения групп пользователей с похожим поведением. Для разбиения пользователей на группы используются распределенная версия алгоритма k-средних и алгоритм canopy для определения начальных центроидов.
This is a textbook in data analysis. Its contents are heavily influenced by the idea that data analysis should help in enhancing and augmenting knowledge of the domain as represented by the concepts and statements of relation between them. According to this view, two main pathways for data analysis are summarization, for developing and augmenting concepts, and correlation, for enhancing and establishing relations. Visualization, in this context, is a way of presenting results in a cognitively comfortable way. The term summarization is understood quite broadly here to embrace not only simple summaries like totals and means, but also more complex summaries such as the principal components of a set of features or cluster structures in a set of entities.
The material presented in this perspective makes a unique mix of subjects from the fields of statistical data analysis, data mining, and computational intelligence, which follow different systems of presentation.
A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.
Рассматриваются пространства функций на окружности, естественным образом возникающие в гармоническом анализе, и операторы замены переменной (суперпозиции с гомеоморфизмами окружности) в этих пространствах. В работе рассматривается вопрос о том, какие функции обладают тем свойством, что любая их суперпозиция с гомеоморфизмом принадлежит заданному пространству. Рассмотрен также многомерный случай.
Рассматриваются пространства функций на m -мерном торе, преобразование Фурье которых p -суммируемо. Получены оценки норм экспонент деформированных посреством C1 -гладкой фазовой функции. Результаты являются распространением на многомерный случай оценок, полученных автором ранее для одномерного случая в работе «Количественные оценки в теоремах типа теоремы Берлинга--Хелсона» Математический сборник, 201:12 (2010), 103-130.
Рассматриваются пространства функций на окружности таких, что их преобразование Фурье является p-суммируемым. Получены оценки норм экспонент, деформированных посредством C1 -гладкой фазовой функции.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).
Настоящая книга представляет собой своеобразный расширенный учебник по математической статистике. Данный учебник не ограничен рамками учебного стандарта или вузовской программы --- он предназначен всем, кто интересуется математикой вообще и, в частности, хочет узнать, что такое современная математическая статистика, какие задачи и какими методами она решает, какие результаты в ней уже накоплены, какие проблемы в ней сегодня актуальны; наконец, каковы ее истоки, какой путь она прошла и какие ученые были ее творцами. По замыслу авторов, книга простым и доступным языком рассказывает о математической статистике и одновременно обучает ей. Вся теория объясняется и иллюстрируется на интересных и тщательно подобранных примерах. Книга может служить и задачником, так как содержит большой список упражнений для самостоятельного решения, а также справочным пособием по математической статистике, а в некоторых аспектах --- и по теории вероятностей.
Книга будет интересна преподавателям, аспирантам и студентам естественных и технических вузов, в которых изучается математическая статистика, научным работникам, использующим в своей деятельности методы математической статистики, а также самому широкому кругу любителей математики.
Эта публикация представляет собой сборник отдельных статей "Третьей Международной конференции по динамике информационных систем», которая состоялась в университете Флориды, 16-18 февраля 2011 года. Цель данной конференции заключалась в том, чтобы собрать вместе ученых и инженеров из промышленности, правительства и научных кругов, чтобы они смогли обменяться новыми открытиями и результатами в вопросах, имеющих отношение к теории и практике динамики информационных систем. Динамика информационных систем: математическое открытие представляет собой современное исследование и предназначается студентам – аспирантам и исследователям, которые интересуются самыми последними открытиями в информационной теории и динамичных системах. Ученые других дисциплин могут также получить пользу от применения новых разработок в своих областях исследований.
Статьи данного сборника написаны на основе докладов, сделанных в 2011 г. на социологическом факультете МГУ им. М.В. Ломоносова на заседании XIV Междисциплинарного ежегодного научного семинара "Математическое моделирование социальных процессов" им. Героя Социалистического труда академика А.А. Самарского.
Издание предназначено для научных сотрудников, преподавателей, учащихся вузов и научных учреждений РАН, интересующихся проблемами, разработкой и внедрением методологии математического моделирования социальных процессов.
В статье рассматриваются современные подходы организации управления автотранспортной деятельностью. Анализируются основные тренды развития мер по повышению эффективности управления процессами перевозок. Показана существенная роль современных информационных технологий в обеспечении конкурентоспособности участников перевозочных процессов, а также рассмотрены характерные примеры построения единого информационного пространства распределенной транспортной компании. Рассмотрены основные бизнес-процессы крупного автопредприятия и показано существенное влияние человеческого фактора на принятие управленческих решений. Подробно рассмотрены современные аспекты совершенствования управления автотранспортным предприятием на основе субъектно-ориентированного подхода к формализации бизнес-процессов и агентно-ориентированных моделей.