Статья
The Minkowski central partition as a pointer to a suitable distance exponent and consensus partitioning
The Minkowski weighted K-means (MWK-means) is a recently developed clustering algorithm capable of computing feature weights. The cluster-specific weights in MWK-means follow the intuitive idea that a feature with low variance should have a greater weight than a feature with high variance. The final clustering found by this algorithm depends on the selection of the Minkowski distance exponent. This paper explores the possibility of using the central Minkowski partition in the ensemble of all Minkowski partitions for selecting an optimal value of the Minkowski exponent. The central Minkowski partition appears to be also a good consensus partition. Furthermore, we discovered some striking correlation results between the Minkowski profile, defined as a mapping of the Minkowski exponent values into the average similarity values of the optimal Minkowski partitions, and the Adjusted Rand Index vectors resulting from the comparison of the obtained partitions to the ground truth. Our findings were confirmed by a series of computational experiments involving synthetic Gaussian clusters and real-world data
The paper describes the results of an experimental study of topic models applied to the task of single-word term extraction. The experiments encompass several probabilistic and non-probabilistic topic models and demonstrate that topic information improves the quality of term extraction, as well as NMF with KL-divergence minimization is the best among the models under study.
Tech mining (TM) helps to acquire intelligence about the evolution of research and development (R&D), technologies, products, and markets for various STI areas and what is likely to emerge in the future by identifying trends. The present chapter introduces a methodology for the identification of trends through a combination of “thematic clustering” based on the co-occurrence of terms, and “dynamic term clustering” based on the correlation of their dynamics across time. In this way, it is possible to identify and distinguish four patterns in the evolution of terms, which eventually lead to (i) weak signals of future trends, as well as (ii) emerging, (iii) maturing, and (iv) declining trends. Key trends identified are then further analyzed by looking at the semantic connections between terms identified through TM. This helps to understand the context and further features of the trend. The proposed approach is demonstrated in the field photonics as an emerging technology with a number of potential application areas.
Рассматривается способ улучшения производительности рекомендательных систем при помощи предварительного выделения групп пользователей с похожим поведением. Для разбиения пользователей на группы используются распределенная версия алгоритма k-средних и алгоритм canopy для определения начальных центроидов.
This is a textbook in data analysis. Its contents are heavily influenced by the idea that data analysis should help in enhancing and augmenting knowledge of the domain as represented by the concepts and statements of relation between them. According to this view, two main pathways for data analysis are summarization, for developing and augmenting concepts, and correlation, for enhancing and establishing relations. Visualization, in this context, is a way of presenting results in a cognitively comfortable way. The term summarization is understood quite broadly here to embrace not only simple summaries like totals and means, but also more complex summaries such as the principal components of a set of features or cluster structures in a set of entities.
The material presented in this perspective makes a unique mix of subjects from the fields of statistical data analysis, data mining, and computational intelligence, which follow different systems of presentation.
A vast amount of documents in the Web have duplicates, which is a challenge for developing efficient methods that would compute clusters of similar documents. In this paper we use an approach based on computing (closed) sets of attributes having large support (large extent) as clusters of similar documents. The method is tested in a series of computer experiments on large public collections of web documents and compared to other established methods and software, such as biclustering, on same datasets. Practical efficiency of different algorithms for computing frequent closed sets of attributes is compared.
Журналы событий, сохраняемые современными информационными и техническими системами, как правило, содержат достаточно данных для автоматизированного восстановления моделей соответствующих процессов. Разработано множество алгоритмов для построения моделей процессов, проверки соответствия фактического поведения системы модельному, сравнения моделей процессов, и т.д. Однако возможность быстрого анализа выбираемых пользователями частей журнала до сих пор не нашла полноценной реализации. В статье описан метод многомерного хранения журналов событий для извлечения и анализа процессов, основанный на подходе ROLAP. Результатом анализа журнала является направленный невзвешенный граф, представляющий собою сумму возможных последовательностей событий, упорядоченных по вероятности их возникновения с учетом заданных условий. Разработанный инструмент позволяет выполнять совместный анализ моделей подпроцессов, восстановленных из частей журнала путем задания критериев отбора событий и требуемого уровня детализации модели.
В монографии приведены результаты исследования, посвященного управлению жизненным циклом информационных систем, а также анализу стандартов, сводов знаний и корпоративных методик, использующихся в ИТ-проектах. Приведены характеристики фаз ЖЦИС из практики управления ИТ-проектами, а также практические рекомендации по управлению такими проектами. Книга предназначена для научных работников, сотрудников научно- технических предприятий и работников государственных органов управлений, а также студентов, аспирантов, слушателей бизнес-школ повышения квалификации и переподготовки кадров. Книга содержит практические рекомендации для руководителей ИТ-проектов, а также сотрудников компаний, занимающихся проектной деятельностью в области ИТ-проектов.
The geographic information system (GIS) is based on the first and only Russian Imperial Census of 1897 and the First All-Union Census of the Soviet Union of 1926. The GIS features vector data (shapefiles) of allprovinces of the two states. For the 1897 census, there is information about linguistic, religious, and social estate groups. The part based on the 1926 census features nationality. Both shapefiles include information on gender, rural and urban population. The GIS allows for producing any necessary maps for individual studies of the period which require the administrative boundaries and demographic information.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра. Методами степенной геометрии ищутся асимптотические разложения его решений в окрестности его неособой точки z=z0, z0≠0, z0≠∞, при любых значениях параметров уравнения. Показано, что имеется ровно 10 семейств разложений решений уравнения. Все они - по целым степеням локальной переменной z - z0. Из них одно новое; у него произвольный коэффициент при четвертой степени локальной переменной. Одно из семейств однопараметрическое, остальные - двухпараметрические. Доказано, что все разложения сходятся в окрестности (а являющиеся полюсами - в проколотой окрестности) точки z=z0.
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра α, β, γ, δ. Методами степенной геометрии ищутся асимптотические разложения его решений при x → ∞. При α≠0 найдено 10 степенных разложений с двумя экспоненциальными добавками каждое. Шесть из них - по целым степеням x (они были известны), и четыре по полуцелым (они новые). При α=0 найдено 4 однопараметрических семейства экспоненциальных асимптотик y(x) и 3 однопараметрических семейства сложных разложений x=x(y). Все экспоненциальные добавки, экспоненциальные асимптотики и сложные разложения найдены впервые. Также уточнена техника вычисления экспоненциальных добавок.
В данной работе рассматривается пятое уравнение Пенлеве. Методами степенной геометрии ищутся асимптотические разложения его решений при x → 0. Получено 27 семейств разложений решений уравнения. 19 из них получены из разложений решений шестого уравнения Пенлеве. Среди остальных 8 семейств одно было известно раньше, ещё одно может быть получено из разложения решения третьего уравнения Пенлеве. Новыми являются 3 семейства полуэкзотических разложений, 2 семейства сложных разложений и семейство степенно-логарифмических разложений.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).