Scalability and Parallelization of Sequential Processing: Big Data Demands and Information Algebras

P. Golubtsov

doi:10.1007/978-3-030-39216-1_25

Publications

?

Scalability and Parallelization of Sequential Processing: Big Data Demands and Information Algebras

P. 274–298.

Golubtsov P.

Procedures of sequential updating of information are important for “big data streams” processing because they avoid accumulating and storing large data sets. As a model of information accumulation, we study the Bayesian updating procedure for linear experiments. Analysis and gradual transformation of the original processing scheme in order to increase its efficiency lead to certain mathematical structures - information spaces. We show that processing can be simplified by introducing a special intermediate form of information representation. Thanks to the rich algebraic properties of the corresponding information space, it allows unifying and increasing the efficiency of the information updating. It also leads to various parallelization options for inherently sequential Bayesian procedure, which are suited for distributed data processing platforms, such as MapReduce. Besides, we will see how certain formalization of the concept of information and its algebraic properties can arise simply from adopting data processing to big data demands. Approaches and concepts developed in the paper allow to increase efficiency and uniformity of data processing and present a systematic approach to transforming sequential processing into parallel.

Keywords: алгебра информации algebra of information information spaces информационные пространства Distributed processing Big data streams Sequential Bayesian updating Большие потоки данных Последовательное байесовское обновление Распределенная обработка

In book

Advances in Intelligent Systems and Computing book series Vol. 1127. Advances in Intelligent Systems, Computer Science and Digital Economics

Vol. 1127: Advances in Intelligent Systems, Computer Science and Digital Economics. , Switzerland: Springer, 2020.

Information Spaces for Big Data Processing: Unification and Parallelization of Sequential Information Accumulation Procedures

Golubtsov P., , in: 21st IEEE Conference on Business Informatics (CBI).: IEEE Computer Society, 2019. P. 212–220.

In large-scale research, data are usually collected on many sites, have a huge volume, and new data are constantly generated. Since it is often impossible to collect all the relevant data on a single computer, much attention is paid to the algorithms that provide sequential or parallel accumulation of information and do not need to ...

Added: July 31, 2019

Параллельная распределенная обработка данных и информационные пространства

Golubtsov P., В кн.: Труды конференции "Ломоносовские чтения – 2018", секция Физика. В журнале Ученые записки физического факультета Московского университета. 2018. № 5.Т. Ученые записки физического факультета Московского университета. Вып. 5: Труды конференции "Ломоносовские чтения – 2018", секция Физика.: М.: Издательство МГУ, 2018. Гл. 1850304 С. 1–11.

Данные в современных исследованиях нередко имеют огромный объем, распределены между многочисленными сайтами и постоянно пополняются. В таких случаях собрать все относящиеся к исследованию данные на одном компьютере, как правило, невозможно и непрактично, поскольку один компьютер не сможет обработать их в разумные сроки. Подходящий алгоритм анализа данных должен, параллельно работая на многих компьютерах, извлекать из каждого ...

Added: February 13, 2019

Deterministic Model for Distributed Speculative Stream Processing

Kuralenok I., Trofimov A., Marshalkin N. et al., , in: Lecture Notes in Computer ScienceVol. 11019: Advances in Databases and Information Systems .: Springer, 2018. P. 233–246.

Users of modern distributed stream processing systems have to choose between non-deterministic computations and high latency due to a need in excessive buffering. We introduce a speculative model based on MapReduce-complete set of operations that allows us to achieve determinism and low-latency. Experiments show that our prototype can outperform existing solutions due to low overhead ...

Added: February 13, 2019

Параллельная распределенная обработка данных и информационные пространства

Golubtsov P., В кн.: Ломоносовские чтения – 2018. Секция физики. Сборник тезисов докладов.: М.: Физический факультет МГУ, 2018. С. 129–134.

В работе показано, что для эффективной обработки распределенных данных ключевую роль играет возможность введения промежуточной формы представления информации, обладающей определенными алгебраическими свойствами. Исследованы свойства информационных пространств на примере проблемы линейного оценивания в контексте распределенной обработки данных. ...

Added: January 23, 2019

Specific Features of Big Data Processing and the Concept of Information

Golubtsov P., , in: Proceedings of the Russian-French Workshop in Big Data and Applications. October 12–13, 2017, Moscow.: M.: Higher School of Economics Publishing House, 2018. P. 45–66.

The Data in “big data” sets, as a rule, have a huge volume, are distributed among numerous sites and are constantly replenished. As a result even a simplest analysis of big data faces serious difficulties. To apply traditional processing all the relevant data has to be collected in one place and arranged in the form ...

Added: January 23, 2019

Information spaces: optimizing sequential and parallel processing in big data

Golubtsov P., , in: 7th International conference "Problems of Mathematical Physics and Mathematical Modelling” (2018) Book of abstracts.: M.: National Research Nuclear University "MEPhI", 2018. P. 173–176.

The process of Bayesian information update is essentially sequential: as a result of observation, a prior information is transformed to a posterior, which is later interpreted as a prior for the next observation, etc. It is shown that this procedure can be unified and parallelized by converting both the measurement results and the original prior ...

Added: January 23, 2019

Algebra of Information in Big Data Processing

Golubtsov P., , in: INTERNATIONAL CONFERENCE INFORMATION SYSTEMS 2017 SPECIAL INTEREST GROUP ON BIG DATA PROCEEDINGS.: Assiciation of Information Systems Electronic Library (AISel), 2017. Ch. 4 P. 1–15.

In big data problems the data usually are collected on many sites, have a huge volume, and new pieces of data are constantly generated. It is often impossible to collect all the data needed for a research project on one computer, and even impractical, since one computer would not be able to process it in ...

Added: January 23, 2019

Параллельная распределенная обработка данных и информационные пространства

Golubtsov P., Ученые записки физического факультета Московского университета 2018 № 5 С. 1850304–1–1850304–11

Added: January 23, 2019

Задача линейного оценивания и информация в системах больших данных

Golubtsov P., Научно-техническая информация. Серия 2: Информационные процессы и системы 2018 № 3 С. 23–30

Рассмотрена проблема трансформации процедуры оптимального линейного оценивания так, чтобы отдельные фрагменты исходных данных могли обрабатываться независимо и параллельно. Предложена форма представления промежуточной информации, позволяющая алгоритму извлекать такую информацию параллельно из каждого набора исходных данных, объединять ее и использовать для получения результата. Показано, что на построенном информационном пространстве индуцируется упорядочение,отражающее понятие качества информации. ...

Added: January 23, 2019

Переход от априорной к апостериорной информации: байесовские процедуры в распределенных крупномасштабных системах обработки данных

Golubtsov P., Научно-техническая информация. Серия 2: Информационные процессы и системы 2018 № 8 С. 14–25

Рассматривается процедура перехода от априорной к апостериорной информации для линейного эксперимента в контексте систем Больших Данных. Этот процесс носит, на первый взгляд, принципиально последовательный характер, а именно: в результате наблюдения, априорная информация трансформируется в апостериорную, которая впоследствии трактуется как априорная для следующего наблюдения, ит.д. Показано, что такая процедура может быть распараллелена и унифицирована за счет ...

Added: January 23, 2019