• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Параллельная распределенная обработка данных и информационные пространства

Данные в современных исследованиях нередко имеют огромный объем, распределены между многочисленными сайтами и постоянно пополняются. В таких случаях собрать все относящиеся к исследованию данные на одном компьютере, как правило, невозможно и непрактично, поскольку один компьютер не сможет обработать их в разумные сроки. Подходящий алгоритм анализа данных должен, параллельно работая на многих компьютерах, извлекать из каждого набора исходных данных некоторую промежуточную компактную «информацию», постепенно объединять ее и, наконец, использовать накопленную информацию для получения результата. По мере поступления новых данных он должен иметь возможность добавлять их к накопленной информации и, при необходимости, обновлять результат. В работе рассмотрены особенности такой хорошо организованной промежуточной формы информации и ее естественные алгебраические свойства. В качестве примера исследована проблема трансформации процедуры оптимального линейного оценивания так, чтобы отдельные фрагменты исходных данных могли обрабатываться независимо и параллельно. Предложена каноническая форма информации, позволяющая алгоритму извлекать такую информацию параллельно из каждого набора исходных данных, объединять ее и использовать для получения результата. Показано, что на построенном информационном пространстве кроме алгебраической структуры также индуцируется согласованное с ней упорядочение, отражающее понятие качества информации.