SQL query optimization for highly normalized Big Data

N. Golov; Ronnback L.

?

SQL query optimization for highly normalized Big Data

Business Informatics. 2015. No. 3.

Голов Н. И., Ronnback L.

В данной статье описывается подход для быстрого анализа больших данных в реляционной модели данных. Целью данного подхода является достижение максимального использования высоконормализанных временных таблиц, объединяемых посредством алгоритма соединения слиянием («Merge join algorithm»). Подход был разработан для методологии Anchor Modeling, предполагающей крайне высокий уровень нормализации таблиц. Anchor Modeling – это новейшая методология построения хранилищ данных, разработанная для классических баз данных и адаптированная для задач больших данных и MPP (массивно-параллельных) баз данных авторами статьи. Anchor Modeling обеспечивает гибкость расширения и высокую скорость загрузки данных, в то время как представленный подход к оптимизации запросов дополняет методологию возможностью «на лету» проводить быстрый анализ больших выборок данных (десятки Тб). В статье описаны и оценены различные подходы к оптимизации планов выполнения запросов, для колоночных и обычных (строчных) баз данных. Представлены и сравнены результаты теоретических оцениваний и практических экспериментов на реальных данных, проведенных на платформе колоночной массивно-параллельной (MPP) базы данных HP Vertica. Результаты сравнения демонстрируют, что подход особенно эффективен для случаев нехватки доступной оперативной памяти, в результате чего оптимизатору запросов базы данных, при обработке аналитических запросов, приходится переходить от наиболее оптимального режима обработки в оперативной памяти (in-memory) к режиму подкачки с жесткого диска. Также изучен вопрос масштабирования нагрузки. Для этого один и тот-же анализ запускался на кластерах массивно-параллельной СУБД Вертика, состоящих из разного количества серверов. Были испытаны конфигурации из 5, 10 и 12 серверов. Для анализа применялись данные типа «поток кликов», обезличенные данные о кликах пользователей Авито, крупнейшего сайта объявлений РФ.

Научное направление: Компьютерные науки

Приоритетные направления: бизнес-информатика

Язык: английский

Полный текст

Ключевые слова: базы данных моделирование modeling производительность analytics аналитика performance большие данные big data databases нормализация normalization querying запросы

Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)

Seul: PMLR, 2026.

Добавлено: 4 июня 2026 г.

OpenAtom Foundation. Консорциум, развивающий Open Source в Китае.

Силаков Д. В., Системный администратор 2026 № 3 С. 28–33

В статье про платформы для разработки открытого ПО в Китае мы рассказали про GitCode – молодой проект, позиционируемый как площадка для разработчиков со всего мира. Сейчас на GitCode размещаются проекты, созданные в КНР, но некоторые из них уже известны и на международной арене. Помочь открытым проектам в становлении, развитии и расширению аудитории призван фонд OpenAtom ...

Добавлено: 2 июня 2026 г.

The recognition-by-components method

Slivnitsin P., Мыльников Л. А., Engineering Applications of Artificial Intelligence 2026 Vol. 179 Article 115185

Добавлено: 29 мая 2026 г.

Brain-Computer Interfaces for Gait Rehabilitation After Stroke A Scoping Review

Мокиенко О. А., Zisman M. A., Бобров П. Д. и др., American Journal of Physical Medicine and Rehabilitation 2026 Vol. 105 No. 6 P. 555–563

Добавлено: 28 мая 2026 г.

Generalizing the Brady-Yong Algorithm: Efficient Fast Hough Transform for Arbitrary Image Sizes

Kazimirov D., Rybakova E., Vitalii V. Gulevskii и др., IEEE Access 2025 Vol. 13 P. 20101–20132

Добавлено: 28 мая 2026 г.

Universal Comparison Methodology for Hough Transform Approaches

Kazimirov D., Vitalii Gulevskii, Kroshnin A. и др., Mathematics 2026 Article 1136

Добавлено: 28 мая 2026 г.

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И ТЕХНИЧЕСКИЕ СРЕДСТВА УПРАВЛЕНИЯ (ICCT-2024)

М.: Институт проблем управления им. В.А. Трапезникова РАН, 2024.

В сборник вошли материалы VIII Международной научной конференции «Информационные технологии и технические средства управления» (ICCT-2024). На конференции были рассмотрены вопросы, касающиеся перспектив развития научного приборостроения в телекоммуникационных и управляющих системах, биомедицинской информатики, аппаратного и программного обеспечения информационнокоммуникационных систем, надежности, диагностики и неразрушающего контроля, систем управления и автоматизации, цифровых экосистем, управления производством и логистикой, методов математического ...

Добавлено: 27 мая 2026 г.

Non-linear in-band interference cancellation on base of conjugate gradients method

Degtyarev A., Bakhurin S., Юдин Н. Е., DSPA 2026 P. 1–6

Добавлено: 26 мая 2026 г.

28th European Conference on Artificial Intelligence, 25-30 October 2025, Bologna, Italy – Including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025)

IOS Press, 2025.

Добавлено: 26 мая 2026 г.

Comparative Study of Training Methods and Architectures of Echo State Networks

Андросов И. А., Proceedings of the Institute for System Programming of the RAS 2026 Vol. 38 No. 3 P. 87–114

В работе рассматриваются сети эхо-состояний (Echo State Network, ESN), которые являются одними из самых распространенных способов реализации резервуарных вычислений. Они состоят из рекуррентной нейронной сети, веса которой выбираются один раз и не обучаются, и выходного, обычно линейного, обучаемого слоя. Такой подход позволяет создавать энергоэффективные и быстрые нейронные сети, способные обучаться в режиме реального времени. Но ...

Добавлено: 26 мая 2026 г.

Рефакторинг исходного кода на основе LLM и расширения UML

Караваева Е. А., Кулигин Л. А., Резуник Л. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 67–94

В статье представлен метод рефакторинга исходного кода на основе интеграции большой языковой модели (LLM) и расширенной UML-модели программного кода. Предложенный подход позволяет выявлять проблемные участки кода с использованием функций тревожности и структурных метрик классов, а затем выполнять автоматизированный рефакторинг. Ключевой особенностью метода является использование LLM для генерации формальных спецификаций на языке OCL (Object Constraint Language), ...

Добавлено: 24 мая 2026 г.

Coping with AI errors with provable guarantees

Tyukin I., Тюкина Т. А., van Helden D. P. и др., Information Sciences 2024 Vol. 678 Article 120856

Добавлено: 23 мая 2026 г.

Overcoming the Curse of Dimensionality with Synolitic AI

Zaikin A., Sviridov I., Sosedka A. и др., Technologies 2026 Vol. 14 No. 2 Article 84

Добавлено: 23 мая 2026 г.

Stable On-the-Fly Learning for Dynamic Neural Networks With Delayed Inputs

Chertopolokhov V., Mukhamedov A., Bugriy G. и др., IEEE Access 2026 Vol. 14 P. 14369–14392

Добавлено: 22 мая 2026 г.

Опыт применения сетевого анализа (SNA) в историческом нарративе полисубъектного региона (на примере валлийской хроники Brut y Tywysogyon)

Лошкарева М. Е., Матвеева Н. Н., Вестник Томского государственного университета. История 2026 № 100 С. 112–118

Предпринята попытка применения сетевого анализа в изучении средневекового нарративного источ ника. Цель исследования – проверка гипотезы о политической фрагментарности как основной причины завоевания Уэльса Англией. Построены сети взаимодействий исторических лиц на основе данных валлийской Хроники принцев с 1193 по 1282 г. Построение сетей демонстрирует, что завоевано Англией было формально объеди ненное княжество, ослабляемое не столько ...

Добавлено: 22 мая 2026 г.

Reproducible Benchmark of Wavelet-Enhanced Intrabody Communication Biometric Identification

Джин С., Комаров М. М., Scientific Reports 2026

Добавлено: 21 мая 2026 г.

ML-based Fast Simulation of FARICH Responses

Шипилов Ф. А., Barnyakov A., Ivanov A. и др., / Series Physics "arxiv.org". 2026.

Добавлено: 19 мая 2026 г.

Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 3: System Demonstrations)

Rabat: Association for Computational Linguistics, 2026.

Добавлено: 19 мая 2026 г.

Оборот цифровых активов: вызовы, возможности и правовые рамки

Панарина М. М., Законодательство 2026 № 5 С. 16–23

Автор рассматривает актуальные проблемы регулирования оборота цифровых активов в Российской Федерации, обращает внимание на причины значительных ограничений в сфере судебной защиты прав владельцев цифровых активов, отмечает правовые коллизии и пробелы. По ее мнению, лишь дальнейшее развитие законодательства позволит более четко определить и регламентировать использование цифровых активов в соответствии с требованиями оборота, а также обеспечить защиту ...

Добавлено: 14 мая 2026 г.

Digital twin framework for liquidity management: Bridging the gap between theory and operations

Zanko G., Назарова В. В., MULTIDISCIPLINARY SCIENCE JOURNAL 2026 Vol. 8 No. 10 P. e2026780

Добавлено: 10 мая 2026 г.

Балканские войны 1912–1913 гг. в современных национальных СМИ Сербии как символ единения балканских народов

Мулина А. А., В кн.: Балканские войны 1912–1913 гг.: далекие предпосылки и долгое эхо.: М.: Институт славяноведения РАН, 2024. С. 287–297.

В данной статье рассматривается вопрос отражения событий 1912–1913 гг. в национальных СМИ Сербии в 2012–2013 и 2022–2023 гг. Опираясь на «большие данные», полученные из сервиса Google, а также на материалы качественной газеты «Политика», автор анализирует особенности освещения эпизодов Балканских войн, а также запросы пользователей интернета на территории Сербии по темам, связанным с событиями 1912–1913 гг. ...

Добавлено: 21 апреля 2026 г.

Президентские выборы в Турецкой Республике в информационном пространстве стран Балканского полуострова: медиагеографический анализ

Мулина А. А., Якова Т. С., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2025 Т. 30 № 1 С. 161–171

В статье представлены результаты исследования информационного пространства Балканских государств, проведенного в период президентских выборов в Турции (2023 г.): авторы обратились к этому периоду как к одному из самых ярких политических событий страны за последнее пятилетие. Цель предлагаемой работы – выявить уровень интереса к внутриполитическим событиям Турции как со стороны жителей балканских стран, так и со ...

Добавлено: 21 апреля 2026 г.

Digital Sentiments: Toward a Theory of Emotions in Digital Governance

Vissoky G., Vigoda-Gadot E., Стырин Е. М., Public Administration Review 2026 P. 1–11

Добавлено: 16 апреля 2026 г.

Big Data как актив: задачи правового обеспечения оборота данных средствами публичного права

Лескина Э. И., Законодательство 2026 № 2 С. 22–29

Одним из признаков больших данных является ценность, что вытекает из сущности современного этапа развития общества, значения информации и данных. Однако без правового обеспечения экономической сущности данных становится невозможным реализация заложенного в данных потенциала. В настоящее время можно говорить о несовершенстве имеющихся правовых средств для использования такого актива в обороте. Исходя из комплексности феномена больших данных, ...

Добавлено: 13 апреля 2026 г.