Глава
Towards a Native Architecture of In-NVM DBMS
В книге
Эта статья описывает усовершенствованные алгоритмы лексической оптимизации запросов. Алгоритмы обнаруживают и удаляют избыточные условия из ограничения запроса, чтобы упростить его. Cтатья также представляет результаты применения этих оптимизационных техник и их влияние на скорость обработки запроса.
В последние годы нативные RDF хранилища сделали огромный прогресс в преодолении отставания в производительности по сравнению с реляционными СУБД. Однако, несмотря на уменьшение этого отставания, оно, тем не менее, по-прежнему препятствует использованию RDF хранилищ в сценариях с высокими требованиями по оперативности. Мы также стараемся внести вклад в сокращение отмеченного отставания и представляем созданное нами нативное RDF хранилище “OntoQuad” и основные принципы, на которых оно спроектировано. Основываясь на предыдущих исследованиях, мы разрабатываем векторные схемы базы данных для квадруплетов, реализовали их на индексной структуре данных, а также реализовали способы эффективного выполнения объединения двух и более наборов данных одновременно. Мы также предлагаем подходы для оптимизации плана выполнения запросов SPARQL, которые основываются на эвристических правилах преобразований. Эффективность выполнения запросов проверена и подтверждена на BSBM тестах. Полученные результаты могут быть использованы при разработке RDF СУБД, предназначенных для хранения больших объемов данных Semantic Web и создания крупномасштабных хранилищ семантических данных.
At the beginning of the paper, it is demonstrated that the technology of the most widely used SQL-oriented database management systems (DBMS) is inextricably linked with the technology of hard disk drives with movable heads (HDD). Features of HDD affect the data structures and algorithms for performing operations, methods of managing the buffer pool of the DBMS, transaction management, query optimization, etc. At present, new types of data storage hardware have appeared: block solid-state drives (SSD) and storage-class memory (SCM). SSD characteristics made it expedient to develop a DBMS in terms of their exclusive use, but so far, no such DBMS has been created, and SSDs are used simply instead of HDDs in DBMSs that do not take into account their features. The availability of SCM enables radical simplification of the architecture of the database systems and significantly improve their performance. To do this, we need to rethink many of the ideas used in disk-based databases.
Учебник создан в соответствии с Федеральным государственным образовательным стандартом по направлению подготовки "Прикладная математика и информатика" (квалификация "бакалавр"). В учебнике обсуждаются потребности разработчиков информационных систем в технологии баз данных, рассматриваются основные функции и типовая архитектура СУБД, а также приводится краткая характеристика нескольких популярных моделей данных. Подробно описывается реляционная модель данных, проектирование реляционных баз данных с использованием принципов нормализации и на основе семантических диаграммных моделей данных. В учебнике представлены также основные методы и алгоритмы, используемые в SQL-ориентированных СУБД; наиболее важные черты языка SQL как отдельной модели данных. Для студентов учреждений высшего профессионального образования. Может быть использован студентами, обучающимися по направлениям подготовки "Информатика и вычислительная техника" и "Прикладная математика".
Продемонстрировано, что технология наиболее распространенных в настоящее время SQL-ориентированных систем управления базами данных (СУБД) неразрывно связана с технологией HDD (Hard Disk Drive). Особенности HDD влияют на структуры данных и алгоритмы выполнения операций, на методы управления буферным пулом СУБД, на управление транзакциями, оптимизацию запросов и т. д. Альтернативой дисковым СУБД являются in-memory-СУБД, хранящие базы данных целиком в основной памяти. Несмотря на наличие у in-memory-СУБД ряда преимуществ перед дисковыми СУБД, в настоящее время конкуренция между ними практически отсутствует. Это прежде всего связано с естественными ограничениями на размеры баз данных, свойственными in-memory-СУБД. В настоящее время появились новые виды аппаратуры хранения данных: SSD — блочные твердотельные накопители, SCM — энергонезависимая основная память. Характеристики SSD делали целесообразной разработку СУБД, которая была рассчитана на их исключительное использование, однако до сих пор такая СУБД не создана. Накопители SSD просто используются вместо HDD в СУБД, не учитывающих их особенности. Наличие SCM позволяет радикально упростить архитектуры СУБД и значительно повысить их производительность. Для этого нужно пересмотреть многие идеи, используемые в дисковых СУБД.