Добавить
Уведомления

ADVDB23 22 - DuckDB изнутри

DuckDB изнутри. Слайды https://15721.courses.cs.cmu.edu/spring2023/slides/22-duckdb.pdf Статьи в видео: M. Raasveldt, et al., DuckDB: an Embeddable Analytical Database, in SIGMOD, 2019 https://15721.courses.cs.cmu.edu/spring2023/papers/22-duckdb/2019-duckdbdemo.pdf M. Raasveldt, et al., Data Management for Data Science Towards Embedded Analytics, in CIDR, 2020 https://15721.courses.cs.cmu.edu/spring2023/papers/22-duckdb/p23-raasveldt-cidr20.pdf Viktor Leis, et al., Morsel-Driven Parallelism: A NUMA-Aware Query Evaluation Framework for the Many-Core Age. in SIGMOD 2014: https://dl.acm.org/doi/pdf/10.1145/2588555.2610507 DuckDB: SQL Parser - Lukas Fittl. 2019. C library for accessing the PostgreSQL parser outside of the server environment. https://github.com//fittl/libpg_query Оптимизатор (стоимостной) - Guido Moerkotte and Thomas Neumann. 2008. Dynamic programming strikes back. In Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, BC, Canada, June 10-12, 2008. 539–552. https://doi.org/10.1145/1376616.1376672 - Thomas Neumann and Alfons Kemper. 2015. Unnesting Arbitrary Queries. In Datenbanksysteme für Business, Technologie und Web (BTW), 16. Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme" (DBIS), 4.-6.3.2015 in Hamburg, Germany. Proceedings. 383–402. https://dl.gi.de/20.500.12116/2418 Исполнитель (векторный) - Peter A. Boncz, Marcin Zukowski, and Niels Nes. 2005. MonetDB/X100: Hyper-Pipelining Query Execution. In CIDR 2005, Second Biennial Conference on Innovative Data Systems Research, Asilomar, CA, USA, January 4-7, 2005. 225–237. http://cidrdb.org/cidr2005/papers/P19.pdf Управление конкурентностью доступа - сериализованный MVCC - Thomas Neumann, Tobias Mühlbauer, and Alfons Kemper. 2015. Fast Serializable Multi-Version Concurrency Control for Main-Memory Database Systems. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, Melbourne, Victoria, Australia, May 31 - June 4, 2015. 677–689. https://doi.org/10.1145/2723372.2749436 Хранение (Datablocks) - Harald Lang, Tobias Mühlbauer, Florian Funke, et al. 2016. Data Blocks: Hybrid OLTP and OLAP on Compressed Storage using both Vectorization and Compilation. In Proceedings of the 2016 International Conference on Management of Data, SIGMOD Conference 2016, San Francisco, CA, USA, June 26 - July 01, 2016. 311–326. https://doi.org/10.1145/2882903.2882925 00:00 Вступление 00:12 Представление лектора 01:00 Что такое DuckDB 06:28 Обзор 08:12 Векторный тип данных в памяти 13:00 - Проблемы с векторами, как их решили 15:05 - Векторы - унифицированный формат 21:44 - Строки 23:28 - Структуры и списки - вложенные типы 28:15 Выполнение запросов 30:55 - Параллельное выполнение 35:35 - Pipelines 36:30 - Модель pull 37:16 - Модель push 46:20 Формат хранения (формат, сжатие ...) 52:00 Ответы на вопросы 59:23 Расширения 01:00:10 - DuckDB WASM 01:02:10 - DuckDB pluggable File System 01:02:16 - DuckDB Pluggable Catalog 01:06:54 Ограничение памяти (out-of-core функциональность) 01:09:34 Транзакции (MVCC...) 01:10:00 Форматы данных (Parquet, CSV, JSON, Arrow, Pandas, SQLite, PostgreSQL...) 01:12:15 DuckDB pluggable File System (S3, HTTP файловые системы) 01:12:56 Выводы, вопросы и ответы 01:18:25 Конец

Иконка канала DatabaseInternals
12 подписчиков
12+
32 просмотра
10 месяцев назад
12+
32 просмотра
10 месяцев назад

DuckDB изнутри. Слайды https://15721.courses.cs.cmu.edu/spring2023/slides/22-duckdb.pdf Статьи в видео: M. Raasveldt, et al., DuckDB: an Embeddable Analytical Database, in SIGMOD, 2019 https://15721.courses.cs.cmu.edu/spring2023/papers/22-duckdb/2019-duckdbdemo.pdf M. Raasveldt, et al., Data Management for Data Science Towards Embedded Analytics, in CIDR, 2020 https://15721.courses.cs.cmu.edu/spring2023/papers/22-duckdb/p23-raasveldt-cidr20.pdf Viktor Leis, et al., Morsel-Driven Parallelism: A NUMA-Aware Query Evaluation Framework for the Many-Core Age. in SIGMOD 2014: https://dl.acm.org/doi/pdf/10.1145/2588555.2610507 DuckDB: SQL Parser - Lukas Fittl. 2019. C library for accessing the PostgreSQL parser outside of the server environment. https://github.com//fittl/libpg_query Оптимизатор (стоимостной) - Guido Moerkotte and Thomas Neumann. 2008. Dynamic programming strikes back. In Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, BC, Canada, June 10-12, 2008. 539–552. https://doi.org/10.1145/1376616.1376672 - Thomas Neumann and Alfons Kemper. 2015. Unnesting Arbitrary Queries. In Datenbanksysteme für Business, Technologie und Web (BTW), 16. Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme" (DBIS), 4.-6.3.2015 in Hamburg, Germany. Proceedings. 383–402. https://dl.gi.de/20.500.12116/2418 Исполнитель (векторный) - Peter A. Boncz, Marcin Zukowski, and Niels Nes. 2005. MonetDB/X100: Hyper-Pipelining Query Execution. In CIDR 2005, Second Biennial Conference on Innovative Data Systems Research, Asilomar, CA, USA, January 4-7, 2005. 225–237. http://cidrdb.org/cidr2005/papers/P19.pdf Управление конкурентностью доступа - сериализованный MVCC - Thomas Neumann, Tobias Mühlbauer, and Alfons Kemper. 2015. Fast Serializable Multi-Version Concurrency Control for Main-Memory Database Systems. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, Melbourne, Victoria, Australia, May 31 - June 4, 2015. 677–689. https://doi.org/10.1145/2723372.2749436 Хранение (Datablocks) - Harald Lang, Tobias Mühlbauer, Florian Funke, et al. 2016. Data Blocks: Hybrid OLTP and OLAP on Compressed Storage using both Vectorization and Compilation. In Proceedings of the 2016 International Conference on Management of Data, SIGMOD Conference 2016, San Francisco, CA, USA, June 26 - July 01, 2016. 311–326. https://doi.org/10.1145/2882903.2882925 00:00 Вступление 00:12 Представление лектора 01:00 Что такое DuckDB 06:28 Обзор 08:12 Векторный тип данных в памяти 13:00 - Проблемы с векторами, как их решили 15:05 - Векторы - унифицированный формат 21:44 - Строки 23:28 - Структуры и списки - вложенные типы 28:15 Выполнение запросов 30:55 - Параллельное выполнение 35:35 - Pipelines 36:30 - Модель pull 37:16 - Модель push 46:20 Формат хранения (формат, сжатие ...) 52:00 Ответы на вопросы 59:23 Расширения 01:00:10 - DuckDB WASM 01:02:10 - DuckDB pluggable File System 01:02:16 - DuckDB Pluggable Catalog 01:06:54 Ограничение памяти (out-of-core функциональность) 01:09:34 Транзакции (MVCC...) 01:10:00 Форматы данных (Parquet, CSV, JSON, Arrow, Pandas, SQLite, PostgreSQL...) 01:12:15 DuckDB pluggable File System (S3, HTTP файловые системы) 01:12:56 Выводы, вопросы и ответы 01:18:25 Конец

, чтобы оставлять комментарии