# spark 部署 - 分布式内存计算引擎
https://abc.htmltoo.com/thread-45986.htm
# Kyuubi 部署 - 基于 Spark 的高性能 JDBC 和 SQL 执行引擎
https://abc.htmltoo.com/thread-46288.htm
# Iceberg 部署 - 标准化大数据存储格式
https://abc.htmltoo.com/thread-46289.htm
# dbt 部署 - 整个分析工程工作流
https://abc.htmltoo.com/thread-46292.htm
# projectnessie 部署 - 数据的git版本控制化
https://abc.htmltoo.com/thread-46290.htm
# Lakehouse - 湖仓一体, 数据湖屋, 统一数据仓库和高级分析
https://my.oschina.net/u/4565392/blog/5230928
结合了数据湖和数据仓库优势的新范式。
一旦将数据加载到数据湖中,就无需将数据加载到仓库中进行其他分析或商业智能。您可以直接查询便宜但高度可靠的存储(通常称为“对象存储”)中的数据,从而减少了数据管道上的操作开销。
从高层次看,Data Lakehouse具有以下特征–
事务支持
模式实施和治理
支持BI工具
存储应与计算分离
支持最新的存储格式
支持API访问
支持结构化和非结构化数据
支持流数据
Lakehouse可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式不开放和有限场景支持。
http://www.htmltoo.com/