Spark + Kyuubi + Iceberg = Lakehouse 安装部署 大数据 docker


# spark 部署 - 分布式内存计算引擎

https://abc.htmltoo.com/thread-45986.htm


# Kyuubi 部署 - 基于 Spark 的高性能 JDBC 和 SQL 执行引擎

https://abc.htmltoo.com/thread-46288.htm


# Iceberg 部署 - 标准化大数据存储格式

https://abc.htmltoo.com/thread-46289.htm


# dbt 部署 - 整个分析工程工作流

https://abc.htmltoo.com/thread-46292.htm


# projectnessie 部署 - 数据的git版本控制化

https://abc.htmltoo.com/thread-46290.htm


# Lakehouse - 湖仓一体,  数据湖屋,  统一数据仓库和高级分析

https://my.oschina.net/u/4565392/blog/5230928

结合了数据湖和数据仓库优势的新范式。

一旦将数据加载到数据湖中,就无需将数据加载到仓库中进行其他分析或商业智能。您可以直接查询便宜但高度可靠的存储(通常称为“对象存储”)中的数据,从而减少了数据管道上的操作开销。

从高层次看,Data Lakehouse具有以下特征–

事务支持

模式实施和治理

支持BI工具

存储应与计算分离

支持最新的存储格式

支持API访问

支持结构化和非结构化数据

支持流数据

Lakehouse可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式不开放和有限场景支持。

签名:这个人很懒,什么也没有留下!
最新回复 (0)
返回