大数据基础知识

21年的时候做过一些大数据的项目,主要是批处理,现在也忘的差不多了,重新看一下概念性的东西做个笔记。

架构

lambda架构

image-20241229102235658

最成熟的架构,上面是批处理,下面流处理。两套分离,比较浪费资源。

kappa

image-20241229102757159

全部都是流处理,不推荐使用。

Smack

流批一体架构。

image-20241229102900136

基于spark Streaming的,国外流行过,国内主要是基于flink的:

img

也就是基于数据湖的方案。

一个简单的架构方案:kafka -> flink -> hudi -> doris -> bi

hudi作为数据湖,ods层,主要是存储功能,doris作为OLAP引擎。在数据量较小时,可以省掉hudi,直接写入doris。这么做的好处是可以不依赖hadoop生态,使得架构较轻量。

0%