大数据基础知识
目录
21年的时候做过一些大数据的项目,主要是批处理,现在也忘的差不多了,重新看一下概念性的东西做个笔记。
架构
lambda架构
最成熟的架构,上面是批处理,下面流处理。两套分离,比较浪费资源。
kappa
全部都是流处理,不推荐使用。
Smack
流批一体架构。
基于spark Streaming的,国外流行过,国内主要是基于flink的:
也就是基于数据湖的方案。
一个简单的架构方案:kafka -> flink -> hudi -> doris -> bi
hudi作为数据湖,ods层,主要是存储功能,doris作为OLAP引擎。在数据量较小时,可以省掉hudi,直接写入doris。这么做的好处是可以不依赖hadoop生态,使得架构较轻量。