不为无益之事，何遣有涯之生

Spark3速记

tryao 发布于 2021-08-30

spark的核心抽象概念是RDD，但是到了spark2就不再推荐直接使用rdd来编程，而是使用sparkSQL和StructStreaming（代替旧的spark streaming）。

tryao 发布于 2021-08-29

均值：普通均值、加权均值、截尾均值（舍去最大、最小的一部分之后）
分位数：从小到大排序后位于每个分位的数，常用的包括中位数、4分位数、100分位数等
- 4分位第一个点叫$Q_1$, 第三个是$Q_3$, $IQR=Q_3-Q_1$，这是四分位极差
- 识别可疑离群点的通常规则是：挑选落在$Q_3$之上或者$Q_1$之下至少$1.5 \times IQR$位置的值
- 五数概括：4分位点加上最小、最大值；可用盒图表示
众数：出现最频繁的值
中列数：最大和最小值的均值
方差：个体与均值的差的平方和

使用邻近性度量来量化该值。对于上文所说的集中数值类型，都有对应的公式。

tryao 发布于 2021-08-24

众所周知，hadoop可以大略分为hdfs文件系统+MR引擎两部分构成，然后再加上yarn这个调度引擎（有的公司改用k8s调度了）。

Hive是用来将SQL语句转成MR的，最初是Facebook贡献，后转为Apache开源项目。

tryao 发布于 2021-08-03

tryao 发布于 2021-07-01

公司技术选型决定使用spring-cloud-alibaba作为基础框架，这里简单记录一下对没用过组件的学习笔记。

主要完成服务发现、配置分发、流量管理等功能。

tryao 发布于 2021-06-28

目前设计的物联网平台（以下简称平台）主要负责以下事宜：