不为无益之事,何遣有涯之生

Spark3速记

spark的核心抽象概念是RDD,但是到了spark2就不再推荐直接使用rdd来编程,而是使用sparkSQL和StructStreaming(代替旧的spark streaming)。

数仓模型理论知识笔记

数据类型

  • 枚举类型:标称属性
  • 排序:序数属性
  • 布尔类型:二元属性
  • 普通数值:
    • 有0点:可以计算比率,所以称为比率标度属性,比如开氏温度
    • 无0点:区间标度属性,比如摄氏温度
  • 字符串

统计维度

  • 均值:普通均值、加权均值、截尾均值(舍去最大、最小的一部分之后)
  • 分位数:从小到大排序后位于每个分位的数,常用的包括中位数、4分位数、100分位数等
    • 4分位第一个点叫$Q_1$, 第三个是$Q_3$, $IQR=Q_3-Q_1$,这是四分位极差
    • 识别可疑离群点的通常规则是:挑选落在$Q_3$之上或者$Q_1$之下至少$1.5 \times IQR$位置的值
    • 五数概括:4分位点加上最小、最大值;可用盒图表示
  • 众数:出现最频繁的值
  • 中列数:最大和最小值的均值
  • 方差:个体与均值的差的平方和

可视化技术

  • 像素图
  • 散点图
  • 直方图
  • 切尔诺父脸
  • 人物线条画
  • 标签云

相似性与相异性

使用邻近性度量来量化该值。对于上文所说的集中数值类型,都有对应的公式。

Hive速记

众所周知,hadoop可以大略分为hdfs文件系统+MR引擎两部分构成,然后再加上yarn这个调度引擎(有的公司改用k8s调度了)。

Hive是用来将SQL语句转成MR的,最初是Facebook贡献,后转为Apache开源项目。

Springcloud Alibaba学习笔记

公司技术选型决定使用spring-cloud-alibaba作为基础框架,这里简单记录一下对没用过组件的学习笔记。

Nacos

主要完成服务发现、配置分发、流量管理等功能。

0%