DStream
无状态转换操作
- map:每个元素采用操作,返回的列表形式
- flatmap:操作之后拍平,变成单个元素
- filter:过滤元素
- repartition:通过改变分区的多少,来改变DStream的并行度
- reduce:对函数的每个进行操作,返回的是一个包含单元素
RDD
的DStream
- count:统计总数
- union:合并两个
DStream
- reduceByKey:通过key分组再通过
func
进行聚合 - join:
K
相同,V
进行合并同时以元组形式表示
有状态转换操作
在有状态转换操作而言,本批次的词频统计,会在之前的词频统计的结果上进行不断的累加,最终得到的结果是所有批次的单词的总的统计结果。
滑动窗口转换操作
- 主要是两个参数
(windowLength, slideInterval)
- 滑动窗口的长度
- 滑动窗口间隔
-
两个重要的函数
第二个函数中增加逆向函数的作用是减小计算量
1 | # 数据源终端 |
upateaStateByKey
1 | from __future__ import print_function |
DStream输出操作
输出到文本
1 | from __future__ import print_function |
DStream写入到mysql
1 | 启动mysql |
1 | from __future__ import print_function |