Fork me on GitHub

Spark笔记13-Spark Streaming

Posted on 2019-11-2 | In 大数据 , Spark |

Words count in article: 359 | Reading time ≈ 1

Spark streaming

数据分类：静态数据和动态数据。静态数据的常见应用是数据仓库。利用数据挖掘和OLAP （on-line analytical processing）分析工具从静态数据中找出对企业有用的数据。

特点

数据快速持续到达
数据来源多，格式复杂
数据量大
注重数据的整体价值，不过分关注单个数据
数据顺序颠倒或不完整，系统无法控制新数据的到达顺序

处理方式

批量计算

充裕时间处理静态数据，如Hadoop等

实时计算

流数据不适合采用批量计算，不适合传统的数据关系模型建模。必须采用实时计算

在流计算中，数据的价值随着时间的流逝而降低
- 高性能：每秒处理几十万条数据
- 海量式：支持TB
- 实时性：低延迟，达到秒级，甚至毫秒级
- 分布式：支持分布式扩展
- 易用性：快速开发和部署
- 可靠性：可靠的处理流数据

流计算框架

IBM StreamBase
Twitter Storm
Yahoo! S4
Puma：Facebook
银河流数据处理平台：TB
Dstream：百度

流处理和传统方式比较

方式	流处理	传统方式
数据	实时数据	静态数据
结果	实时结果	过去某个时刻
用户得到数据方式	系统主动推送	用户主动发出查询

本文标题:Spark笔记13-Spark Streaming

发布时间:2019年11月02日 - 09:11

原始链接:http://www.renpeter.cn/2019/11/02/Spark%E7%AC%94%E8%AE%B013-Spark-Streaming.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际转载请保留原文链接及作者。

Coffee or Tea