Fork me on GitHub

Spark笔记13-Spark Streaming

Spark streaming

数据分类:静态数据和动态数据。静态数据的常见应用是数据仓库。利用数据挖掘和OLAP (on-line analytical processing)分析工具从静态数据中找出对企业有用的数据。

KHz6Q1.png

特点

  • 数据快速持续到达
  • 数据来源多,格式复杂
  • 数据量大
  • 注重数据的整体价值,不过分关注单个数据
  • 数据顺序颠倒或不完整,系统无法控制新数据的到达顺序

处理方式

  1. 批量计算

充裕时间处理静态数据,如Hadoop

  1. 实时计算

    流数据不适合采用批量计算,不适合传统的数据关系模型建模。必须采用实时计算

    在流计算中,数据的价值随着时间的流逝而降低

    • 高性能:每秒处理几十万条数据
    • 海量式:支持TB
    • 实时性:低延迟,达到秒级,甚至毫秒级
    • 分布式:支持分布式扩展
    • 易用性:快速开发和部署
    • 可靠性:可靠的处理流数据

流计算框架

  • IBM StreamBase
  • Twitter Storm
  • Yahoo! S4
  • Puma:Facebook
  • 银河流数据处理平台:TB
  • Dstream:百度

流处理和传统方式比较

方式 流处理 传统方式
数据 实时数据 静态数据
结果 实时结果 过去某个时刻
用户得到数据方式 系统主动推送 用户主动发出查询

本文标题:Spark笔记13-Spark Streaming

发布时间:2019年11月02日 - 09:11

原始链接:http://www.renpeter.cn/2019/11/02/Spark%E7%AC%94%E8%AE%B013-Spark-Streaming.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea