Fork me on GitHub

Spark笔记2-生态系统

三大应用常景

场景

  • 复杂的批处理:MapReduce
  • 交互式查询
  • 基于实时数据流的流处理:storm

缺陷

  1. 数据无法无缝共享,数据格式需要进行转换
  2. 维护成本高
  3. 资源利用率低下:每个资源框架都有自己的调度管家

Spark生态

一个软件栈满足不同的应用场景,通过YRAN作为公共的资源调度管家。

  • SQL及时查询
  • 流式计算
  • 机器学习
  • 图计算

构成

机器学习算法库

各个组件应用

本文标题:Spark笔记2-生态系统

发布时间:2019年10月23日 - 19:10

原始链接:http://www.renpeter.cn/2019/10/23/Spark%E7%AC%94%E8%AE%B02-%E7%94%9F%E6%80%81%E7%B3%BB%E7%BB%9F.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea