MLlib

Posted on 2019-11-3 | In 大数据 , Spark |

Words count in article: 965 | Reading time ≈ 4

Spark MLlib

简介

MapReduce对机器学习的算法编写的缺点：

反复读写磁盘
磁盘IO开销大

机器学习算法中具有大量的迭代计算，导致了MapReduce不太适合。

Spark是基于内存的计算框架，使得数据尽量不存放在磁盘上，直接在内存上进行数据的操作。

MLlib只包含能够在集群上运行良好的并行算法。

Spark笔记17-Structured Streaming

Posted on 2019-11-3 | In 大数据 , Spark |

Words count in article: 739 | Reading time ≈ 3

Structured Streaming

概述

Structured Streaming将实时数据视为一张正在不断添加数据的表。

可以把流计算等同于在一个静态表上的批处理查询，进行增量运算。

在无界表上对输入的查询将生成结果表，系统每隔一定的周期会触发对无界表的计算并且更新结果。

Spark笔记16-DStream基础及操作

Posted on 2019-11-3 | In 大数据 , Spark |

Words count in article: 853 | Reading time ≈ 4

DStream

无状态转换操作

map：每个元素采用操作，返回的列表形式
flatmap：操作之后拍平，变成单个元素
filter：过滤元素
repartition：通过改变分区的多少，来改变DStream的并行度
reduce：对函数的每个进行操作，返回的是一个包含单元素RDD的DStream
count：统计总数
union：合并两个DStream
reduceByKey：通过key分组再通过func进行聚合
join：K相同，V进行合并同时以元组形式表示

Spark笔记15-Spark数据源及操作

Posted on 2019-11-2 | In 大数据 , Spark |

Words count in article: 1.6k | Reading time ≈ 7

数据输入源

Spark Streaming中的数据来源主要是

系统文件源
套接字流
RDD对列流
高级数据源Kafka

Spark笔记14-SparkStreaming运行及创建

Posted on 2019-11-2 | In 大数据 , Spark |

Words count in article: 376 | Reading time ≈ 1

SparkStreaming 数据源

SparkStreaming的数据来源广泛，主要有

Kafka
HDFS
Flume
DataBases
Dashboards
Tcp socket

基本原理

将实时输入的数据流以时间片（秒级）为单位进行拆分，然后经过Spark引擎之后，以类似批处理的方式处理每个时间片的数据。

Spark笔记13-Spark Streaming

Posted on 2019-11-2 | In 大数据 , Spark |

Words count in article: 359 | Reading time ≈ 1

Spark streaming

数据分类：静态数据和动态数据。静态数据的常见应用是数据仓库。利用数据挖掘和OLAP （on-line analytical processing）分析工具从静态数据中找出对企业有用的数据。

特点

数据快速持续到达
数据来源多，格式复杂
数据量大
注重数据的整体价值，不过分关注单个数据
数据顺序颠倒或不完整，系统无法控制新数据的到达顺序

Spark笔记12-DataFrame创建、保存

Posted on 2019-11-1 | In 大数据 , Spark |

Words count in article: 529 | Reading time ≈ 2

DataFrame

概述

DataFrame可以翻译成数据框，让Spark具备了处理大规模结构化数据的能力。

比原有RDD转化方式更加简单，获得了更高的性能
轻松实现从mysql到DF的转化，支持SQL查询
DF是一种以RDD为基础的分布式数据集，提供了详细的结构信息。传统的RDD是Java对象集合

比特币和挖矿

Posted on 2019-11-1 | In 区域链 |

Words count in article: 402 | Reading time ≈ 1

比特币

比特币是一种数字货币。中本聪在2008年11月1日提出来。

去中心化的电子记账系统
通过挖矿获得比特币，通过公开记账的方式来完成支付

Spark笔记11-Spark-SQL基础

Posted on 2019-10-31 | In 大数据 , Spark |

Words count in article: 372 | Reading time ≈ 1

Spark SQL基础

Hive

Hive会将SQL语句转成MapReduce作业，本身不执行SQL语句。基本执行原理如下图：

Shark

Hive在Hadoop生态圈上运行的，于是出现了在Spark生态圈的Shark。

基本上和Hive的解析过程、逻辑执行等相同
将mapreduce作业换成了Spark作业
将HiveQL解析换成了Spark上的RDD操作

存在的两个主要问题：
- spark是线程并行，mapreduce是进程级并行
- spark在兼容Hive的基础上存在线程安全性问题

Spark笔记10-demo

Posted on 2019-10-31 | In 大数据 , Spark |

Words count in article: 534 | Reading time ≈ 2

案例

根据几个实际的应用案例来学会spark中map、filter、take等函数的使用

案例1

找出TOP5的值

filter(func)：筛选出符合条件的数据
map(func)：对传入数据执行func操作
sortByKey()：只能对键值对进行操作，默认是升序