Hive之路2-安装和配置

Posted on 2019-11-21 | In 大数据 , hive |

Words count in article: 1k | Reading time ≈ 4

Hive之路2-安装

安装hive
配置环境变量
配置hive
3种连接模式的介绍
各种bug

hive的安装踩了各种坑😢

sqoop之旅7-sqoop job

Posted on 2019-11-20 | In 大数据 , sqoop |

Words count in article: 196 | Reading time ≈ 1

sqoop job

Purpose

The job tool allows you to create and work with saved jobs. Saved jobs remember the parameters used to specify a job, so they can be re-executed by invoking the job by its handle.

If a saved job is configured to perform an incremental import, state regarding the most recently imported rows is updated in the saved job to allow the job to continually import only the newest rows.

通过已经保存好的作业直接执行以前的任务，无需重复操作
记录sqoop命令的配置信息
saved job保证只导入最新的数据

Read more »

sqoop之旅6-数据导出

Posted on 2019-11-20 | In 大数据 , sqoop |

Words count in article: 771 | Reading time ≈ 3

sqoop-export

Purpose

The export tool exports a set of files from HDFS back to an RDBMS. The target table must already exist in the database. The input files are read and parsed into a set of records according to the user-specified delimiters.

目的：将数据从HDFS导出到RDBMS中
导出的目标表table必须是已经存在的

sqoop之旅5-sqoop实例

Posted on 2019-11-20 | In 大数据 , sqoop |

Words count in article: 463 | Reading time ≈ 2

假设MySQL数据库中有一张表，库名是sqooptest，表名是digdata，表的字段包含：

class_id
class_name
class_month
teacher

sqoop之旅4-增量导入

Posted on 2019-11-19 | In 大数据 , sqoop |

Words count in article: 490 | Reading time ≈ 2

1、核心参数

–check-column：用来指定一些列，这些列在导入时候检查是否被作为增量数据；

**注意：**被检查的列的类型不能是任意字符类型，例如Char，VARCHAR…（即字符类型不能作为增量标识字段）

–incremental：用来指定增量导入的模式Mode，分为两种：append和lastmodified

**–last-value：**指定上一次导入中检查列指定字段最大值，一般是用时间

sqoop之旅3-数据导入

Posted on 2019-11-19 | In 大数据 , sqoop |

Words count in article: 2.1k | Reading time ≈ 11

sqoop-import

introduction

导入的主要语法是

1 2	$ sqoop import (generic-args) (import-args) $ sqoop-import (generic-args) (import-args)

命令格式为：

$ sqoop import
--connect \  (连接字符)
--username \ (用户名)
--password [-P |--password-file]\ (单个密码或用文件形式，文件权限一般为400)
--query \   (查询字符串)
--warehouse-dir \  (导入的HDFS目录)
--fields-terminal-by \  (分隔符，默认是逗号)
-m [--num-mappers]   (MR任务数量，控制导入并行度)

sqoop之旅2-基本使用

Posted on 2019-11-18 | In 大数据 , sqoop |

Words count in article: 606 | Reading time ≈ 2

sqoop 基本使用

sqoop的主要功能是导入和导出

导入
- 读数据（row-by-row）
- 并行化执行
- 导入的结果可以是文本文件或者二进制序列化文件
导出
- 并行化读取HDFS文件

sqoop之旅1-初识与安装

Posted on 2019-11-18 | In 大数据 , sqoop |

Words count in article: 308 | Reading time ≈ 1

Sqoop学习之旅1-初识与安装

简介

sqoop是Apache旗下一款Hadoop和关系型数据服务器之间传送数据的的工具，其核心功能主要是两点：

导入和迁入
导出和迁出

导入数据：将mysql、oracle等数据库中的数据导入到Hadoop的HDFS、HIVE、HBASE等数据存储系统中

导出数据：从Hadoop的文件系统收纳柜到处数据到关系性数据库中

Hive之路1-初识Hive

Posted on 2019-11-18 | In 大数据 , hive |

Words count in article: 1.6k | Reading time ≈ 5

Hive之路1-初识Hive

Hive简介

什么是Hive

Hive是由Facebook实现并且开源
基于Hadoop的开源的数据仓工具，完成ETL（extract transform load），报表及数据分析等
Hive能够将结构化的数据映射称为一张表
Hive提供HQL（Hive SQL）的查询功能
底层的数据是存储在HDFS之上，使用于离线的批量数据计算
Hive的本质是将SQL语句转换成MapReduce任务进行运行
LLAP（Live Long And Process），使Hive实现内存计算

hadoop之旅1

Posted on 2019-11-17 | In 大数据 , hadoop |

Words count in article: 1.4k | Reading time ≈ 7

mac下安装Hadoop

主要是介绍在Mac系统下安装Hadoop的相关步骤，包含：

安装包的下载：JDK和``Hadoop`
JDK 的安装和配置
SSH的配置，实现免密登陆
hadoop的安装与配置

hadoop集群搭建

基于Hadoop2.9.2使用云服务器搭建hadoop集群