Hive之路2-安装
- 安装
hive
- 配置环境变量
- 配置
hive
- 3种连接模式的介绍
- 各种bug
hive
的安装踩了各种坑😢
Stay Foolish Stay Hungry
The job tool allows you to create and work with saved jobs. Saved jobs remember the parameters used to specify a job, so they can be re-executed by invoking the job by its handle.
If a saved job is configured to perform an incremental import, state regarding the most recently imported rows is updated in the saved job to allow the job to continually import only the newest rows.
通过已经保存好的作业直接执行以前的任务,无需重复操作
记录sqoop命令的配置信息
saved job保证只导入最新的数据
The
export
tool exports a set of files from HDFS back to an RDBMS. The target table must already exist in the database. The input files are read and parsed into a set of records according to the user-specified delimiters.
table
必须是已经存在的–check-column:用来指定一些列,这些列在导入时候检查是否被作为增量数据;
**注意:**被检查的列的类型不能是任意字符类型,例如Char,VARCHAR…
(即字符类型不能作为增量标识字段)
–incremental:用来指定增量导入的模式Mode
,分为两种:append和lastmodified
**–last-value:**指定上一次导入中检查列指定字段最大值,一般是用时间
导入的主要语法是
1 | $ sqoop import (generic-args) (import-args) |
命令格式为:
1 | $ sqoop import |
sqoop的主要功能是导入和导出
sqoop是Apache旗下一款Hadoop和关系型数据服务器之间传送数据的的工具,其核心功能主要是两点:
导入数据:将mysql、oracle等数据库中的数据导入到Hadoop的HDFS、HIVE、HBASE等数据存储系统中
导出数据:从Hadoop的文件系统收纳柜到处数据到关系性数据库中
Hive
是由Facebook
实现并且开源Hadoop
的开源的数据仓工具,完成ETL(extract transform load)
,报表及数据分析等Hive
能够将结构化的数据映射称为一张表Hive
提供HQL(Hive SQL)
的查询功能HDFS
之上,使用于离线的批量数据计算Hive
的本质是将SQL
语句转换成MapReduce
任务进行运行LLAP(Live Long And Process)
,使Hive
实现内存计算主要是介绍在Mac系统下安装Hadoop的相关步骤,包含:
JDK
和``Hadoop`JDK
的安装和配置SSH
的配置,实现免密登陆hadoop
的安装与配置