Hadoop的集群管理和财富分配,职分调整框架

CDH Hadoop连串目录:

CDH Hadoop类别目录:

Sqoop框架基础

本节大家第一供给领会的是大数目标某些搭档框架,也是属于Hadoop生态系统或左近的内容,比如:

** 数据转变工具:Sqoop

** 文件采摘库框架:Flume

** 职责调治框架:Oozie

** 大数据Web工具:Hue

那一个框架为啥成为主流,请自行百度Google,此处不再赘言。

Hadoop实战(3)_设想机搭建CDH的全遍布形式

Hadoop实战(3)_虚构机搭建CDH的全分布格局

* CDH版本框架

Cloudera公司表露的CDH版本,在境内,比非常多大公司仍在利用,比如:一号店,京东,天猫,百度等等。Cloudera集团公布的每贰个CDH版本,当中贰个最大的好处就是,帮大家化解了大数目Hadoop
2.x生态系统中逐条框架的本子包容难点,大家直接选取某一版本,比如CDH5.3.6版本,当中hadoop版本2.5.0,hive版本0.13.1,flume版本1.4.5;还会有少数就是类似Sqoop、Flume、Oozie等框架,在编写翻译的时候都要依赖对应的Hadoop
2.x版本,使用CDH版本的时候,已经给大家编译好了,不必要再重新配置编写翻译。

传送门已开启:CDH5.x版本下载地址

享受地址:链接:http://pan.baidu.com/s/1bpIPhxH 密码:qes2

Hadoop实战(4)_Hadoop的集群处理和资源分配

Hadoop实战(4)_Hadoop的集群众管理理和能源分配

* 安装配置CDH版本Hadoop

** 这或多或少与在此以前布置安装apache的hadoop大概,所以,直接写主体思路:

1、在modules中创建新目录cdh来解压hadoop-cdh

2、修改hadoop以下配置文件的JAVA_HOME

** hadoop-env.sh

** yarn-env.sh

** mapred-env.sh

3、继续修改以下配置文件

** core-site.xml

** hdfs-site.xml

** yarn-site.xml

** mapred-site.xml

** slaves

4、拷贝至其余服务器

Hadoop实战(5)_Hadoop的运营经验

Hadoop实战(5)_Hadoop的运营经验

* 安装配备CDH版本zookeeper

1、修改zoo.cfg

2、修改myid(zkData目录不改变的话,就绝不再行修改了)

3、格式化HDFS,初步化zookeeper,并拉开服务

三台机械:

分别开启:

** zookeeper服务,以及journalnode节点服务

$ sh /opt/modules/zookeeper-xx.xx.xx/bin/zkServer.sh start

$ sbin/hadoop-daemon.sh start journalnode

** 接着格式化namenode节点

$ bin/hadoop namenode -format

** 然后在备用namenode机器上实践元数据同步

$ bin/hdfs namenode -bootstrapStandby

** 最终依次运转就可以

$ sbin/start-dfs.sh

$ sbin/start-yarn.sh

$ sbin/mr-jobhistory-daemon.sh start historyserver

(尖叫提醒:假诺设置了日志聚合功效,请在yarn-site.xml中配置yarn.log.server.url,如下图)

图片 1

Hadoop实战(8)_CDH添加Hive服务及Hive基础

Hive连串布局

Hive有2个服务端守护进度:Hiveserver2:支撑JDBC访谈,Thrift服务。MetaStore
Server:支撑访谈元数据库的劳务。

(尖叫提醒:假诺重新制定了HDFS的Data目录,可能格式化了NameNode节点,请登入mysql删除metastore库,因为该库存储了hive数据仓库的元数据)

Hadoop实战(9)_Hive进阶及UDF开发

Hive内核结构

Complier:编译器,编译hql语法。

Optimizer:优化hql代码,爆发最优实践安顿。通过explain select
…查看试行布署。

Executor:试行最后转化的类(M奥迪Q5job)。

* 安装配备CDH版本Hive

** 修改如下配置文件:

** hive-env.sh

** hive-site.xml

** 拷贝JDBC驱动到hive的lib目录下

$ cp mysql-connector-java-5.1.27-bin.jar
/opt/modules/cdh/hive-0.13.1-cdh5.3.6/lib/

** 运营mysql,设置客商,权限

忘掉请阅读前一篇小说

** 修改目录权限

管教HDFS符合规律运作,之后涉及命令:

$ bin/hadoop fs -chmod g+w /tmp

$ bin/hadoop fs -chmod g+w /user/hive/warehouse

Sqoop语法表明

Sqoop官方学习文书档案:

http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.0/

Sqoop import是相对于HDFS来说,即从关周详据库import到HDFS上。

mysql的驱动包放到sqoop/lib下。

Hive顾客接口

客商接口主要有八个:CLI, JDBC/ODBC和WebGUI。

CLI,即hive shell命令行,Command line。

JDBC/ODBC是Hive的JAVA,与应用守旧数据库JDBC的不二诀窍临近。

WebGUI是由此浏览器访问Hive,舍弃成效。

上述配置完毕后本身的三台机器的JPS分别为:

z01:

图片 2

z02:

图片 3

z03:

图片 4

案例一:把数量导入到HDFS上

/root/project
mkdir sqoop_prj
cd sqoop_prj/
mkdir DBS
cd DBS/
touch DBS.opt

hadoop fs -mkdir /user/hive/warehouse/DBS
which sqoop

实践opt文件,无法传参,sqoop --options-file aa.opt-m,钦定map数,倘诺抽出的表数据量大,则调大map数。倘若-m设置为5,5个线程,则在HDFS上产生5个文本。

把sqoop写到shell脚本的益处,能够传参数。

#!/bin/sh
. /etc/profile

hadoop fs -rmr /user/hive/warehouse/DBS



sqoop import  --connect "jdbc:mysql://cdhmaster:3306/hive"    \
--username root                                                          \
--password 123456                                                        \
-m    1                                                             \
--table  DBS                                                           \
--columns   "DB_ID,DESC,DB_LOCATION_URI,NAME,OWNER_NAME,OWNER_TYPE"         \
--target-dir  "/user/hive/warehouse/DBS"    

#--where "length(DESC)>0"                                               \                               
#--null-string ''

bug,驱动难题

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

日增参数,仿效

https://stackoverflow.com/questions/29162447/sqoop-import-issue-with-mysql

https://stackoverflow.com/questions/26375269/sqoop-error-manager-sqlmanager-error-reading-from-database-java-sql-sqlexcept

--driver com.mysql.jdbc.Driver

追加参数后的告诫,

WARN sqoop.ConnFactory: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time.

bug,sql语法难题,

Error: java.io.IOException: SQLException in nextKeyValue

去掉关键词列DESC,参考,

https://community.cloudera.com/t5/Data-Ingestion-Integration/sqoop-throws-SQLException-in-nextKeyValue/m-p/42653

添加Hive服务

累加服务-Hive,Gateway空,Hive Metastore
Server选用cdhmaster,HiveServer2选取cdhslave1。使用嵌入式数据库测量试验连接跳过。

* Sqoop

** 什么?这几个丹麦语单词的情趣?只可以这么解释:

SQL-TO-HADOOP

看加粗部分就可以理解,那些东西其实就是贰个延续守旧关系型数据库和Hadoop的桥梁,有如下三个基本点成效:

** 把关系型数据库的多寡导入到Hadoop与其连带的系列(HBase和Hive)中

** 把多少从Hadoop系统里抽取并导出到关系型数据Curry

在转储进度中,sqoop利用mapreduce加速数据的传输速度,以批管理的艺术实行数量传输。

如图所示:

图片 5

** 版本划分

** sqoop1(1.4.x+)和sqoop2(1.99.x+),注意那四个本子是截然不相称的

** sqoop2的进化:

*** 引进了sqoop server,集中国化学工业进出口总公司管理Connector

*** 多样寻访方式:CLI,Web UI,REST API

*** 引进基于剧中人物的安全机制

** sqoop设计架构

图片 6

** sqoop使用逻辑

图片 7

基于上海教室,大家需求知道多少个概念:

** import:

向HDFS、hive、hbase中写入数据

** export

向关系型数据库中写入数据

** 安装sqoop

*** 将sqoop压缩包解压至/opt/modules/cdh目录下

*** 拷贝sqoop-env-template.sh文件并取名称叫sqoop-env.sh文件

*** 配置sqoop-env.sh

听大人说在那之中的葡萄牙共和国(República Portuguesa)语注脚,应该也能够知情供给改些什么:没有错,就是让sqoop去关联其余服务,hbase先不用管它。

安顿好后如图:

图片 8

*** 拷贝jdbc的驱动到sqoop的lib目录下

$ cp
/opt/modules/apache-hive-0.13.1-bin/lib/mysql-connector-java-5.1.27-bin.jar
lib/

** 开头玩耍sqoop

*** 查看sqoop帮助:

$ bin/sqoop help,如图:

图片 9

*** 测量试验sqoop是不是连接成功

$ bin/sqoop list-databases –connect jdbc:mysql://z01:3306/metastore
–username root –password 123456

如图:

图片 10

案例二:数据写Hive普通表(非分区表)

# mysql
create table test (id int, pdate date);
insert into test(id, pdate) values (1, '2017-11-05');
insert into test(id, pdate) values (2, '2017-11-06');
insert into test(id, pdate) values (3, '2017-11-05');
insert into test(id, pdate) values (4, '2017-11-06');

# hive
drop table if exists test;
create table test(id int, pdate string);

--hive-import,内定要写入hive表,该参数无value。

--hive-overwrite

--hive-table,test。

安装MySQL

yum list | grep mysql
yum install -y mysql-server
# 启动mysql服务
chkconfig --list | grep mysql
service mysqld start
chkconfig mysqld on
chkconfig --list | grep mysql
# 创建root管理员
mysqladmin -u root password 123456
# 登录mysql
mysql -u root -p
# 设置字符集,否则会造成转码问题
create database hive;
alter database hive character set latin1;
# 设置访问权限
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

字符集不精确的话,恐怕报错。

FAILED: Error in metadata: MetaException(message:Got exception: org.apache.thrift.transport.TTransportException null)
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

MySQL驱动,把mysql的驱动mysql-connector-java-5.1.18-bin.jar放在/opt/cloudera/parcels/CDH/lib/hive/lib/下。

(可选)复制mysql-connector-java-5.1.18-bin.jar/usr/share/cmf/lib/,供cm分界面用,增加hive服务跳过元数据库配置即这么些驱动包可能会找不到。

* 接下来我们写多少个例子,成效用法便可看清

案例三:写Hive分区表,so,salesorder

注意事项:

1、用如何字段做分区?
创立时间,并不是last_modify_time

Q:
用创设时间收取至hive分区,订单状态变化周期是45天,订单状态变化后,hive数据怎样同步?

hive不协理update,每一天抽出近15天的订单到Hive的分级分区里。Hive是做总结剖析,日常最关切是明日的景观。

# cdhmaster
cd ~
mysql -uroot -p123456 < so.sql
ERROR 1046 (3D000) at line 3: No database selected

vi so.sql
use test;

mysql -uroot -p123456 < so.sql

# hive
CREATE TABLE so (
  order_id bigint,
  user_id bigint,
  order_amt double ,
  last_modify_time string
) partitioned by (date string);

Sqoop执行后,注意:

  • 会在该客户HDFS的home目录下,发生贰个与源表同名的目录,如/user/root/so
    万一sqoop import至hive成功,该目录会自动删掉。
  • 在实践的目录下发生一个java文件,即opt转化的M凯雷德 Job代码。
  • sqoop import中,无论hive表是什么列分隔符,均能够自行相称。

Sqoop收取框架封装:

  • 建八个mysql配置表,配置须求抽出的表及新闻;
  • Java读取mysql配置表,动态生成opt文件;
  • Java中进行Process类调本地系统命令—sqoop –options-file opt文件;

Sqoop-imp -task 1 “2015-04-21”

Sqoop-imp “2015-04-21”

Hive元数据库设置

进入cm的hive服务-配置中,

先进行资源管理,Hive Metastore Server的Java仓库大小,200M。Hive
Server2的Java酒店大小,200M。

Hive Metastore数据库,选拔MySQL。Hive Metastore数据库名称,hive。Hive
Metastore数据库主机,cdhmaster。Hive Metastore数据库端口,3306。Hive
Metastore数据库客户,root。Hive
Metastore数据库密码,123456。自动创制和升级换代Hive
Metastore数据库框架结构,打勾。严刻的Hive Metastore框架结构验证,不打勾。

接下来运转Hive服务,观察Metastore
Server是或不是能连上mysql(实例点进去查看剧中人物的日记)。如果连不上,就反省grant访问mysql的权力。

[main]: Failed initialising database.
Unable to open a test connection to the given database. JDBC url = jdbc:mysql://cdhmaster:3306/hive?useUnicode=true&characterEncoding=UTF-8, username = root. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------
java.sql.SQLException: Access denied for user 'root'@'cdhmaster' (using password: YES)

GRANT ALL PRIVILEGES ON *.* TO 'root'@'cdhmaster' IDENTIFIED BY '123456' WITH GRANT OPTION;

例子1:RDBMS->HDFS

Sqoop export

# mysql test
create table so1 as 
select * from so where 1=0;

源头必需是HDFS/Hive,指标关周密据库。

表so1的datelast_modify_time修改为varchar

长距离元数据库

元数据库能够安装在别的节点上,客户端通过MetaStoreServer服务拜访元数据库。

(Meta Store Client/Hive CLI)-MetaStore Server(thrift)-MySQL Server

属性 默认值
hive.metastore.local true false
hive.metastore.uris 如thrift://192.168.1.110:9083

行使sqoop将mysql中的数据导入到HDFS中

Sqoop工具打包

Flow etl 试行全部已布局的表收取。

Flow etl -task 1

Flow etl -task 1 2017-01-01

  • 读取mysql的extract_to_hdfsextract_db_info,依照陈设新闻生成.opt文件。
  • 通过Java的Process类调Linux命令:sqoop --options-file opt文件

idea打包Flow.jar,'D:/Java/idea/IdeaProjects/Hive_Prj/src/META-INF/MANIFEST.MF' already exists in VFS,删掉文件夹META-INF

db.properties是访谈mysql数据库的配备。

extract_db_info,抽出的表来自的数据库的布局。

Flow.jar上传至/root/project/lib

/root/project/bin,创建Flow命令。

配置FLOW_HOME

vi /etc/profile

export FLOW_HOME=/root/project

source /etc/profile

配置db.properties

# FLOW_HOME
mkdir conf

vi db.properties

db.driver=com.mysql.jdbc.Driver
db.url=jdbc:mysql://cdhmaster:3306/test
db.user=root
db.password=123456

配置sqoop option目录sqoop/opts

# FLOW_HOME
mkdir -p sqoop/opts

借使要在实施时发破壳日志,须求开辟jar时配置log4j。

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

HDFSExtract.java,扩张布置--driver com.mysql.jdbc.Driver,重新包装上传。

学业能够对应做修改,如sh ./so.sh

# /root/project/sqoop_prj/DBS
vi so.sh

Flow etl -task 1 $yestoday

你可能还想看

数量解析/数据发现/机器学习

Python数据开掘与机械和工具学习_通信信用危害评估实战(1)——读数据

Python数据开采与机械和工具学习_通信信用风险评估实战(2)——数据预管理

Python数据发现与机械和工具学习_通讯信用危机评估实战(3)——特征工程

Python数据开采与机械和工具学习_通讯信用风险评估实战(4)——模型练习与调优

爬虫

Python爬虫实战之爬取链家迈阿密房价_01简短的单页爬虫

Python爬虫实战之爬取链家圣菲波哥伦比亚大学房价_02把小爬虫变大

Python爬虫实战之爬取链家迈阿密房价_03存储

Python爬虫实战之爬取链家迈阿密房价_04链家的萧规曹随登陆(记录)

搜狗词库爬虫(1):基础爬虫架商谈爬取词库分类

搜狗词库爬虫(2):基础爬虫框架的运维流程


微信公众号「数据深入分析」,分享数据地文学家的小编修养,既然遇见,不比一齐成长。

图片 11

数量深入分析

转发请评释:转发自微信民众号「数据分析」


Hive命令

show databases;
use default;
create table test(id int, name string);
desc test;


在那之中表,又称托管表,drop后数据错失。

外表表:create external table tableName,drop表时数据不会去除。

alter table set location '';
alter table add partition(date='') location '';

暗中认可分隔符,列为\001,行为\n。

create external table page_view_stg
(userid bigint,
 url string,
 ip string comment 'IP Address of the User')
row format delimited fields terminated by '\t'
partitioned by (ds string, type string)
lines terminated by '\n'
stored as textfile
location '/user/hive/external/city';

字段类型

  • int
  • bigint,长整型
  • double,金额类
  • string,字符串,日期,非数值型的总体可以用string

Cli

hive -e “select …”

hive -f aa.sql

hive -e -i -i的效果是加载初步化命令,比如UDF

create database dw location '/user/hive/dw';

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user/hive":hive:hive:drwxrwxr-t

化解办法,用hdfs帐户试行

su - hdfs
hadoop fs -chmod 777 /user/hive

hive
use dw;
create table aa(name string);

step1、在mysql中开创一张表,表里面弄点数量

开启mysql服务:

# systemctl start  mysqld.service

登入mysql服务:

# mysql -uroot -p123456

创制二个新的数据库:

mysql> create database db_demo;

成立完成后,呈现一下,如图:

图片 12

在db_demo下创制一张表:

mysql> use db_demo;

mysql> create table user(

-> id int(4) primary key not null auto_increment,

-> name varchar(255) not null,

-> sex varchar(255) not null

-> );

如图:

图片 13

分区

涉及DB的分区都是事先建好,一般都以经过某个字段的界定,比如date。

Hive的分区是写多少进去的时候自动建的,分区表insert时必需钦命分区。

把一个文件入到Hive表有第22中学方法:

方式1:通过load命令

方式2:首先hadoop fs -put至HDFS,然后alter location。

Hive的insert有2种,insert overwrite(覆盖),insert into(追加)。

create table track_log (
id                         string ,
url                        string ,
referer                    string ,
keyword                    string ,
type                       string ,
guid                       string ,
pageId                     string ,
moduleId                   string ,
linkId                     string ,
attachedInfo               string ,
sessionId                  string ,
trackerU                   string ,
trackerType                string ,
ip                         string ,
trackerSrc                 string ,
cookie                     string ,
orderCode                  string ,
trackTime                  string ,
endUserId                  string ,
firstLink                  string ,
sessionViewNo              string ,
productId                  string ,
curMerchantId              string ,
provinceId                 string ,
cityId                     string )  
PARTITIONED BY (date string,hour string)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082818' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='18');"

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082819' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='19');"

select date,count(url) as pv, count(distinct guid) as uv from track_log where date='2015-08-28' group by date;

分区字段名无法和平日字段重复,分区字段用起来和日常字段没分别。

动态分区

表1是日期分区,须求把表1中多少写入表2(日期、小时分区)?

insert overwrite table table2 partition(date='', hour='00') 
select 
from table1 
 where hour(time)=0;

create table rpt_visit_daily_hour 
(
    pv bigint,
    uv bigint
) partitioned by (date string, hour string);

insert overwrite table rpt_visit_daily_hour partition (date='2015-08-28', hour) 
select count(url) as pv, 
count(distinct guid) as uv, 
hour 
from track_log 
where date='2015-08-28' group by date,hour;

Hive表数据的来自

  • 业务系统,sqoop用于关系db和hive/hdfs导入导出。
  • 数据文件,hive load命令,用于加载网址客商作为数据。
  • 别的数据表,insert … select
  • 消息中间件,比方kafka离线花费写HDFS。

Q:drop后的表面表在怎样地方?

A:外界表数据未有删除,只是删除了表的元数据音信,手工业把HDFS目录映射到hive表分区:
hive -e “alter table tt add partition (date=”,hour=”) location
‘/user/hive/warehouse/track_log/date=2015-08-28/hour=18′”

Hive官方文书档案:

https://cwiki.apache.org/confluence/display/Hive/Tutorial


您恐怕还想看

数据剖析/数据发现/机器学习

Python数据开采与机械和工具学习_通信信用风险评估实战(1)——读数据

Python数据发现与机械和工具学习_通讯信用风险评估实战(2)——数据预管理

Python数据开采与机械和工具学习_通讯信用危机评估实战(3)——特征工程

Python数据开掘与机械和工具学习_通讯信用危机评估实战(4)——模型演习与调优

爬虫

Python爬虫实战之爬取链家华盛顿房价_01简便的单页爬虫

Python爬虫实战之爬取链家广州房价_02把小爬虫变大

Python爬虫实战之爬取链家台中房价_03存储

Python爬虫实战之爬取链家布宜诺斯艾Liss房价_04链家的效仿登陆(记录)

搜狗词库爬虫(1):基础爬虫架商谈爬取词库分类

搜狗词库爬虫(2):基础爬虫框架的运作流程


微教徒人号「数据深入分析」,共享数据地史学家的自家修养,既然遇见,不比一齐成年人。

数码分析

转发请评释:转发自微信大伙儿号「数据剖判」


step2、向刚刚开立的那张表中程导弹入一些多少

mysql> insert into user(name, sex) values(‘托马斯’,’Male’);
若是须求插入行数据,你驾驭咋办。

终极小编的表形成了那般:

图片 14

step3、使用sqoop导入数据至HDFS

情势1:全部导入

$ bin/sqoop import \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–table user \

–target-dir /user/hive/warehouse/user \

–delete-target-dir \

–num-mappers 1 \

–fields-terminated-by “\t”

解释:

** –target-dir /user/hive/warehouse/user: 钦赐HDFS输出目录

** –delete-target-dir \:固然下面输出目录存在,就先删除

** –num-mappers 1
\:设置map个数为1,私下认可意况下map个是4,暗许会在输出目录生成4个文本

** –fields-terminated-by \t:钦定文件的相间符为 \t

工作有成后,HDFS对应目录中会产生三个part文件,如图所示:

图片 15

查阅该文件:

图片 16

花样2:导入钦定询问结果

$ bin/sqoop import \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–target-dir /user/hive/warehouse/user \

–delete-target-dir \

–num-mappers 1 \

–fields-terminated-by “\t” \

–query ‘select id,name from user where id>=3 and $CONDITIONS’

解释:

–query ‘select id,name from user where id>=3 and $CONDITIONS’
:把select语句的询问结果导入

方式3:导入钦点列

$ bin/sqoop import \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–table user \

–target-dir /user/hive/warehouse/user \

–delete-target-dir \

–num-mappers 1 \

–fields-terminated-by “\t” \

–columns  id,sex

款式4:where钦点条件

$ bin/sqoop import \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–table user \

–target-dir /user/hive/warehouse/user \

–delete-target-dir \

–num-mappers 1 \

–fields-terminated-by “\t” \

–columns  id,name \

–where “id<=3”

例子2:Mysql -> Hive

选取sqoop将mysql里面包车型客车数码导入到Hive表

Step1、成立hive表(注:假使不创设,则自动生成表)

hive> create database db_hive_demo ;

create table db_hive_demo.user (

id int,

name string,

sex string

)

row format delimited fields terminated by “\t” ;

操作如图:

图片 17

Step2、向hive中导入数据

$ bin/sqoop import \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–table user \

–num-mappers 1 \

–hive-import \

–hive-database db_hive_demo \

–hive-table user \

–fields-terminated-by “\t” \

–delete-target-dir \

–hive-overwrite

完成后,查看:

图片 18

例子3:Hive/HDFS -> RDBMS

从Hive或HDFS中把数据导入mysql

Step1、在mysql中创建贰个待导入数据的表

mysql> use db_demo;

mysql> create table user_from_hadoop(

-> id int(4) primary key not null auto_increment,

-> name varchar(255) default null,

-> sex varchar(255) default null

-> );

如图:

图片 19

Step2、将hive大概hdfs中的数据导入到mysql表中

$ bin/sqoop export \

–connect jdbc:mysql://z01:3306/db_demo \

–username root \

–password 123456 \

–table user_from_hadoop \

–num-mappers 1 \

–export-dir /user/hive/warehouse/db_hive_demo.db/user \

–input-fields-terminated-by “\t”

导入成功后,查看:

图片 20

* Sqoop 其余用法

恍如hive,sqoop也得以将讲话保存在文书中,然后实施这些文件。

例如:

编写该文件:

$ mkdir opt/

vi opt/job_temp.opt,内容如图:

图片 21

施行该公文:

$ bin/sqoop  –options-file
opt/job_temp.opt,实现后翻看该hive表,如图:

图片 22

* 总结

本节执教了怎么在CDH中配备使用hadoop、hive、sqoop,以及学习了整个操作流程,大家能够和睦节和测量检验着练习一下,数据分析并把结果输出到Mysql数据库中以便于接口等服务。


IT全栈大伙儿号:

图片 23

QQ大数据技能调换群(广告勿入):476966007

图片 24


下一节:Hive框架基础(四)后续更新

相关文章