Hadoop的集群管理和资源分配,虚拟机搭建Hadoop的全分布形式

Sqoop工具打包

Flow etl 执行所有已安排的表抽取。

Flow etl -task 1

Flow etl -task 1 2017-01-01

  • 读取mysql的extract_to_hdfsextract_db_info,依据部署消息生成.opt文件。
  • 通过Java的Process类调Linux命令:sqoop --options-file opt文件

idea打包Flow.jar,'D:/Java/idea/IdeaProjects/Hive_Prj/src/META-INF/MANIFEST.MF' already exists in VFS,删掉文件夹META-INF

db.properties是访问mysql数据库的配置。

extract_db_info,抽取的表来自的数据库的安排。

Flow.jar上传至/root/project/lib

/root/project/bin,创建Flow命令。

配置FLOW_HOME

vi /etc/profile

export FLOW_HOME=/root/project

source /etc/profile

配置db.properties

# FLOW_HOME
mkdir conf

vi db.properties

db.driver=com.mysql.jdbc.Driver
db.url=jdbc:mysql://cdhmaster:3306/test
db.user=root
db.password=123456

配置sqoop option目录sqoop/opts

# FLOW_HOME
mkdir -p sqoop/opts

若果要在推行时发生日志,需要开销jar时配置log4j。

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@310d117d is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

HDFSExtract.java,扩展部署--driver com.mysql.jdbc.Driver,重新包装上传。

学业可以对应做修改,如sh ./so.sh

# /root/project/sqoop_prj/DBS
vi so.sh

Flow etl -task 1 $yestoday

您或许还想看

数码解析/数据挖掘/机器学习

Python数据挖掘与机具学习_通信信用风险评估实战(1)——读数据

Python数据挖掘与机具学习_通信信用风险评估实战(2)——数据预处理

Python数据挖掘与机具学习_通信信用风险评估实战(3)——特征工程

Python数据挖掘与机具学习_通信信用风险评估实战(4)——模型练习与调优

爬虫

Python爬虫实战之爬取链家苏黎世房价_01简单易行的单页爬虫

Python爬虫实战之爬取链家墨尔本房价_02把小爬虫变大

Python爬虫实战之爬取链家苏黎世房价_03存储

Python爬虫实战之爬取链家圣地亚哥房价_04链家的依样画葫芦登录(记录)

搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

搜狗词库爬虫(2):基础爬虫框架的运转流程


微信公众号「数据解析」,分享数据数学家的自己修养,既然遇见,不如一起成长。

图片 1

多少解析

转载请申明:转载自微信公众号「数据解析」


Hive元数据库设置

进入cm的hive服务-配置中,

先举办资源管理,Hive Metastore Server的Java堆栈大小,200M。Hive
Server2的Java堆栈大小,200M。

Hive Metastore数据库,选取MySQL。Hive Metastore数据库名称,hive。Hive
Metastore数据库主机,cdhmaster。Hive Metastore数据库端口,3306。Hive
Metastore数据库用户,root。Hive
Metastore数据库密码,123456。自动成立和升级换代Hive
Metastore数据库架构,打勾。严俊的Hive Metastore架构验证,不打勾。

下一场启动Hive服务,观望Metastore
Server是否能连上mysql(实例点进去查看角色的日记)。假诺连不上,就反省grant访问mysql的权力。

[main]: Failed initialising database.
Unable to open a test connection to the given database. JDBC url = jdbc:mysql://cdhmaster:3306/hive?useUnicode=true&characterEncoding=UTF-8, username = root. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------
java.sql.SQLException: Access denied for user 'root'@'cdhmaster' (using password: YES)

GRANT ALL PRIVILEGES ON *.* TO 'root'@'cdhmaster' IDENTIFIED BY '123456' WITH GRANT OPTION;

Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境

案例一:把数量导入到HDFS上

/root/project
mkdir sqoop_prj
cd sqoop_prj/
mkdir DBS
cd DBS/
touch DBS.opt

hadoop fs -mkdir /user/hive/warehouse/DBS
which sqoop

实践opt文件,不可能传参,sqoop --options-file aa.opt-m,指定map数,假如抽取的表数据量大,则调大map数。如若-m设置为5,5个线程,则在HDFS上爆发5个文件。

把sqoop写到shell脚本的功利,可以传参数。

#!/bin/sh
. /etc/profile

hadoop fs -rmr /user/hive/warehouse/DBS



sqoop import  --connect "jdbc:mysql://cdhmaster:3306/hive"    \
--username root                                                          \
--password 123456                                                        \
-m    1                                                             \
--table  DBS                                                           \
--columns   "DB_ID,DESC,DB_LOCATION_URI,NAME,OWNER_NAME,OWNER_TYPE"         \
--target-dir  "/user/hive/warehouse/DBS"    

#--where "length(DESC)>0"                                               \                               
#--null-string ''

bug,驱动问题

ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.
java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@3c1a42fa is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

增添参数,参考

https://stackoverflow.com/questions/29162447/sqoop-import-issue-with-mysql

https://stackoverflow.com/questions/26375269/sqoop-error-manager-sqlmanager-error-reading-from-database-java-sql-sqlexcept

--driver com.mysql.jdbc.Driver

充实参数后的告诫,

WARN sqoop.ConnFactory: Parameter --driver is set to an explicit driver however appropriate connection manager is not being set (via --connection-manager). Sqoop is going to fall back to org.apache.sqoop.manager.GenericJdbcManager. Please specify explicitly which connection manager should be used next time.

bug,sql语法问题,

Error: java.io.IOException: SQLException in nextKeyValue

去掉关键词列DESC,参考,

https://community.cloudera.com/t5/Data-Ingestion-Integration/sqoop-throws-SQLException-in-nextKeyValue/m-p/42653

Hadoop实战(4)_Hadoop的集群管理和资源分配

Hadoop实战(4)_Hadoop的集群管理和资源分配

Hadoop实战(9)_Hive进阶及UDF开发

Hive序列布局

Hive有2个服务端守护进程:Hiveserver2:支撑JDBC访问,Thrift服务。MetaStore
Server:支撑访问元数据库的劳动。

Hadoop实战(3)_虚拟机搭建CDH的全分布形式

Sqoop语法表达

Sqoop官方学习文档:

http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.9.0/

Sqoop import是周旋于HDFS来讲,即从关系数据库import到HDFS上。

mysql的驱动包放到sqoop/lib下。

Hadoop实战(3)_虚拟机搭建CDH的全分布情势

Hadoop实战(2)_虚拟机搭建Hadoop的全分布情势

Hadoop实战(3)_虚拟机搭建CDH的全分布情势

长距离元数据库

元数据库可以设置在另外节点上,客户端通过MetaStoreServer服务走访元数据库。

(Meta Store Client/Hive CLI)-MetaStore Server(thrift)-MySQL Server

属性 默认值
hive.metastore.local true false
hive.metastore.uris 如thrift://192.168.1.110:9083

Hadoop运维经验补充

服务器更改IP咋办?

更新/etc/hosts,启动服务查看是否正常,倘使不可能健康用,执行主机-重新运行升级向导。

什么往集群中添加节点?

推行主机-向集群添加新主机。

7180界面打开后举行第一个反省

7180界面打开后,不要即刻启动服务,先举行一项检测后再开行服务,查看主机-上一检测信号。假使发现某节点没检测信号,首先把cm
Agent起来:

chkconfig --list|grep cloudera
service cloudera-scm-agent start

什么样转移集群的JDK

万一用别样版本jdk7是否能用?不可能用其他版本的jdk,哪怕小版本号对不上都卓殊。

当需要把JDK7升级为JDK8时,修改JAVA_HOME,就可以了吧?

1、修改JAVA_HOME品味是否管用。(全节点)

tar xvzf jdk-8u131-linux-x64.tar.gz
vi /etc/profile

JAVA_HOME=/root/jdk1.8.0_131

2、cm界面里重启服务,查看是否起效?不起效。

# 查看JDK
ps -ef|grep java

解决办法:在主机-配置-高级配置Java主目录,并在/etc/profile修改JAVA_HOME


你或许还想看

数据解析/数据挖掘/机器学习

Python数据挖掘与机具学习_通信信用风险评估实战(1)——读数据

Python数据挖掘与机具学习_通信信用风险评估实战(2)——数据预处理

Python数据挖掘与机具学习_通信信用风险评估实战(3)——特征工程

Python数据挖掘与机具学习_通信信用风险评估实战(4)——模型练习与调优

爬虫

Python爬虫实战之爬取链家特拉维夫房价_01大概的单页爬虫

Python爬虫实战之爬取链家马尼拉房价_02把小爬虫变大

Python爬虫实战之爬取链家台北房价_03存储

Python爬虫实战之爬取链家新德里房价_04链家的效仿登录(记录)

搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

搜狗词库爬虫(2):基础爬虫框架的运作流程


微信公众号「数据解析」,分享数据科学家的本人修养,既然遇见,不如一起成长。

数量解析

转载请注脚:转载自微信公众号「数据解析」


案例二:数据写Hive普通表(非分区表)

# mysql
create table test (id int, pdate date);
insert into test(id, pdate) values (1, '2017-11-05');
insert into test(id, pdate) values (2, '2017-11-06');
insert into test(id, pdate) values (3, '2017-11-05');
insert into test(id, pdate) values (4, '2017-11-06');

# hive
drop table if exists test;
create table test(id int, pdate string);

--hive-import,指定要写入hive表,该参数无value。

--hive-overwrite

--hive-table,test。

分区

波及DB的分区都是优先建好,一般都是经过某个字段的限制,比如date。

Hive的分区是写多少进去的时候自动建的,分区表insert时务必指定分区。

把一个文件入到Hive表有2中艺术:

方式1:通过load命令

方式2:首先hadoop fs -put至HDFS,然后alter location。

Hive的insert有2种,insert overwrite(覆盖),insert into(追加)。

create table track_log (
id                         string ,
url                        string ,
referer                    string ,
keyword                    string ,
type                       string ,
guid                       string ,
pageId                     string ,
moduleId                   string ,
linkId                     string ,
attachedInfo               string ,
sessionId                  string ,
trackerU                   string ,
trackerType                string ,
ip                         string ,
trackerSrc                 string ,
cookie                     string ,
orderCode                  string ,
trackTime                  string ,
endUserId                  string ,
firstLink                  string ,
sessionViewNo              string ,
productId                  string ,
curMerchantId              string ,
provinceId                 string ,
cityId                     string )  
PARTITIONED BY (date string,hour string)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082818' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='18');"

hive -e "LOAD DATA LOCAL INPATH '/root/data/2015082819' OVERWRITE INTO TABLE track_log PARTITION (date='2015-08-28',hour='19');"

select date,count(url) as pv, count(distinct guid) as uv from track_log where date='2015-08-28' group by date;

分区字段名不可以和一般性字段重复,分区字段用起来和常见字段没分别。

动态分区

表1是日期分区,需要把表1中数量写入表2(日期、时辰分区)?

insert overwrite table table2 partition(date='', hour='00') 
select 
from table1 
 where hour(time)=0;

create table rpt_visit_daily_hour 
(
    pv bigint,
    uv bigint
) partitioned by (date string, hour string);

insert overwrite table rpt_visit_daily_hour partition (date='2015-08-28', hour) 
select count(url) as pv, 
count(distinct guid) as uv, 
hour 
from track_log 
where date='2015-08-28' group by date,hour;

Hive表数据的来自

  • 工作系统,sqoop用于关系db和hive/hdfs导入导出。
  • 数据文件,hive load命令,用于加载网站用户作为数据。
  • 其它数据表,insert … select
  • 音讯中间件,比如kafka离线消费写HDFS。

Q:drop后的表面表在怎么着地方?

A:外部表数据没有去除,只是删除了表的元数据音信,手工把HDFS目录映射到hive表分区:
hive -e “alter table tt add partition (date=”,hour=”) location
‘/user/hive/warehouse/track_log/date=2015-08-28/hour=18′”

Hive官方文档:

https://cwiki.apache.org/confluence/display/Hive/Tutorial


您或许还想看

数据解析/数据挖掘/机器学习

Python数据挖掘与机具学习_通信信用风险评估实战(1)——读数据

Python数据挖掘与机具学习_通信信用风险评估实战(2)——数据预处理

Python数据挖掘与机具学习_通信信用风险评估实战(3)——特征工程

Python数据挖掘与机具学习_通信信用风险评估实战(4)——模型磨练与调优

爬虫

Python爬虫实战之爬取链家都柏林(Berlin)房价_01简单的单页爬虫

Python爬虫实战之爬取链家都柏林(Berlin)房价_02把小爬虫变大

Python爬虫实战之爬取链家华盛顿(华盛顿(Washington))房价_03存储

Python爬虫实战之爬取链家圣菲波哥大房价_04链家的模仿登录(记录)

搜狗词库爬虫(1):基础爬虫架构和爬取词库分类

搜狗词库爬虫(2):基础爬虫框架的运行流程


微信公众号「数据解析」,分享数据科学家的自我修养,既然遇见,不如一起成人。

多少解析

转载请注解:转载自微信公众号「数据解析」


NameNode热备HA实现

案例三:写Hive分区表,so,salesorder

注意事项:

1、用什么样字段做分区?
创设时间,而不是last_modify_time

Q:
用创设时间抽取至hive分区,订单状态变化周期是45天,订单状态变化后,hive数据怎么样共同?

hive不匡助update,天天抽取近15天的订单到Hive的各自分区里。Hive是做总结分析,平常最关切是明天的情景。

# cdhmaster
cd ~
mysql -uroot -p123456 < so.sql
ERROR 1046 (3D000) at line 3: No database selected

vi so.sql
use test;

mysql -uroot -p123456 < so.sql

# hive
CREATE TABLE so (
  order_id bigint,
  user_id bigint,
  order_amt double ,
  last_modify_time string
) partitioned by (date string);

Sqoop执行后,注意:

  • 会在该用户HDFS的home目录下,暴发一个与源表同名的目录,如/user/root/so
    一旦sqoop import至hive成功,该目录会自动删掉。
  • 在推行的目录下爆发一个java文件,即opt转化的MR Job代码。
  • sqoop import中,无论hive表是怎么列分隔符,均可以自行匹配。

Sqoop抽取框架封装:

  • 建一个mysql配置表,配置需要抽取的表及信息;
  • Java读取mysql配置表,动态生成opt文件;
  • Java中施行Process类调本地系统命令—sqoop –options-file opt文件;

Sqoop-imp -task 1 “2015-04-21”

Sqoop-imp “2015-04-21”

Hive命令

show databases;
use default;
create table test(id int, name string);
desc test;


个中表,又称托管表,drop后数据丢失。

表面表:create external table tableName,drop表时数据不会删除。

alter table set location '';
alter table add partition(date='') location '';

默认分隔符,列为\001,行为\n。

create external table page_view_stg
(userid bigint,
 url string,
 ip string comment 'IP Address of the User')
row format delimited fields terminated by '\t'
partitioned by (ds string, type string)
lines terminated by '\n'
stored as textfile
location '/user/hive/external/city';

字段类型

  • int
  • bigint,长整型
  • double,金额类
  • string,字符串,日期,非数值型的全体可以用string

Cli

hive -e “select …”

hive -f aa.sql

hive -e -i -i的效能是加载初阶化命令,比如UDF

create database dw location '/user/hive/dw';

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user/hive":hive:hive:drwxrwxr-t

解决办法,用hdfs帐户执行

su - hdfs
hadoop fs -chmod 777 /user/hive

hive
use dw;
create table aa(name string);

层层目录:

Sqoop export

# mysql test
create table so1 as 
select * from so where 1=0;

源头必须是HDFS/Hive,目的关周到据库。

表so1的datelast_modify_time修改为varchar

CDH Hadoop序列目录:

Cloudera Manager怎样卸载

卸载CM Server

sh /usr/share/cmf/uninstall-cloudera-manager.sh
rm -rf /usr/share/cmf /var/lib/cloudera* /var/cache/yum/x86_64/6/cloudera* /var/log/cloudera* /var/run/cloudera*  /etc/cloudera*

看日志

CM
manager的日志,/var/log/cloudera-manager-installer/var/log/cloudera-scm-agent/var/log/cloudera-scm-server

紧要目录

次第服务的装置根目录,/opt/cloudera/parcels/CDH/lib

配置文件,HDFS服务的三大布局文件,/etc/hadoop/conf。yarn的安排文件,oop/conf.cloudera.yarn。hive的部署文件,/etc/hive/conf

日记,Hadoop服务的日志都在界面里看。

Hadoop实战(8)_CDH添加Hive服务及Hive基础

添加Hive服务

增长服务-Hive,Gateway空,Hive Metastore
Server接纳cdhmaster,HiveServer2选用cdhslave1。使用嵌入式数据库测试连接跳过。

Capacity调度安排,实现多租户机制

Linux下帐户的根目录:/home/用户名

HDFS下帐户的根目录:/user/用户名

HDFS的回收站是帐户级其余,在/user/用户名/.Trash

1、设置调度项目

<property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

2、指定划分的queue名,分别分配50%,30%,20%的资源

<property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>default, queueB, queueC</value>
</property>

3、划分资源

<property>
    <name>yarn.scheduler.capacity.root.default.capacity</name>
    <value>50</value>
</property>
<property>
    <name>yarn.scheduler.capacity.root.queueB.capacity</name>
    <value>30</value>
</property>
<property>
    <name>yarn.scheduler.capacity.root.queueC.capacity</name>
    <value>20</value>
</property>

4、指定每个queue下的帐户

<property>
    <name>yarn.scheduler.capacity.root.default.acl_submit_applications</name>
    <value>root,hadoop</value>
    <description>限定哪些Linux用户/用户组可向给定队列中提交应用程序</description>
    </property>
<property>
    <name>yarn.scheduler.capacity.root.default.acl_administer_queue</name> 
    <value>hadoop</value> 
    <description>为队列指定管理员,可杀死任意一个应用程序等</description>
</property>
<property>
    <name>yarn.scheduler.capacity.root.default.state</name>
    <value>RUNNING</value>
    <description>default队列的状态,可以是RUNNING或者STOPPED.</description>
</property>

Hadoop实战(5)_Hadoop的运维经验

安装MySQL

yum list | grep mysql
yum install -y mysql-server
# 启动mysql服务
chkconfig --list | grep mysql
service mysqld start
chkconfig mysqld on
chkconfig --list | grep mysql
# 创建root管理员
mysqladmin -u root password 123456
# 登录mysql
mysql -u root -p
# 设置字符集,否则会造成转码问题
create database hive;
alter database hive character set latin1;
# 设置访问权限
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

字符集不正确的话,可能报错。

FAILED: Error in metadata: MetaException(message:Got exception: org.apache.thrift.transport.TTransportException null)
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

MySQL驱动,把mysql的驱动mysql-connector-java-5.1.18-bin.jar放在/opt/cloudera/parcels/CDH/lib/hive/lib/下。

(可选)复制mysql-connector-java-5.1.18-bin.jar/usr/share/cmf/lib/,供cm界面用,添加hive服务跳过元数据库配置即这一个驱动包可能会找不到。

Hadoop实战(4)_Hadoop的集群管理和资源分配

Hive用户接口

用户接口重要有五个:CLI, JDBC/ODBC和WebGUI。

CLI,即hive shell命令行,Command line。

JDBC/ODBC是Hive的JAVA,与利用传统数据库JDBC的措施接近。

WebGUI是经过浏览器访问Hive,放任功用。

CDH Hadoop体系目录:

Hive内核结构

Complier:编译器,编译hql语法。

Optimizer:优化hql代码,爆发最优执行计划。通过explain select
…查看执行计划。

Executor:执行最终转化的类(MRjob)。

Hadoop实战(5)_Hadoop的运维经验

相关文章