Hadoop的版本繁多,一旦版本不对Hive的连接和操作可能会报各种各样的错误,这个时候需要用到上一篇博文提到的Maven来管理这些lib。
Hadoop以及Hive的版本查看:
hadoop version
hive --version
pom的配置如下:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht……
当向已经分区的表插入数据时,有可能会报错:
Need to specify partition columns because the destination table is partition
原因是需要在插入的数据中指定分区字段的数值是多少。
比如:
建表语句:
create table test (
starttime string,
endtime string,
title string
)
PARTITIONED BY (username string)
ROW FO……
需求:
表table中存在一个text字段,需要统计出文本长度为[0,20]、[20,40]、[40,60]…按区间划分的数量。其中,需要自动化到包含最大值max的区间。
实现:
第一种方法:
select count(case when length(text) between 0 and 20 then 1 end) as text1,
count(case when length(text) between 21 and 40 then 1 end) as tex……
用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能。
Home link: http://storm.apache.org/
Download link: http://storm.apache.org/downloads.html
Setup
1. Java
CentOS自带JDK 1.7,此处可以忽略该步骤。
2. Zookeeper
Home link: http://zookeeper.apache.org/rel……
1. Connect server
使用CRT或者Xshell远程连接即可。
2. Network config
首先需要给服务器配置DNS,判断服务器是否能连接外网。
输入下列命令行即可:
ping www.baidu.com
如果能收到来自www.baidu.com应答报表示外网能连接上的,如果是unknown host表示DNS配置不正确需要配置DNS。
配置DNS有两种方式:
1) 临时……