分类目录:大数据

以下是分类 大数据 下的所有文章

[Docker]Docker常用命令备忘

最近做的一个项目,涉及到MongoDB集群、Spark集群,Hadoop集群,Python2.7,Python3.5,各种推荐算法,Java Resin环境,LNMP环境、vsftpd等,因为需要部署内网环境、测试环境、生产环境,每次部署就是一次折磨,这个时候Docker的好处就体现出来了,把Python环境、LNMP环境、vsftpd等,全部打入docker中,特别爽歪歪。经过……

[ElasticSearch]ES修改mapping

用太多的MySQL这样的数据库了,直到有一天,用了ES遇到一个大坑。 就是post mapping的时候有一个“字段”analyzed 和 not_analyzed没区分好,一时失误导致该列所有数据全部分词了。数据量大概1.5亿条。 天真的以为能够像MySQL那样修改一下字段的属性即可。ES是基于Lucene的,没有别的办法,通俗一点讲,要么删除索引,重行……

[Java]Java通过JDBC连接运行Hive

Hadoop的版本繁多,一旦版本不对Hive的连接和操作可能会报各种各样的错误,这个时候需要用到上一篇博文提到的Maven来管理这些lib。 Hadoop以及Hive的版本查看: hadoop version hive --version pom的配置如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht……

[Hive]Need to specify partition columns because the destination table is partition

当向已经分区的表插入数据时,有可能会报错: Need to specify partition columns because the destination table is partition 原因是需要在插入的数据中指定分区字段的数值是多少。 比如: 建表语句: create table test ( starttime string, endtime string, title string ) PARTITIONED BY (username string) ROW FO……

[Hive]Hive SQL 分区间统计问题

需求: 表table中存在一个text字段,需要统计出文本长度为[0,20]、[20,40]、[40,60]…按区间划分的数量。其中,需要自动化到包含最大值max的区间。 实现: 第一种方法: select count(case when length(text) between 0 and 20 then 1 end) as text1, count(case when length(text) between 21 and 40 then 1 end) as tex……

[Storm]Storm的安装

用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能。 Home link: http://storm.apache.org/ Download link: http://storm.apache.org/downloads.html   Setup 1.       Java CentOS自带JDK 1.7,此处可以忽略该步骤。 2.       Zookeeper Home link: http://zookeeper.apache.org/rel……

[Hadoop]CDH的环境搭建

1.   Connect server 使用CRT或者Xshell远程连接即可。 2.   Network config 首先需要给服务器配置DNS,判断服务器是否能连接外网。 输入下列命令行即可: ping www.baidu.com 如果能收到来自www.baidu.com应答报表示外网能连接上的,如果是unknown host表示DNS配置不正确需要配置DNS。 配置DNS有两种方式: 1)      临时……