[vsftpd]vsftpd被动模式配置

2019/04/10 | 大数据 | hujiulin | 暂无评论 | 36 views

vsftpd.conf # Example config file /etc/vsftpd/vsftpd.conf # # The default compiled in settings are fairly paranoid. This sample file # loosens things up a bit, to make the ftp daemon more usable. # Please see vsftpd.conf.5 for all compiled in defaults. # # READ THIS: This example file is N……

[Docker]Docker常用命令备忘

2019/04/10 | 大数据 | hujiulin | 暂无评论 | 53 views

最近做的一个项目，涉及到MongoDB集群、Spark集群，Hadoop集群，Python2.7，Python3.5，各种推荐算法，Java Resin环境，LNMP环境、vsftpd等，因为需要部署内网环境、测试环境、生产环境，每次部署就是一次折磨，这个时候Docker的好处就体现出来了，把Python环境、LNMP环境、vsftpd等，全部打入docker中，特别爽歪歪。经过……

[ElasticSearch]PHP操作ElasticSearch

2018/01/04 | 大数据 | hujiulin | 2 条评论 | 2337 views

官方API: 可以下载官方的PHP ElasticSearch API 阅读文档进行相关操作。示例代码： static public function initSearchClient() { if (null == BaseFrontController::$client) { $hosts['hosts'] = array( "host" => '127.0.0.1', "port&……

[ElasticSearch]ES修改mapping

2017/11/19 | 大数据 | hujiulin | 暂无评论 | 807 views

用太多的MySQL这样的数据库了，直到有一天，用了ES遇到一个大坑。就是post mapping的时候有一个“字段”analyzed 和 not_analyzed没区分好，一时失误导致该列所有数据全部分词了。数据量大概1.5亿条。天真的以为能够像MySQL那样修改一下字段的属性即可。ES是基于Lucene的，没有别的办法，通俗一点讲，要么删除索引，重行……

[Java]Java通过JDBC连接运行Hive

2016/04/28 | 大数据 | hujiulin | 暂无评论 | 1563 views

Hadoop的版本繁多，一旦版本不对Hive的连接和操作可能会报各种各样的错误，这个时候需要用到上一篇博文提到的Maven来管理这些lib。 Hadoop以及Hive的版本查看： hadoop version hive --version pom的配置如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht……

[Hive]Need to specify partition columns because the destination table is partition

2016/02/23 | 大数据 | hujiulin | 暂无评论 | 5232 views

当向已经分区的表插入数据时，有可能会报错： Need to specify partition columns because the destination table is partition 原因是需要在插入的数据中指定分区字段的数值是多少。比如：建表语句： create table test ( starttime string, endtime string, title string ) PARTITIONED BY (username string) ROW FO……

[Hive]Hive SQL 分区间统计问题

2015/11/18 | 大数据 | hujiulin | 暂无评论 | 3060 views

需求：表table中存在一个text字段，需要统计出文本长度为[0,20]、[20,40]、[40,60]…按区间划分的数量。其中，需要自动化到包含最大值max的区间。实现：第一种方法： select count(case when length(text) between 0 and 20 then 1 end) as text1, count(case when length(text) between 21 and 40 then 1 end) as tex……

[Storm]Storm的安装

2015/10/01 | 大数据 | hujiulin | 暂无评论 | 863 views

用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能。 Home link: http://storm.apache.org/ Download link: http://storm.apache.org/downloads.html Setup 1. Java CentOS自带JDK 1.7，此处可以忽略该步骤。 2. Zookeeper Home link: http://zookeeper.apache.org/rel……

[Hadoop]CDH的环境搭建

2015/09/28 | 大数据 | hujiulin | 暂无评论 | 1976 views

1. Connect server 使用CRT或者Xshell远程连接即可。 2. Network config 首先需要给服务器配置DNS，判断服务器是否能连接外网。输入下列命令行即可： ping www.baidu.com 如果能收到来自www.baidu.com应答报表示外网能连接上的，如果是unknown host表示DNS配置不正确需要配置DNS。配置DNS有两种方式： 1) 临时……

CoinIdea的技术博客 Life is random – 记录成长的点滴

分类目录：大数据