Spark on Hive实现APP渠道分析

Spark on Hive实现APP渠道分析

背景

最近在做APP投放渠道分析,就是Android应用投放到应用市场,所谓渠道就是huawei,xiaomi,yingyongbao之类,运营人员根据数据分析渠道的下载安装情况、各个渠道的投放效果。

Read more
Hive on spark实践

Hive on spark实践

配置

利用Cloudera的CDH套件搭建好Hadoop 2.6,可CDH中的Hive版本不高,于是独立安装Hive 2.3,由于Hive的执行引擎默认是Spark,根据Hive官网上的Hive on Spark教程开始配置。

Read more

Hive环境搭建(Ubuntu)

Hive是什么?

基于Hadoop的数据查询工具,可以使用类SQL进行数据查询。

Hadoop安装

  • 参考了Hadoop安装
  • 注意到etc/hadoop/hadoop-env.sh里设置JAVA_HOME,不然运行./start_dfs.sh会报没设置JAVA_HOME
  • 运行程序时,输出目录不能存在
  • 配置文件
    • hdfs的输出目录需要保证空间充足,我在虚拟机里玩,分配的磁盘空间太小,另外加了空间并挂载,重新设置了输出目录。

Hive安装

  • 参考了安装hive
  • MetaStore用了MySQL,结果安装的驱动版本不正确,遇到MetaStoreClient lost connection. Attempting to reconnect。

实践后感

真正装环境的坑还是很多的,开始分配的虚拟机磁盘空间太小了,基本运行不了,jdbc驱动版本不正确都会导致Hive客户端开启后时常崩溃,配置文件的一些常用选项需要了解,如果出现问题可以有一个解决思路,当然Google还是常用些,实在解决不了如很难想到是jdbc驱动的原因,我就下了一份源码,定位到报错,通过代码推测了发生问题的地方。

引用

Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×