三分钟搭建大数据sql开发平台

1,018 阅读2分钟

目前工作内容中包含比较多的sql需求,但是公司目前的sql开发平台hue系统最近越来越慢了,一般在开发过程中会验证一些小sql是否符合预期,某些大sql也可能会拆成数个/数十个子sql进行分步验证,如果每个小sql需要等待数分钟才能查看结果,无疑会导致sql开发效率变得低下

所以在本地搭建一个大数据sql开发平台就十分必要了

cloudera公司提供了方便的一键启动的虚拟机,参考:www.cloudera.com/downloads/q…

平时一般使用vmware虚拟机,这里就用vmware举例了,可以看到cloudera官方还支持virtual box, kvm, docker image等虚拟机系统,可以自行选择

获取hue虚拟机

单击"GET IT NOW",然后填一个问卷单就可以下载了,下载完成后可以检查下文件大小,约5.76GB是下载ok的

然后进行解压,双击cloudera-quickstart-vm-5.13.0-0-vmware.vmx就可以启动虚拟机了,操作效果如下:

配置静态ip

启动虚拟机后,hue、hive、impala已经默认可用了,一般都在虚拟机外使用浏览器访问hue,为了访问虚拟机内hue服务的稳定,有必要给这个虚拟机分配一个固定ip地址

在vmware fusion的Preferences中添加一张新的网卡

因为要分配静态ip,需要把DHCP自动分配ip的功能关掉,其它选项可以根据需要调整

然后给这个hue的虚拟机添加上这个网卡

network1

进入系统后执行ifconfig获取第二张网卡的硬件地址

然后在这张新网卡上申请固定ip地址:vi /etc/sysconfig/network-scripts/ifcfg-eth1

DEVICE="eth1"
BOOTPROTO="static"
IPV6INIT="no"
MTU="1500"
ONBOOT="yes"
TYPE="Ethernet"
IPADDR="192.168.26.24"
NETMASK="255.255.255.0"
GATEWAY="192.168.26.2"
DNS1="192.168.26.2"
HWADDR="00:0C:29:02:BC:6B"

重启虚拟机,静态ip就ok了,效果如下

可以看到静态ip 192.168.26.24已经成功配置上了

测试数据导入、sql执行

访问上面配置的静态ip的8888端口就可以使用hue了: http://192.168.26.24:8888/,效果如下

来体验一下本地hue的速度

2019-12-31 15.37.23
可以看到,这速度与动则要执行3,5分钟的公司系统对比简直飞一样的感觉~

一些注意的点

hue默认的用户名密码是 cloudera cloudera

在hue中上传文件时,需要上传到对应查询引擎的文件存放目录才可以正确导入数仓中

参考资料

  1. www.cloudera.com/downloads/q…
  2. www.voidcn.com/article/p-y…