国产轻量级BI平台CBoard的安装和初步使用介绍

24,942 阅读7分钟

背景

在目前我接触过的轻量级BI工具中,我最喜欢的是MS Power BI。

喜欢的理由粗暴直接:

  • 自带轻量级ETL工具Power Query,在数据仓库不完善的场景下特别有用;

  • 可视化的建模方式,拖拉放,所见即所得;

  • 强大的DAX,不但能定义Measure,还可以编写循环等高级查询;

  • 通过Embed方式嵌入Web应用,无缝集成在自己的应用中;

如果只是个人使用,我觉得这简直是一个完美的工具了。但是,凡事就怕但是,在企业级应用中,当前版本的Power BI有几个不太方便的地方。对我而言,最不能忍的一点就是数据需要完全导入到PBI文件之后才能使用(官方提供了Direct Query模式,仅支持部分数据源)。

所以呢,一直想要寻找一款趁手好用的轻量级开源BI产品。虽然尝试过Superset,Metabase等知名产品后,但总觉得有各种不方便。最近看到一款国内开发的产品CBoard,简单使用之后,觉得还是挺惊艳的。虽然目前CBoard还有各种不完美的地方,但是我仍然觉得值得一试。

准备及安装工作

JDK1.8

Maven 3

CBoard项目需要使用maven编译,所以先安装maven

# 解压maven
cd /usr/local
tar zxvf apache-maven-3.3.9-bin.tar.gz

# 设置环境变量
vi /etc/profile #增加下列配置

export MAVEN_HOME=/usr/local/apache-maven-3.3.9
export PATH=${MAVEN_HOME}/bin:${PATH}

# 配置好maven仓库,这里推荐一个阿里云的maven镜像
vi /usr/local/apache-maven-3.3.9/conf/settings.xml

<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>
</mirror>

PhantomJS 2

如果要使用看板导出和邮件功能,需要安装PhantomJS 2.1+

# 需要依赖的包,主要是fontconfig-devel
yum install -y gcc gcc-c++ make git openssl-devel freetype-devel fontconfig-devel

# 用phantomjs去截取中文页面可能会出现乱码的情况,安装字体可以解决
yum install -y bitmap-fonts bitmap-fonts-cjk

# 解压
tar xvf phantomjs-2.1.1-linux-x86_64.tar.bz2

# 创建软链接
ln -sf /usr/local/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/local/bin/phantomjs

下载源代码

使用的版本是0.4.2

git clone https://github.com/yzhang921/CBoard.git
git checkout branch-0.4.2

初始化元数据

当前版本(0.4)的元数据存储仅支持MySQL,Oracle,所以先使用MySQL。官方提供了两个样本文件来初始化演示内容,也可以使用空白数据库自己从新创建。因为已经尝试过演示库,所以这一次从零开始创建。

create database cboard;
use cboard;
source sql/mysql/mysql.sql;

修改配置文件

在正式编译代码之前,可以先修改配置文件。需要修改的部分包括

  • 元数据连接信息(本例中是MySQL 的 cboard库)
  • 邮件服务器配置(用于导出看板的定时任务)
vi src/main/resources/config.properties

选择平台默认显示语言为中文

vi src\main\webapp\org\cboard\Settings.js
# 修改参数为cn
// CBoard settings
var settings = {
    preferredLanguage: "en" // 可选值en/cn: cn切换中文
}

由于源代码依赖中默认包含了SQLServer的JDBC驱动,但是该驱动在公有的Maven仓库中不存在。我的使用环境中不涉及SQLServer数据库,所以把pom中的下面依赖移除

vi pom.xml
<dependency>
    <groupId>com.microsoft.sqlserver</groupId>
    <artifactId>sqljdbc4</artifactId>
    <version>4.0</version>
</dependency>

编译源代码

mvn clean package

部署

  • 拷贝CBoard\target\cboard.war到tomcat的webapp目录

  • 启动tomcat

  • 默认登录用户名和密码: admin/root123

使用CBoard

官方中文手册中,对每一个步骤都有很详细的说明。所以我这里只把自己测试过程中的部分环节记录下来。这里还是要赞扬一下,国产的开源软件在文档上能做到这个程度,真的很不错。

数据源

CBoard支持多种数据源(JDBC,Kylin,Saiku,等),不过我们目前最常用的还是JDBC。按照标准的JDBC连接字符串格式填入参数即可,如下图我使用的是PostgreSQL作为数据仓库。

image-20180718103546409

数据集

CBoard中的数据集,就是Cube。所以创建数据集的过程,也就是设计维度,层次,度量的过程。

和其他BI平台不同,CBoard中并不需要指定维度表和事实表,而是直接使用查询语句得到的星型模型结果。作为一个轻量级BI,我认为这种方式是很合适的,带来的直接好处是,不需要依赖数据仓库层的主题模型,甚至在没有星型模型的场景下,也可以使用SQL获取数据,并且随时根据需求变化来调整SQL语句。

设计数据集步骤如下图

image-20180718105633495

  1. 提供SQL语句获取星型模型的结果,这里我直接使用了视图。
  2. 如果提供了实时间隔,那么这个数据集会自动刷新,假如我在SQL中使用时间函数获取5分钟内的数据,就需要在这里设置一个刷新周期。
  3. 查询结果的所有字段,是维度和指标的候选项。
  4. 维度同时支持单一维度(如上图中日期)和层次维度(如上图中YQMD),了解OLAP的都知道是啥区别。
  5. 指标列中不需要指定计算方式,即只提供字段,不提供聚合函数。这里也体现出轻量级的设计思路,把选取聚合函数的动作放到使用时确定,好处是指标数量会变得比较少。
  6. 可选表达式可以执行简单的计算,如 sum(A)/count(B)这种计算,但是无法实现同比环比等复杂操作。
  7. 设置常用过滤条件,在后面设计图表的时候很方便。

图表设计

图表设计非常简单,就和设计EXCEL透视表一样,拖放行,列,指标,然后预览微调。有透视表使用经验即可快速上手,如下图

image-20180718112334658

看板设计

当前版本中,我觉得看板设计是一个比较大的缺憾。因为没有提供所见即所得的拖放操作,所以在设计看板的过程中感觉总是有点别扭。CBoard中的做法是,把页面划分为行,然后在每一行中划分列,通过指定列的宽度来实现同一行放置多个图表。这种方式可以实现粗放的设计意图,但是对于一些精细化的设计就无能无力了。

如下图分别显示了设计阶段和展示阶段的看板,可以看到看板上的元素是如何对应位置的

image-20180718113011108

image-20180718113018611

定时任务

定时任务可以实现在固定的时间把看板内容作为邮件发送,这个功能非常实用。不过我发现的一个问题是,发送的看板数据会忽略看板级别的参数,只使用数据集和图表级别的参数。

定时任务设置非常简单,我这里就不截图了。

缺憾

在我测试的版本(0.4.2)中,我还发现几个不太完善的地方,希望在后续的版本中可以改进。

  • 数据集中不能直接设置同比环比等操作。对轻量级BI来说这个要求要点高,我目前知道可以在Cube层直接设置之中复杂指标的只有MDX和DAX两种方法。
  • 看板设计中还没有实现拖放,所以有一些精细化的布局不能实现。虽然新增加的全屏监控看板,已经可以实现拖放式布局(我还没有深入使用这个功能)。
  • 导出/邮件功能,不能根据看板上设置的过滤器来导出。我在测试中每次导出的邮件都是完整的数据集内容,没有找到仅导出一部分数据的办法。不知道是不是我的操作姿势不对。