这篇贝叶斯网络融合论文，为数据清洗方案提供了新思路！

【研读分享】经典贝叶斯网络融合论文|1-《A novel method for combining Bayesian networks, theoretical analysis, and its applications》

1. 论文介绍

论文的中文名称是《一种结合贝叶斯网络、理论分析和应用的新方法》

论文链接：www.sciencedirect.com/science/art…

作者是Guang Feng, Jia-Dong Zhang和Stephen Shaoyi Liao，于2014年发表至Pattern Recognition期刊（SCI一区，影响因子8.4）。

我们选择解读这篇论文的原因在于它引入了一种创新的贝叶斯网络组合方法，这一方法在知识融合领域具有重要意义。

WINNOW AI正在积极构建一个丰富的知识库体系，旨在为用户提供更全面高效的数据清洗建议，这篇论文提供了一种有效的知识网络融合方案。

2. 研究问题和目的

这篇论文的核心研究问题是如何开发一种新的贝叶斯网络组合方法，以实现知识融合的有效性和效率。

作者的研究目的是解决现有贝叶斯网络组合方法的局限性，提出一种通用的组合方法，旨在结合任何贝叶斯网络的结构和参数，同时保持条件独立性和个体贝叶斯网络参数的特征。通过这一研究，作者旨在提高贝叶斯网络在实际应用中的性能表现，如推荐系统、银行直销营销和疾病诊断等领域。下文简称贝叶斯网络为BN。

3. 方法概述

在深入讨论所提出的方法之前，论文中应用了两个假设，这两个假设也是其他现有的贝叶斯网络组合方法所做的。

首先，假设原始贝叶斯网络同样重要，即不考虑生成贝叶斯网络的数据样本的数量，因为在获得贝叶斯网络之后，它不包含关于样本数量的信息。其次，假设存在一个由单个贝叶斯网络共享的祖先排序，这有助于避免循环。对于多贝叶斯网络的融合，区分为内部变量和外部变量。

3.1 内部变量和外部变量

对于内部变量，其至少一个BN中的所有父节点都属于公共变量，而外部节点的两个BN中父节点的两组分别包含至少一个非公共变量。

图1.png

图1

例如图1，设 $X \cap Y$ 指两个BN中公共变量。则 $X \cap Y =\{B,D\}$ ，对于右侧BN的节点B，无父节点表示为 $\emptyset$ ，而 $\emptyset \in X\cap Y$ ，满足内部变量定义，因此节点B输入内部变量。对于节点D，两个BN中的D节点的父节点都不在公共变量内，所以D为外部变量。

3.2 删除两个BN内部变量规则

图2.png

内部变量其处理方式如论文中算法2所示，对于两个贝叶斯网络中的内部变量，如图2中，a中有两个贝叶斯网络$BN_1$其节点为{A、C、D、E}和$BN_2$其节点为{B、C、D、E}，两个贝叶斯网络的交集为节点{C、E、D}。对于$BN_1$中的节点C，其父节点A不在两网络的公共变量内，$BN_2$中的节点C无父节点，因此满足内部变量的定义。根据论文中算法2的规则，应删除$BN_2$中的节点C。

图3.png

图2

相同地，对于节点D，应删除 $BN_1$ 中的节点D。而对于节点E， $BN_1$ 中其父节点为{C}， $BN_2$ 中其父节点为{C,D}，满足内部节点定义。根据算法2的规则，应随机删除二者中的一个，此处删除了 $BN_1$ 中节点E，所以融合后的网络如b所示。

3.3 两个BN外部变量融合规则

如图2中包含{D,E}的 $BN_3$ 和包含{D,E}的 $BN_4$ ， $X\cap Y={\{D\}}$ 为二者的公共变量。 $Pa_{BN_1}(D)\not\in {X\cap Y}$ 且 $Pa_{BN_2}(D)\not\in {X\cap Y}$ ，则其符合外部变量的规则。显然，外部变量的结构组合是决定性的，它包含了初始BNs中的所有边。组合参数很困难，因为在原始两个BNs中，需要提出一个规则来计算融合后的参数。需要将两个贝叶斯网络中该变量的条件概率分布表(CPD)进行组合。组合的方式采用了基于关联度叠加的参数模糊融合的思想[1]。设 $μ$ 表示属性或参数等两个项目之间的关系, $μ\in[0,1]$ ； $μ$ =0表示没有关联， $μ$ =1表示确定的关系， $μ_1$ 与 $μ_2$ 的叠加方式为：

μ_1\oplusμ_2 = μ_1 -μ_2 +μ_1*μ_2

在贝叶斯网络中表示，假设对图3两个BNs节点D的CPD进行融合，则其计算公式为：

$P(D|Pa_{BN_1}(D)\cup Pa_{BN_2}(D))=P(D|Pa_{BN_1}(D))\oplus P(D|Pa_{BN_2}(D))$

图4.png

图3

两个BN外部变量融合过程与结果如图3所示。

4. 实验分析

论文中的实验结果主要涉及三个数据集：

Web Browser Dataset(WBD):Claypol 等人[2]开发了一个 Web浏览器来记录用户的行为和对网页的明确评级。实验使用这个基准数据集为每个用户训练单独的BN。
Deposit Subscription Dataset(DSD):Moro等人[3]从葡萄牙银行收集与2008年5月至2010年11月期间发生的电话诈骗有关的数据集。实验使用这个基准数据集为不同银行训练BN。
Breast Cancer Dataset(BCD)：Street等人[4]从乳腺肿块的针吸数字化图像中提取30个特征，这些特征描述了图像中细胞核的特征。实验使用这个基准数据集学习不同医院的BN。

对比模型分别是现有的通过交集(Intersection)[5]和并集(Union)[6]的多贝叶斯网络融合。

图5.png

论文中的实验结果表明，作者提出的贝叶斯网络组合方法和Union方法明显优于Intersection方法。事实上，对于交互，当组合更多的BN时，所有精度都低于三个BN的组合。因此，在下面的分析中，重点将所提出的方法与并集进行比较。

5.作者提出的贝叶斯网络组合方法的意义

作者提出的贝叶斯网络组合方法的意义有两个方面：

首先，在2/3之后，所提出的方法至少比并集优越10%，这是一个显著的改进，在测试方面具有高显著性水平p=0.01（即99%的置信度）。

其次，所提出的方法比Union更稳定，当越来越多的BN组合时，并集收敛到具有全局最大AUC的平衡状态。这一结果表明，本文提出的方法可以发现真实反映现实世界中观察到的因素之间关系的条件独立性。

因此，它对不包含有用的条件独立性的异常值是稳健的。这意味着，随着BN组合过程的进行，不存在性能急剧恶化的问题。

欢迎扫码加入WINNOW开发者交流群，参与「WINNOW开发者激励计划」👇👇

微博焦点图-带logo.jpg

参考文献

[1] W.Y. Liu, N. Song, The fuzzy association degree in semantic data model, Fuzzy Set Syst. 117 (2001) 203–208.

[2] M. Claypool, P. Le, M. Wased, D. Brown, Implicit interest indicators, in: Proceedings of the 6th International Conference on Intelligent User Interfaces, Santa Fe, NM, pp. 33–40.

[3] S. Moro, R. Laureano, P. Cortez, Using data mining for bank direct marketing: an application of the crisp-DM methodology, in: Proceedings of the European Simulation and Modelling Conference, Guimaraes, Portugal, pp. 117–121.

[4] W.N. Street, W.H. Wolberg, O.L. Mangasaria, Nuclear feature extraction for breast tumor diagnosis, in: International Symposium on Electronic Imaging: Science and Technology, San Jose, CA, pp. 861–870.

[5] J. Del Sagrado, S. Moral, Qualitative combination of Bayesian networks, Int. J. Intell. Syst. 18 (2003) 237–249.

[6] W.H. Li, W.Y. Liu, K. Yue, Recovering the global structure from multiple local Bayesian networks, Int. J. Artif. Intell. Tools 17 (2008) 1067–1088.