懒才制造生产力 - 布隆过滤器实现去重工具

前言

最近有个段子，程序员不要拷贝代码，而是要一行一行的重新抄过去。好嘛，段子归段子，笔主始终觉得 think more, code less，多思考，能少写的代码尽量少写，从而也与标题呼应上，懒才制造生产力。继上次写的 excel 工具类之后，这次又来给大家 show 一下笔主是如何释放生产力的。

项目中经常会有触达需求，简单来说就是群发微信公众号消息。这里有个刚需就是去重，已经下发过的用户不再下发，多个标签用户之间也可能会存在重复的用户，这些都需要去重。

两层循环遍历：最 low 的办法不就是套两层循环遍历，时间复杂度 n 方。
HashSet：稍微有点追求的小伙伴可能会想到使用 HashSet 去重，没错，HashSet 确实是个不错的选择，时间复杂度很低。但是面对海量数据，HashSet 似乎就不太适合了，HashSet 有个弱点就是，空间利用率低，而且元素占用的空间也相对较大。
布隆过滤器：针对海量数据去重场景，布隆过滤器应运而生，关于布隆过滤器网上很多博客都说的很详细。

作者下面就简单说一下布隆过滤器的关键点，把主要精力放在如何应用到实际项目中。

主要是为了降低哈希冲突引发的误差，对于 HashMap 来说，哈希冲突的时候，会用链表或者是红黑树将所有冲突的元素都保存起来。但是对于布隆过滤器不能也不需要把冲突的 key 用链表连接起来，因为他只需要判断 key 是否存在。

可以使用这个在线计算工具：Bloom Filter Calculator

在介绍具体的实现过程之前，先看看作者手撸的去重工具的正确使用姿势。

根据约定将去重器的配置文件放在 deduplication.properties 下。

bloomList=goods,wechat
tableInfo=goods:goods_deduplication,wechat:wechat_deduplication
expectedInsertions=goods:200000

配置完上面的信息之后，就可以使用去重器了，使用姿势如下图所示，核心代码就一行。传入待比较的 List 和业务对应的布隆过滤器 bean 名称，返回目前还不存在的记录，且会将该记录入库，下次再进行去重，该记录就不会再出现了。

测试程序：

运行程序之前，已存在的数据如下，identifier 为 12、16、13 的记录已经存在了。

程序运行结果：

数据库状态：

可以看到成功将 11、14、15 的记录返回且成功入库。

下面主要讲的是去重器实现的核心步骤，在分析代码之前，先把 ✨去重器源码地址✨ 贴出来，嘻嘻嘻，欢迎大家来 star。该工具的核心代码都在 deduplication 这个包下面。

传入任意的唯一标识 List，或者是指定唯一标识的 CSV 文件进行去重，对任意的业务均适用。

步骤很简单，但是想要实现的优雅点，使用起来方便一点，还是需要 think 一下。

这里作者使用的布隆过滤器是 guava 提供的实现，并没有重复造轮子，毕竟 Google 出品。

这里主要解决的问题点有两个：

这个布隆过滤需要是创建一次，全局有效，且是单例，这个问题很好解决，把该布隆过滤器交给 Spring 容器管理即可，拍拍手，干净得很。
传统创建 guava 布隆过滤器是使用 BloomFilter#create() 方法，但是我们的目标是懒！一懒到底！没理由新增一个去重业务，我们就去翻代码，new 一个布隆过滤器出来吧。所以这里我们需要向 Spring 容器动态注册 bean 的能力，可以使用 Spring 提供的 BeanDefinitionRegistryPostProcessor 接口来实现这个功能。

创建布隆过滤核心代码：