吐槽ing丨Boss的话你应该嚼三遍再下咽

177

遇到一个有情怀,有想法的Boss,你只能不断的提升自己,你需要不断的在原有的技能基础上不断的扩充自己。

最近团队在做教育领域的项目,需要与众多三方进行对接(刚开始原本团队进行开发,由于客户时间限制,需要引入),而数据之间的交换变成了重点,以谁为中心已然被提上了日程。其中对接的三方成熟产品由于双方的编码规则以及实现的单点登录机制不同,两个系统之间的数据共享存在一定的差异性。以三方成熟产品为主,那么现有系统的众多模块需要更改,成本有点高。而以公司目前的产品为主,三方成熟产品并不会同意,因此之间的阻碍已经成为首要解决的问题。

对于企业来说,数据的重要性必须紧紧握在自己手中,为后续系统升级、扩充、数据分析等做战前准备。Boss不知道在哪儿听到,可以搭建企业数据中心,便开启临时会议模式,将鄙人从原本项目组抽离,成立所谓的“数据中心”小组进行数据的整合,达到最终以数据中心为主,无论谁要进都需要符合数据中心的规则。

对于一个纯粹的Java后端开发人来说(偶尔也会搞搞前端),这个转型跨度有点大,瞬间感觉自己的逼格提升了很多(后来才知道,这是一种奢望)。

接下来开始整理各类资料,什么是数据中心,这便是首要了解的问题。百度百科:数据中心是全球协作的特定的设备网络,用来在Internet网络基础设施上传递、加速、展示、计算、存储数据信息。 什么鬼?与我想象中的数据中心有点差别啊,难道我自己没有理解Boss所说的“数据中心”?

回想Boss所说,将数据牢牢抓在自己手中,后续三方产品入驻教育机构需要满足数据中心的规范。这是什么呢?与数据中心的概念有点差距啊,怎么感觉就是一个数据中转站呢?你需要什么你告诉我,我给你你需要的特定数据,其他的你别想沾手。有点像数据集成呢?百度百科:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

终于明白Boss要搞什么了,并不是数据中心,而是一个将众多数据库放在一个仓库中统一管理,三方需求需要一组特定的数据时,来数据仓库中拿,但在拿之前还需要对原有分散的数据进行抽取、清理、加工,然后整理成统一的、一致的数据,供三方调用。 将不同数据库、同数据库存在数据差异的数据整理成一套一致的数据,怎么将这些数据库统一来管理,统一来抽取数据,怎么验证数据的正确性,怎么剔除不需要的数据,怎么对数据进行合并、分离,怎么将不同属性的数据转换成统一的?这都是很繁杂的问题,而在开源社区提供的一款名为KettleETL工具,将帮助我们解决这众多的问题。

最后,在翻看了众多的资料后,我终于彻底明白,Boss让我做什么,其实就是像刚开始学习Word使用一样学会使用Kettle工具。然后就如同洗车行一样,将一辆辆车洗的干干净净。

结语

若存在理解差异或者理解误差,望掘友给出合理的建议,这里拜谢!对于一个还在门口徘徊的学徒,您的建议或者意见将会给我很大的帮助!接下来将在学习之余整理Kettle的使用,不对现在已经叫Pentaho Data Integration