阅读 19

TensorFlow 数据验证:能够大规模理解、验证和监控数据

文 / Clemens Mewald (产品经理) and Neoklis Polyzotis (研究科学家)

来源 | TensorFlow 公众号

我们推出了 TensorFlow 数据验证(TFDV),这是一个可以帮助您大规模地理解、验证和监控 ML 数据的开源库。 学术界和工业界都非常关注 ML 算法及其性能,一旦输入数据有误,所有这些为了优化而做的努力都将成为泡影。能够自动化和扩展数据分析,验证和监视任务就变得尤其重要。

TFDV 是 TFX Platform 平台的一部分,用于每天分析和验证若干 PB 的 Google 数据。 它在早期捕获数据错误方面具有良好的记录,因此有助于 TFX 客户维护其 ML 流程的健康状况。

图1:TFDV 用于 TFX 中的数据分析和验证

Notebook 中的 TensorFlow 数据验证 在设计 TFDV 的早期,我们决定在 notebook 环境中使用它。 我们发现,让数据科学家和工程师尽可能早地在他们的工作流程中使用 TFDV 库非常重要,以确保他们即便是只用一小部分数据进行探索时,也可以检查和验证他们的数据。 这将使后续过渡到大规模生产部署变得更容易。

对描述性统计进行计算和可视化 在 TFDV 的基础上有一个功能强大的库,用于计算训练数据中的那些描述性统计数据。 这些统计信息用于帮助开发人员调查和了解他们的数据,以及推断架构(稍后将详细介绍)

推断架构:根据统计数据,TFDV 推断出一种模式(由 schema.proto 描述),旨在反映数据的稳定特征。 验证新数据:给定一个模式,TFDV 可以根据模式中表达的期望验证一组新数据。

生产流程中的 TensorFlow 数据验证 在 notebook 环境之外,可以使用相同的 TFDV 库来大规模分析和验证数据。 TFX 流程中 TFDV 的两个常见用例是连续到达数据和训练 / 服务偏斜检测的验证。 此外,对于 TensorFlow Transform 的用户,可以使用推断的模式将数据解析为 preprocessing_fn。

验证持续到达数据 Validation of Continuously Arriving Data:在数据连续到达的情况下,需要根据模式中编码的期望来验证新数据。 训练 / 服务偏斜检测 Training/Serving Skew Detection:训练 / 服务偏斜是指用于训练模型的数据与服务系统观察到的数据之间的特征值或分布的差异。

TFDV 和 TensorFlow 变换 TensorFlow Transform (TFT) 是一个开源库,允许开发人员表达预处理功能,自动创建数据流程以计算所需的统计数据,并将结果转换导出为 TensorFlow 图,可用于在培训和服务中连贯地应用转换。

如何开始使用 TensorFlow 数据验证 我们已经开源 TFDV,并在 GitHub 上通过 Apache 2.0 许可证在 github.com/tensorflow/… 上发布。 此版本包括一个如何在 iPython 中使用 TFDV 库的 example notebook。

查看完整版文章 以上内容为精简版,想要详细阅读 TensorFlow 数据验证完整版内容,请点击下方 “www.tensorflowers.cn/t/6478”!

关注下面的标签,发现更多相似文章
评论