虽然大多数将AI应用到他们的运营中的公司都不会处理像人命这样重要的事情,但这里有一个突出的教训:向AI系统提供糟糕的数据,你会得到糟糕的结果。AI无疑将成为下一个重要的业务差异化因素,但只有那些能够控制数据的公司才会如此。

几年前,Uber的一辆自动驾驶汽车撞死了一名在人行横道外过马路的行人。哪里出了问题?当技术人员训练汽车识别行人时,他们大多使用包含人行横道的图像,他们无意中教会了AI系统,人行横道是重要的部分。

虽然大多数将AI应用到他们的运营中的公司都不会处理像人命这样重要的事情,但这里有一个突出的教训:向AI系统提供糟糕的数据,你会得到糟糕的结果。AI无疑将成为下一个重要的业务差异化因素,但只有那些能够控制数据的公司才会如此。

糟糕的数据,糟糕的AI

负责任的AI如今是一个如此时髦的词,因为许多公司都有一个严重的数据问题——他们不知道自己拥有什么数据,这是不安全的。将未知、未管理的数据输入AI系统,只会导致数据泄露、违反监管规定、错误的战略决策、意外的偏见或声誉损害。

问题是许多公司手头都有一堆乱七八糟的数据,他们要么有一个随意的战略,要么根本没有关于数据治理的战略,即收集、使用和存储数据的规则和流程。

企业不会停下来搞清楚他们的数据战略,一心想要追逐更华丽、更创收的项目。然而,当公司想要将这些数据放在一起——比如说,应用在AI工具中——他们没有办法这样做,因为没有任何关于如何处理数据的总体规则,他们留下了一个巨大的烂摊子,需要大量的时间和投资来解决。

换句话说,数据治理可能看起来并不令人兴奋或华而不实,但它构成了任何成功的AI项目的基础。

修复数据的实用方法

通过数据治理,追溯应用于企业中的所有数据是一项艰巨的任务。谢天谢地,没有必要花那么大的钱来开始你的下一个AI项目。这里有一个务实、及时的方法来修复你的数据,利用AI的力量,并在此过程中逐步创造价值:

选择一个用例,从为AI挑选一个用例开始,AI可以提供帮助的主要商业任务是什么?你知道你在哪里拥有可以为AI挖掘的专有或第三方数据?你希望选择一个既不太大也不太小的用例,最好是内部的用例。你的第一个用例还应该具有有限的数据域要求-换句话说,一个只需要来自一个源的数据的用例。

然后,计算出你要处理的数据的状态。在将数据输入AI系统之前,你需要更正哪些内容?

修复该用例所需的数据。一旦你有了可行的用例并评估了前进所需的数据状态,就可以开始清理工作了。你的数据不一定要完美才能开始从AI工具中创造价值,但在利用它之前,你确实需要了解它的缺陷。

你将需要为该单个用例部署尽可能多的治理和策略,必要的数据治理组件包括:

  • 数据获取:你将如何从源系统获取数据,并将其存储在哪里?
  • 数据质量:你的数据有多完整和准确?这些数据是否带有AI偏见的风险?在将其输入AI系统之前,你需要将其清理吗?
  • 数据隐私:你的数据是否包括私人或受保护的信息,如健康信息。AI系统会以一种会导致隐私问题的方式将数据整合在一起吗?例如,如果AI向通用客户记录中添加信息,使个人可以以受保护的方式识别,这称为编译分类,需要加以防范。

这些要素共同构成了数据治理、如何获取数据、如何使用数据的计划,以及防止滥用的适当控制和策略。

创建你的总体数据战略。在探索初始用例的同时,开始整合总体数据框架和策略,这将告诉你如何在整个企业中收集、维护和保护数据。

一旦你的第一个用例完成,选择另一个要重点关注的领域。以第一个用例的成功和教训为基础。你需要如何调整你的数据策略?不断重复,在此过程中清理数据。

这种方法的口头禅是,从大处着想,从小处做起。通过在整理企业数据的同时一次处理一个用例,你将通过AI逐步创造价值,同时构建坚实的数据治理基础,为未来的任何AI计划提供动力。

Loading

作者 yinhua

发表回复