随着CIO和其他技术领导者面临采用AI的压力,许多企业仍然忽略了成功部署的关键第一步:整理他们的数据。

尽管至少六年前就已经发出警告,但根据一些数据管理供应商的说法,许多CIO未能收集和企业其企业不断生成的大量数据。数据管理领域的IT领导者表示,在启动AI项目之前,只有不到一半的企业有一个连贯的数据管理流程。Databricks和Astera Software的IT领导者均表示,只有大约20%的企业的数据策略足够成熟,能够充分利用大多数AI工具。Databricks是一家在成功AI项目中屡次出现的数据管理供应商,其AI副总裁Naveen Rao估计,一些小型AI项目可以基于有限的公司数据或外部数据工作,但许多成功的AI部署需要全面的内部数据。

“我们今天与客户谈论GenAI时,实际上很多是在设定什么是可能的,”他补充道,“如果他们的数据没有整理好,他们就不会有预期的影响。”

启动的压力

与此同时,Astera Software的首席运营官Jay Mishra补充说,支持任何AI部署的数据策略不到一半的企业已经到位。一些企业对数据管理几乎没有概念,但仍在启动AI项目。

“来自投资者和市场的压力很大,要求进入AI领域,”他说,“他们开始做一些事情,花了几个月后才意识到没有达到预期的结果。”

如果IT基础设施和计算能力是AI的引擎,那么数据就是燃料,戴尔科技的首席AI官Jeff Boudreau补充道。“即使是最复杂的AI应用也依赖于高质量的数据来运行,”他说,“数据是区别的关键。糟糕的数据等于糟糕的AI。”

Rao和Mishra的数据成熟度观察在某些方面与Gartner最近的一项调查结果相符。接受调查的首席数据和分析官(CDAO)中有61%同意ChatGPT和其他技术市场的颠覆迫使他们发展或重新思考他们的数据和分析策略。

然而,78%的CDAO表示,他们的数据和分析策略在2023年发展到足以支持创新,然而,拥有CDAO或首席数据官角色的公司可能在数据管理方面领先一步。

常见的数据问题

数据管理挑战主要集中在四个方面:

首先,数据存在于孤岛中。营销团队的数据可能位于与工程团队数据不同的位置,并且具有不同的访问规则。

其次,大多数企业已经生成了大量数据,而且他们每天都在创建更多数据。如果没有数据管理计划和系统,旧数据会被埋在旧服务器的角落里,而新数据没有被分类和企业。

数据不完整、不准确、不一致。

最后,大量数据是非结构化的,因此不容易企业。关键数据存在于每天发送和接收的数百封电子邮件中、电子表格中、PowerPoint演示文稿中、视频中、图片中、带有图表的报告中、文本文档中、网页中、采购订单中、公用事业账单中和PDF中。

文本文档通常存储在企业的多个位置,往往包含大量信息。Astera的Mishra说,一个重要的数据点可能埋在一份20页文档的第5页的图表上,或者在一份100页的华尔街分析报告中。

“许多由常规应用程序或业务用户生成的数据都保存在文档中,而文档仍然是最大的交流形式,”他说,“这些数据是自由流动的,并不集中在一个地方,这既是巨大的挑战,也是巨大的机会。”

更多的数据不一定能产生更好的AI

Mishra补充说,关于公司持有的数据量的一个误解是,向AI模型提供更多数据会产生更好的AI结果。虽然一些AI工具确实需要大量数据,但质量更为重要。

“未经整理的数据将成为错误结果的基础,”他说,“数据的质量决定了一切。”

但AI用户不应低估大型语言模型AI对数据的需求,cBEYONData(为美国政府机构提供专业服务的供应商)的CTO Bryan Eckle说。

“AI非常非常需要数据,”Eckle说,他为客户评估AI工具。“数据需要准确、及时、快速,而且需要很多。”

除了数据管理的四大问题外,企业还面临数据单一可信来源的挑战,Eckle说。企业中流传的五个版本的产品规范PDF哪个是正确的?你的客户支持聊天机器人是否可以访问所有五个版本?

关注质量和标准化

对于那些努力清理数据的企业,Dell的Boudreau建议关注数据管理流程和治理,包括隐私、标准化、质量和集成。

在企业开始清理和整理数据之前,Eckle建议他们首先考虑数据的目标。

“你可以先退一步,问问自己,‘我们想要回答什么样的问题?’”他说,“然后,从那里出发,‘我们需要哪些基本数据元素来回答这些问题?’然后从那里,‘什么是可信来源?’”

Eckle补充说,在AI项目中,清理数据往往被忽略,因为它不是闪光点,但AI项目的一个巨大部分,80%或更多,是清理数据。

“这有点像苦差事,”他说,“这些项目的大部分时间都花在确保你有正确的训练数据来输入这些知道如何识别数据中存在的模式的机器学习模型中。”

AI用户还必须认识到,清理数据不是一次性的项目,Eckle补充道。如果你在三年前整理了内部数据,那么你现在已经过时了,而且数据不仅来自内部用户,大多数企业不断从合作伙伴、供应商和其他来源接收数据。

“这是一段旅程,对吧?”他说,“你总是会引入额外的数据源,这些数据源可以提供见解,而且你总是会希望监控数据管道的健康状况。”

小步前进

Mishra建议企业在推出AI项目时从小处着手,或许可以专注于一个业务部门的一个AI用例。企业一个业务部门的数据比整合整个企业的数太字节数据要容易得多。

“找到一种特定类型的数据,并在一次迭代中清理数据,”他说,“看看你整理的一个数据子集,然后在此基础上开始你的AI工作。与引入所有数据相比,这不需要那么多的努力。”

Loading

作者 yinhua

发表回复