企业AI：如何构建AI数据集 -

寻找和获取构建企业数据集所需的数据，这对于那些希望构建自己的AI模型的组织来说是可能是最关键的一项任务。

咨询公司Rockborne首席执行官Waseem Ali表示，即使有实践经验，事情也很容易出错。“一切总是从数据开始的，如果你的数据不好，模型就不会好。”

相反他建议，很多时候，企业面临的挑战不应该是想要用他们的第一个项目征服世界，而是先进行试点，让他们能够走得更远。

检查数据或数字项目的具体业务需求和要求，询问需要解决什么问题，需要查询什么“预感”，但首先要避免深入研究“全局影响”。

正如工业物联网专业公司Hexagon的AI负责人Johannes Maunz所解释的，从第一原则开始着手获取特定用例的数据。

Maunz说：“没有一个深度学习模型可以解决所有用例。将现状与需要改进的地方进行比较，需要捕获哪些可用数据？以小规模或有限的方式进行，仅针对那一个用例。”

Hexagon的方法通常侧重于自己的传感器，其中包含墙壁、窗户、门等建筑的数据。通过在浏览器中呈现的内容，Hexagon可以了解数据及其标准、格式、一致性等。

首先考虑企业已经拥有的、或者可以使用的、符合要求的数据和数据集。这通常需要与法律和隐私团队密切合作，即使在工业内部环境中也是如此。Maunz建议，要确保指定使用的数据不包含任何私人个人信息。然后，企业就可以构建他们想要使用的模型并对其进行训练——假设成本和可行性都已经到位。

接下来，你需要决策点透明度，以及信号值来评估可用性、可行性和业务效果等因素，或者潜在表现与竞争对手相比的数据等。

对于企业目前没有的数据，可能需要一些合作伙伴或客户协商来获取。

Maunz表示：“坦率地说，人们是非常开放——但总要有一份合同。只有这样，我们才能开始我们通常所说的数据活动。有时候超过所需量的数据也是有意义的，这样企业就可以进行向下采样。”

数据质量和简单性至关重要

供应链咨询公司BearingPoint的合伙人Emile Naus强调了对AI/ML数据质量的关注。要尽可能保持简单，复杂性使正确的决策变得困难并且会损害结果——然后还有偏见和知识产权需要考虑。Naus补充说：“内部数据并不完美，但至少你可以了解它有多好。”

他警告说，与易于使用的2D线拟合甚至3D线拟合相比，由AI/ML驱动的复杂多维线拟合可以带来更好的结果——优化生产、解决方案“配方”、最大限度地减少浪费等等——如果企业能够“自由”地获取所需的数据。

“和所有的模型一样，因为AI模型被用于构建另一个模型，而模型总是出错，因此数据治理是关键。你没有的部分实际上可能更重要，你必须弄清楚数据的完整性和准确性。”

邓白氏（D&B）数据和分析高级副总裁Andy Crisp建议使用客户洞察和关键数据元素来建立数据质量标准和公差、测量和监控。

Crisp表示：“例如，[客户想要的、或从我们这里获得的]数据也可能会为他们的模型提供信息，我们正在进行大约460亿次数据质量计算，获取我们的数据，然后可能根据这些标准再次进行计算，然后每月发布数据质量观察结果。”

例如，通过特定标准，特定属性必须表现得足够好，才能传递给下一个团队，团队采用这些标准和公差、这些测量和观察点的结果，与数据管理部门合作获取、整理和维护数据。

“花时间做事并加深理解，别无他法。这就像，从切割一块木头开始，然后检查长度，防止接下来你完全错误地切割了50块木板。”

企业需要“知道什么是好的”，以提高数据性能和洞察力，然后将它们整合在一起。保持问题陈述的严谨性，缩小所需数据集的数据识别范围。细致的注释和元数据可以实现控制数据集的管理，实现真正科学的方法，识别偏差并帮助最大限度地减少偏差。

谨防将多个因素混为一谈的大胆陈述，确保要“测试到破坏”，这是IT企业不想“快速行动并打破常规”的一个领域。所有使用的数据都必须符合标准，而且必须不断检查和补救。

“测量和监控，补救和改进，”Crisp指出，邓白氏的质量工程团队是由全球约70名团队成员组成的，“高质量的工程能力将有助于减少幻觉等。”

Informatica北欧、中东和非洲地区副总裁Greg Hanson也认为，制定目标至关重要，可以帮助企业确定如何最好地利用时间进行信息编目、信息整合、训练AI以支持结果所需的数据。

即使是企业自己的数据通常也会分散并隐藏在不同位置、云或本地环境中。

Hanson说：“对所有数据资产进行编目，了解这些数据所在的位置，也可以考虑使用AI来加快数据管理的速度。”

确保在采集数据之前进行治理

在AI引擎采集数据之前要实施所有的数据质量规则，并假设已经采取了适当的治理和合规性。如果企业没有进行衡量、量化和修复，那么只会更快地做出错误决策，Hanson补充说：“记住：垃圾进，垃圾出。”

数据套件厂商Precisely的首席技术官Tendü Yogurtçu表示，根据规模和行业类型，企业可以考虑成立指导委员会或跨职能委员会，帮助定义所有相关AI计划的最佳实践和流程。也可以通过识别团队之间的常见用例或模式来帮助加速进程，随着组织从试点和生产中学习，这些用例或模式本身也会持续发生变化。

数据治理框架可能需要扩展以涵盖各种AI模型。话虽如此，潜在的AI用例比比皆是。

“以保险行业为例。为了模拟风险和定价准确性，保险公司需要有关野火和洪水风险、地块地形、地块内建筑物的确切位置、与消防栓的距离以及与加油站等潜在危险点的距离等详细信息，”Yogurtçu解释说。

然而，咨询公司Slalom的高级数据和分析负责人Richard Fayers警告称，构建AI模型（尤其是生成式AI）可能会花费不菲。

“也许，在某些领域企业可以合作——比如法律或医学，我们开始看到价值的地方，就是当你用你的数据增强生成式AI的时候——你可以用各种方法来实现它。”

例如，在建筑领域，用户可以使用自己的数据集和文档来补充大型语言模型，以供查询。类似做法还有票务搜索平台，平台可以智能地考虑一组基于自然语言的标准，这些标准并非与元数据和标签一一相关。

“例如，你可以使用一个票务平台来发现‘适合儿童观看的周末演出’，目前这种搜索类型是相当困难的，”Fayers说。

他说，即使是ChatGPT之类的数据集构建和提示工程，为了实现更有“对话性”的方法，仍然需要关注数据质量和治理，提示工程将成为一项需求旺盛的基本技能。

企业AI：如何构建AI数据集

作者yinhua

数据质量和简单性至关重要

确保在采集数据之前进行治理

作者 yinhua

相关文章

24小时不打烊、自动修代码：揭秘自主式AI在顶级企业的4个实战案例

删文件、乱砍价、建邪教？硅谷最离谱的AI项目，让奥特曼也坐不住了

砸了几百万买AI却没效果？CIO揭秘：技术背后，这个坑最致命！

发表回复取消回复

您错过的

24小时不打烊、自动修代码：揭秘自主式AI在顶级企业的4个实战案例

删文件、乱砍价、建邪教？硅谷最离谱的AI项目，让奥特曼也坐不住了

Google DeepMind万人实验：AI正在悄悄改变你的决策，而你没察觉

砸了几百万买AI却没效果？CIO揭秘：技术背后，这个坑最致命！

作者yinhua

数据质量和简单性至关重要

确保在采集数据之前进行治理

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复