WEKA报告发现遗留数据架构阻碍AI发展

WEKA的一份新报告称，虽然大型语言模型(LLM)已经开启了人工智能的一个令人兴奋的新阶段，但由于几个因素，企业无法实现其GenAI目标，其中最主要的是数据质量差和遗留数据架构。

《2024年全球人工智能趋势》报告发现，88%的组织正在研究GenAI技术，这与其他调查中发现的对GenAI的广泛兴趣相呼应。WEKA委托标准普尔全球市场情报公司撰写的这份报告发现，24%的组织积极部署了GenAI应用程序，这与其他调查的数据一致。

Weka发现，GenAI技术的采用“呈爆炸式增长”，GenAI应用程序的部署正在迅速蔓延，它发现从2023年开始，人工智能项目的成熟度将发生“根本性转变”。标准普尔全球市场情报调查的1500名全球人工智能决策者中，大多数人表示，人工智能“目前得到了广泛应用”，并为其组织“带来了关键价值”。

然而，在扩展GenAI部署时，积极前进的脚步被绊住了。WEKA在报告中表示:“平均每个组织有10个项目处于试点阶段，16个项目处于有限部署阶段，但只有6个项目处于大规模部署阶段。”

WEKA确定了造成这种情况的几个原因。首先，GPU短缺仍然是一个制约，而且客户担心人工智能基础设施的环境问题。确保数据隐私是另一个因素。但WEKA表示，全面推出GenAI的最大障碍是缺乏高质量的数据。

WEKA在报告中说:“项目团队面临的挑战与其说是识别相关数据，不如说是数据的可用性。”组织正在努力为项目建立一个一致的、集成的数据基础。”

受访者认为缺乏现代数据架构是GenAI短缺的一个重要原因。超过三分之一(35%)的受访者表示，存储和数据管理是阻碍人工智能部署的主要基础设施问题，超过了对计算(26%)、安全(23%)和网络(15%)的担忧。

WEKA表示，数据质量的挑战并不是因为缺乏构建高性能模型所需的数据，而是因为数据没有以团队可以充分利用的方式建立。报告称，数据的质量和对数据隐私的担忧比数据的可用性更令人担忧。

WEKA表示，数据管理和存储问题正在影响人工智能项目的生命周期，使组织更难以为培训和部署准备数据。具体来说，数据预处理阶段是参加WEKA调查的组织非常关注的一个领域。

WEKA表示，传统的数据管理和存储实践阻碍了人工智能的发展

此外，在过去的12个月里，数据预处理的情况并没有得到改善，这对未来的人工智能工作来说不是一个好兆头。该公司在报告中表示:“将人工智能项目投入使用，但由于数据基础薄弱，限制了它们的价值或可扩展性，这为下一波探索早期阶段的举措树立了一个糟糕的先例。”

该公司援引匿名IT领导者的话说，他们的数据资产状态以及它如何影响他们的人工智能工作。

美国一家中型货运和仓储公司的首席信息官表示，他或她的公司在主数据管理方面仍然面临挑战。“分支机构有不同的库存SKU;如果我把这些孤立的数据放入模型中，我们会得到错误的结果。清理这些数据是我们的重点。”

报告显示，英国一家中型食品和饮料制造公司的另一位首席信息官表示，他或她做的第一件事是“加倍投入数据战略，有效地构建数据平台和治理能力。”首席信息官写道，这帮助该组织避免了其他公司的命运，这些公司试图将数据管理和治理捆绑在通过收购获得的不同数据资产之上。

WEKA的报告称，那些投资于数据管理和存储的组织更有可能在GenAI上取得更好的成果。报告称:“通过从一开始就建立坚实的数据基础，人工智能领导者确保了有价值的试点项目有一条清晰的道路，可以大规模实施。”

例如，在广泛实施人工智能的组织中，只有28%的受访者表示需要存储和数据管理挑战是他们最大的阻碍，相比之下，42%的人工智能实施有限的受访者表示存储和数据管理是首要问题。前者表示，与数据管理和存储相比，获取计算和网络资源是一个巨大的障碍。

WEKA表示，这表明他们已经在解决这些问题上进行了投资。“正在大规模交付人工智能的组织似乎已经专注于投资升级用于存储或管理数据的系统和技术。”

GenAI的成功有很多因素。但考虑到人工智能最终是数据驱动的，有一个有序的数据屋可以增加使用人工智能的良好体验的可能性。

WEKA表示:“组织必须建立一个清晰的途径，将人工智能项目扩展到生产中，确保有效的数据管理和存储。”“在投入大量试点项目之前，投资于强大的数据基础是至关重要的。这将有助于实现无缝的人工智能价值交付。”