企业数据在生成人工智能中的关键作用 - 行业新闻

大量基于GenAI的工具和应用涌入市场。其中一些应用非常聪明且富有创意，但它们大多是ChatGPT等应用背后的大型语言模型(LLM)的包装器。这并不是要贬低LLM的语言、概念和单词关系知识可以提供新的效率和生产力的数千种潜在场景。

但LLM和ChatGPT无法解决组织的所有信息问题。机器学习是人工智能应用的核心。企业技术堆栈中的传统工具（例如ERP、数据仓库、电子商务和内容/知识管理）越来越多地将机器学习纳入核心功能。

检索增强生成(RAG)

检索增强生成(RAG)克服了这些限制。这种方法使用企业的数据作为事实来源。它不依赖于LLM对世界的了解，而是解释用户的查询，通过多种机制之一检索信息，并使答案易于人类理解和对话。但它需要组织的信息作为参考点——企业真相的来源，这是竞争差异化的源泉。

这些信息是什么样的？它从客户、交易和产品数据和内容以及目标市场特有的知识和专业知识以及企业的核心能力开始。您如何解决客户遇到的问题？您如何通过产品和服务吸引目标客户？您的供应商关系和供应链理解如何帮助您击败竞争对手？

这些都是竞争差异化的来源。每一项都通过了解从供应商到制造和分销到最终客户的数据、知识和内容流来管理，包括了解接触他们的最佳方式以及使用哪些营销内容。

GenAI似乎可以为创建营销内容提供很大帮助。但你们的GenAI营销内容与其他人有何不同？更好的提示？更多创意问题？上下文信息？仍然需要有人性和创造性的元素。机器可以实现自动化，但仍然需要人类来连接。我们不能将人类的能力外包给机器。

虽然机器学习和新一代人工智能工具可以使人类的许多日常活动和死记硬背的活动自动化，但仍然需要填写订单和在目录中组织产品。用户需要搜索感兴趣的产品。他们需要了解、选择、购买、使用和维护您组织的产品或解决方案。

这些功能中的每一个都需要一个数据存储库，而数据需要一定的结构。企业中数据的核心结构被称为主数据。主数据有多种类型——客户产品、财务、交易和内容。市场上有许多不同的工具来解决该领域的特定用例。

主数据忽略了细微差别

但仅靠主数据就忽略了数据的许多细微差别和价值。通过了解一条信息如何与另一条信息相关，可以得出并应用真正的见解。客户身份图是一种数据表示形式，它说明了各种属性（例如客户类型、兴趣、过去的购买情况、购买意图等）之间的关系。客户身份图可以帮助电子商务应用向该客户展示最相关的产品。这来自于整个客户旅程中每个接触点的数据耗尽时捕获的客户详细信息。

接触点留下数据痕迹

每个客户接触点都由各种客户体验技术支持，并且每个接触点都在数据模型中捕获客户详细信息-客户描述符：人口统计、企业结构、市场细分、技术素养、购买的产品以及更多详细信息。这些描述符在机器学习中被称为特征，它们也可以被称为“属性”，描述潜在客户或客户特征的元数据。他们是谁？我们对他们了解多少？他们为什么规模的组织工作？他们的角色或地位是什么？他们的兴趣是什么？他们的技术熟练程度如何？他们试图实现什么目标？他们对企业的总体职责是什么？

使用RAG减少幻觉

RAG显着扩展了大型语言模型(LLM)在企业环境中的范围。通常，虽然LLM擅长文本创作，但他们无法从企业数据库中提取具体、详细的数据。RAG通过检索必要的信息来解决这个问题，以确保人工智能生成的响应既相关又准确。

信息预处理类似于现实世界图书馆中的编目。这包括将信息组织成类别并向每条信息分配关键字以便于检索和识别。这个过程有助于使数据更容易访问、更容易搜索和理解。

构建参考库

将组织好的数据存储在矢量数据库或合适的位置，为无缝集成到文本生成过程中奠定基础。它涉及根据相关关键字或术语创建层次结构，然后可以使用该结构快速轻松地定位相关文档或文本。这可以比作在图书馆根据相关主题或类型将书籍上架的过程，这可以帮助顾客快速找到他们需要的资料。

编目系统以客户身份图为基础（以及其他图数据结构）。让LLM能够为客户或员工获得正确的答案意味着根据他们的背景检索信息。这种背景来自他们在旅途中抛出的数字肢体语言。LLM是令人惊叹的算法。但他们需要企业数据来提供真正的效用和竞争优势。这需要对这些数据、内容和客户目录进行建模，以便LLM可以检索正确的信息，而不是将其留给自己的、可能产生幻觉的设备。获得这些问题的答案取决于是否有适当策划和结构化的企业信息。