企业多模式生成AI程序开发
目录
- 生成AI程序和企业的多模式生成AI
- 生成数据和生成AI的定义
- 各种生成AI的多模式
- 生成AI和机器学习的实例工作流程
- 部署考虑因素
生成AI程序和企业的多模式生成AI
大家好,我是 Gretel.AI 的创始人兼首席技术官。今天我将讲解企业中开发多模式生成AI程序的内容,这与我们之前讨论的一切都相呼应。请开始吧。
这两个机器人是否属于生成AI呢?它们似乎总是会产生幻觉。
好的,感谢大家。下午好,很高兴能够在这里与大家相聚。我是 John Myers ,来自 Gretel AI ,我们是一家专门从事生成AEI平台的公司。
我希望今天每个人都能够汇总我们上午所听到的各种关于生成AI的令人兴奋的演讲,并思考如何在企业中构建生成AI程序。因此,我想今天讨论以下内容:生成AI的不同模式,可以操作的不同类型的数据;通过我们与客户合作的一些示例工作流程;以及一些常见的供应商部署模型,使您能够更好地考虑要在企业中部署的工具和产品的特性,并将合成数据融入业务流程中。
什么是生成数据和生成AI?
首先,让我们给生成数据和生成AI作一些高级定义。生成数据是指生成的数据,它复制了真实数据的统计特性,并能构建在这些数据基础上,同时模拟真实世界情况,而无需访问原始数据。通过使用各种生成AI方法,可以生成各种模态的数据。这些模态可以处理各种不同类型的数据,例如表格、多表和关系数据库、自然语言和时间序列数据。我们通过各种模型进行这个过程,这些模型可以在我们的云端部署或在您的企业内部进行部署,我们称之为"混合模式"。
- Pros:生成数据是对真实数据的一种安全替代,可以更广泛地分享。
- Cons:在生成的数据中,可能会丧失某些原始数据的细节。
生成AI的多模式
让我们来看一下生成数据的多种模式。以下是我们在 Gretel 上支持的核心模式。您会发现,有许多不同的工具可以通过各种不同的方式支持这些模式。我们最常见的模式之一是表格数据,它可以采用多种不同形式。最常见的是单表格,通常我们与客户一起使用单表格表格数据,目的是为了创建训练数据集的合成版本,以便可以更广泛地在企业中共享。
单表格模式
通过将训练数据集创建成合成数据集的方式,可以确保更广泛的共享,而无需担心隐私问题。我们有一个实际客户的例子,该客户目前正在使用离线数据。通常,为了使离线数据可共享,客户必须对数据应用不同的转换技术。例如,对数据进行分组或简化处理,以避免数据具有太高的保真度。我们通过允许客户创建合成版本的数据来解决这个问题。这样,您就不必使用分组后的数据,而是可以使用更广泛共享的数据,例如用于分类和回归等用例。
扩充数据模式
更先进的情况是,您可以使用新记录扩充数据集,这样可以增加训练样本的数量,或在数据集中创建某个类别的训练样本。在将机器学习应用到您的现有平台中时,通常会有不同的要求,例如,您需要具有一定数量的训练记录,并且还建议在数据集中保持一定的平衡。如果原始训练数据中不存在这种平衡,您可以使用生成AI来填补这些空白。
时间序列模式
时间序列数据是指随时间而变化的数据。最常见的用例是填补数据中的缺失值,因为采集这些数据通常比较昂贵。我们的一位客户,正在收集的物理传感器数据非常昂贵,他们只在其中一小部分传感器上采集数据。所以,为了完善模拟需求,他们使用生成数据来填补时间序列中的某些空缺。
自然语言模式
目前有许多自然语言的应用。而 Gretel 允许您构建自己的内部 GPT 模型,让您能够从开源生态系统中提取部分模型并将其引入到您的环境中,您可以在自己的数据上进行微调,然后使用这些 GPT 模型完成各种不同的用例。我们与客户合作的最常见用例之一是为 NLP 建模创建附加的训练样本。更具体的用户情况包括为有毒语言检测、垃圾邮件和欺诈检测创建额外的样本,以及帮助训练和开发聊天机器人和个人虚拟助手等。
合成图像模式
通过合成生成图像,我们能够构建昂贵获取的图像数据集,比如保险和医疗技术中的图像。例如,保险公司想要创建一些真实灾难事故的图像,以便可以自动分析事故的不同方面,如责任等。由于这些图像很难获取,因为没有人希望故意供车辆发生事故,我们可以生成这些类型的图像,并将其带回您的机器学习运维流程中。
生成AI和机器学习的实例工作流程
接下来,我将介绍一些示例工作流程,以展示如何将生成数据集集成到机器学习运维流程中。这里有两个用例,第一个用例专注于已有的机器学习训练集,但由于数据不平衡或缺乏足够的训练样本,性能不佳。第二个用例专注于将机器学习引入环境中,但尚未拥有任何训练数据集,只需要开始探索生产数据,以便创建高逼真的机器学习训练集。
用例一:已有的机器学习训练集
首先,我们有一个以机器学习AI数据集为基础的数据集。通常,团队会开始分析这些数据集,以确定数据是否存在不平衡。一旦确定了数据中的不足之处,您可以使用MLAI数据集训练一个合成模型。我们提供各种模型供您选择,具体取决于您的需求,如基于语言的GAN模型、基于统计的模型、关注差异隐私的模型等。一旦训练完成,您可以使用条件语句生成额外的数据。例如,如果您正在从不同的位置收集数据,并且来自纽约市的样本数量很少,您可以向模型提供一个条件,告诉它为您生成500条来自纽约的记录。模型会根据已经学习到的纽约记录的特征为您填充其他记录。然后,您可以将这些数据添加回训练集中,继续进行机器学习AI实验,观察分类或回归模型的性能,并进行迭代和调整,以确保构建出符合您需求的机器学习AI数据集。
用例二:新机器学习训练集
在这种情况下,您可能还没有为特定用例的机器学习AI项目创建任何训练集。通常,您的数据分布在用于交易的数据仓库或关系数据库中,以支持您正在构建的应用程序。由于要构建一个庞大的数据集,您可能需要在这些数据上进行探索,并根据需要构建查询模式。但是,在此之前,您必须解决隐私问题,如何创建您可以浏览和分析的生产数据库的安全版本。我们允许您从生产数据库中创建子集,这样您就可以开始探索并构建所需的各种查询模式。例如,您可能使用 materialized view 来创建您的数据集,并将其存储为一个可用于训练的单表格。一旦您拥有了这个单表格,您就可以开始将其合成成新的数据集,并在您的机器学习运维流程中使用。
部署考虑因素
最后,我将谈一谈部署考虑因素。主要有三种不同的部署模式。在 Gretel 上,我们可以提供这三种模式。您会发现不同的工具可能属于不同的模式,而 Gretel 则同时支持多种模式。首先是开源或半开源许可证,半开源许可证是指那些建议您只能在企业内部使用的工具,或者只能用于实验目的。在选择开源软件时,请一定要阅读许可证的细则,并了解您的约束条件。Gretel 的所有开源代码都在我们的网站上公开,允许大家自由访问和使用,但有一个限制条件,那就是不得用于竞争性服务和服务的再销售。
关于开源工具,其中的一些缺点是,您主要依赖于社区支持,并且许可证可能会随时更改。大多数工具主要以 Python SDKs 的形式提供,因为 Python 是构建底层库(如 TensorFlow 和 PyTorch)的主要语言。这意味着您的开发人员需要有一定的经验,并熟悉这些软件包。
在考虑在您的环境中使用开源工具时,需要考虑如何进行部署和规模化。这完全取决于您,您需要弄清楚如何在适当的硬件上部署这些工具,如何进行扩展,并为其分配资源。如果您有足够的资源和能力做到这一点,那是很好的。我建议在探索这些工具时,将其用于沙盒环境,但一旦进入实际操作阶段,您可能希望考虑使用更多的供应商云托管或混合部署模式。
供应商云托管即完全SAS组件。如果免费版本存在,并且 Gretel 有免费版本,您可以开始使用它们。我们为您提供了演示数据,因此您无需担心上传敏感信息。另一种模式是混合模式,即您可以将计算资源部署在自己的云环境中。在 Gretel 中,我们支持部署至 AWS、GCP 和 Azure 的混合模式。一旦部署完成,我们的数据平面将在您的虚拟云环境内运行,您的数据永远都不会离开您的环境,您可以对模型进行微调,并根据需要无限制地使用它们。
总结
在本次讲座中,我介绍了构建生成AI程序时需要考虑的不同因素。首先,您需要考虑您所处理的模态类型,例如表格数据、关系数据库、图像数据和时间序列数据。您应该寻找一个提供对所有您需要的类型支持的供应商,以免需要为每种模式构建不同的解决方案。其次,您需要考虑如何与现有的工作流程相配合,确保工具可以与您现有的机器学习运维流程无缝对接。最后,您需要考虑部署因素,是选择开源工具、完全SAS托管,还是混合部署,以便将数据保留在您的环境中,并在您所用的云环境中进行资源分配。
太长不看版:
- 定义:生成数据是指复制真实数据的统计属性以构建数据,生成AI是用于生成数据的AI方法。
- 多模式:支持的多种模态包括表格数据、关系数据库、图像数据和时间序列数据等,可通过各种模型进行操作。
- 工作流程:示例工作流程包括通过合成模型和检查数据不平衡来进行机器学习训练集的改进,以及通过数据查询和生成新数据集来构建机器学习训练集。
- 部署考虑因素:可以选择开源工具、完全SAS托管或混合部署,根据需求和资源进行选择。
资源: