数据编程开创了数据中心AI的先河

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN 数据编程开创了数据中心AI的先河

数据编程开创了数据中心AI的先河

数据中心的AI是什么？
GPT-3和Delhi为什么强大？
数据对机器学习的重要性
数据过程化编程
使用弱监督的快速训练数据创建
软件2.0：深度学习的数据中心方法
数据中心AI的进展和趋势
未来的数据中心AI应用领域
数据中心AI对Google等应用的影响
感谢与赞助

✨GPT-3和Delhi：数据中心AI的强大之处✨

随着人工智能的发展，数据变得愈发重要。特别是对于强大的模型如GPT-3和Delhi来说，数据是不可或缺的。无论是用于自然语言处理的GPT还是用于图像处理的Delhi，这些大型模型都需要大量的数据支持。

数据的重要性

众所周知，数据量越大越好。因此，在为现实世界应用而设计的模型中，尤其需要大规模的数据集来改进性能。然而，重要的是要确保数据的质量。如果输入的图片不符合实际世界的情况，那么对于模型的泛化能力将没有任何用处，甚至可能损害模型的性能。

这就是数据中心AI的作用。数据中心AI，也称为软件2.0，是指通过最大化数据质量和模型性能，将知识从数据中编码到模型中的优化方法。在与Snorkel合作的视频中，我们将介绍数据中心AI的概念，并回顾该领域的一些重大进展。相信通过这个视频，您将很快了解到数据对机器学习的重要性，这也是Snorkel的使命。

数据编程：快速创建大型训练集

数据编程是数据中心AI的基础，它于2016年在斯坦福大学提出。通过使用生成模型创建大型训练集的方法，该论文引入了通过编程方式为训练数据集进行标注的新范式，而不是手动标注。这在人工智能研究领域来说已经是相当久远的一篇论文了。截至今天，迄今为止最好的方法仍然使用监督学习，即模型对数据和标签进行训练，并学会在给定数据时产生相应的标签。例如，您可以向模型提供许多鸭子和猫的图片及其对应的标签，然后要求模型找出图片中的内容。通过反向传播来训练模型，根据模型的表现来调整其参数。

随着数据规模的不断增大，数据的筛选和去除噪声变得越来越困难，以便让模型只关注相关数据。您肯定不希望训练模型时将松鼠误认为猫，这可能会带来不良后果。当提到数据时，请记住，它可以是任何形式的数据，包括表格、图像、文本和视频等。

现在，您可以轻松下载任何任务的模型，因此数据的改进和优化成为必然。最近的数据集规模和数据依赖的模型规模是为什么在训练数据集标注方面，这样的编程范式变得必不可少的原因。

快速训练数据创建：使用弱监督方法

在斯坦福大学发表的第二篇论文《使用弱监督的快速训练数据创建》进一步扩展了数据编程的思想。鉴于越来越大的训练数据集和标注的难度，这成为模型性能中的瓶颈，这篇论文引入了Snorkel工具。Snorkel是一个实现前一篇论文的端到端系统，它允许知识专家轻松定义标注函数，以自动标注数据，而不是进行手工标注。通过Snorkel，建模时间可以提高多达2.8倍，同时预测性能平均提高了45.5%。因此，用户或专家只需要编写标注函数，这些函数向模型提供了数据分类的模式等信息，帮助模型按照相同的过程进行分类。

Snorkel会自动将新编写的标注函数应用于未标记的数据，并学习生成模型，将输出标签组合成概率标签。然后，这些概率标签被用来训练最终的深度神经网络模型。Snorkel可以自动完成整个过程，为这个过程提供便利。

软件2.0：深度学习的数据中心方法

斯坦福大学发表的最后一篇论文《软件2.0》在又过了一年的时间后出版，它再次推动了基于深度学习的数据中心方法。该论文只有一页纸，但却继续了相同的思路。它使用标注函数为大型未标记数据集生成训练标签，并训练最终的模型。这对于像谷歌广告、Gmail、YouTube等应用中使用的大规模网络爬取数据集非常有用，因为这些应用缺乏手工标注的数据。

当然，这只是数据中心AI领域进展和趋势的一个概述。我强烈建议您阅读下面描述的信息，以全面了解数据中心AI的起源和未来发展方向。同时，我也要感谢Snorkel的赞助，并邀请您查看他们的网站以获取更多信息。如果您之前没有听说过Snorkel，那么在像YouTube、Google Ads、Gmail等许多产品中，您仍然使用过他们的方法。

感谢您观看本视频，直到最后！