Transformer和BERT模型：综述

Find AI Tools in second

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN Transformer和BERT模型：综述

Updated on Mar 09,2024

Transformer和BERT模型：综述

引言

📙 生成AI 和 🧪 谷歌Vertex AI 的新特性如 Gen AI Studio、Model Garden 和 Gen AI API 等，已经引起了极大的关注。本次讲座的目的是为了让大家对支撑Gen AI魔力的某些概念有个坚实的基础。今天我要谈的是Transformer模型和BERT模型。

自然语言处理的演进

Word2Vec和N-gram

自然语言处理在过去几年中进行了许多演进。在2013年，神经网络在表示文本方面取得了突破，例如 Word2Vec 和 N-gram。这些模型可以将单词表示为向量，但这些向量并不包含上下文信息。例如，在注意力机制问世之前，表示bank和河岸的bank与表示银行劫匪的bank可能具有相同的向量表示。

序列到序列模型和RNN

在2014年，序列到序列模型（如循环神经网络（RNN）和长短期记忆（LSTM））的发展提高了机器学习模型在自然语言处理任务（如翻译和文本分类）中的性能。

注意力机制和Transformer

2015年，注意力机制和基于此构建的模型（如Transformer和BERT模型）推动了自然语言处理领域的发展。Transformer模型是基于2017年一篇名为《Attention Is All You Need》的论文提出的。与Transformer之前的所有模型能够将单词表示为向量不同，Transformer模型能够根据上下文信息对单词进行表示。

Transformer模型

编码器和解码器

Transformer模型由编码器和解码器组成。编码器对输入序列进行编码并将其传递给解码器，解码器根据任务解码表示。编码器由多个相同结构的编码器层堆叠而成。原始的Transformer论文在模型中使用了六个编码器层，但这个数量并不是固定的，它是一个超参数。

自注意力机制

编码器的每个编码器层都由两个子层组成：自注意力层和前馈神经网络层。自注意力层将输入通过一个自注意力机制，以便在编码输入句子时查看相关部分的单词。前馈神经网络层接收自注意力层的输出，并对每个位置的向量进行独立的处理。

前馈神经网络

前馈神经网络层是编码器的第二个子层，它接收自注意力层的输出向量，并将其发送到独立的前馈神经网络中进行处理。前馈神经网络使用相同的网络结构，但是每个向量都会独立地通过网络。

编码器-解码器注意力

解码器中包含自注意力和前馈神经网络层，但在它们之间还有一个编码器-解码器注意力层。编码器-解码器注意力层帮助解码器集中注意力于输入句子的相关部分。在嵌入输入句子的单词后，每个嵌入向量都会依次通过编码器的两个子层。自注意力层会对每个位置的单词进行处理，然后将其发送到前馈神经网络中。自注意力层中存在依赖关系，而前馈神经网络层中没有这些依赖关系，因此在前馈神经网络层中可以同时执行不同的路径。

Transformer的多层结构

Transformer模型有多种不同的变体。有些模型同时使用了编码器和解码器组件，有些只使用了编码器，有些只使用了解码器。BERT是一个常见的只使用编码器的变体。BERT代表双向编码器表示来自transformers，它在2018年由谷歌开发。BERT模型非常强大，可以处理较长的输入上下文。BERT模型是基于整个维基百科语料库和图书语料库进行训练的。BERT模型的训练步骤达到了100万步。BERT模型在训练时使用了多任务学习的方法，这使得它可以处理各种不同的NLP任务。