极简介绍大模型Transformer架构选型

2024-01-26  |  来源:互联网 150浏览

*简介绍大模型Transformer架构选型

To be [decoder], or not to be [decoder], that is the question. -- William Shakespeare

Google 2017年《Attention Is All You Need》论文中提出Transformer模型,基于Encoder-Decoder架构。

并在之后论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中提出 BERT 模型,特点如下:

利用 Transformer 的 Encoder 架构;

预训练和 Fine-tuning;

预训练任务先在句中随机掩码几个词,后利用上下文预测这些词,进而预测下一句;

双向,上文+下文;

BERT 一度**流行,国内很多公司的大模型都是基于Bert进一步训练的。OpenAI 则默默坚守GPT方向,直到ChatGPT 横空出世。GPT 模型特点如下:

利用 Transformer 的 Decoder 架构;

预训练+Prompts(提示);

预训练任务先在句中掩码*后一词,后利用上文预测这个词,把预测的这个词用作上文,预测再下一个词(自回归);

单向,从左到右,仅上文;

两者演化为如下的谱系:

两者对应的预训练的优化目标函数分别如下,我们先看GPT

自回归(AR: Auto Regression)在学什么?“上文”中每个词与它们的组合的联合概率*大。

AR 是在反复学习遣词造句,语料是别人造好的句子,捂住*后面的,只看前面的,试着续写出来整个句子。训练的是事前诸葛亮的能力,符合人类正常的思维方式。某种意义上,AR其实是对人类思维流机理的学习。

很多情况下,AR学到了不仅仅有概率,还有因果,仔细体会:石头打人很 [ ],预测得到“疼”。

回过头再看 Bert,

自编码(AE:Auto Encoding)在学什么?“上文”加上“下文”中每个词与它们的组合的联合概率*大。

AE 是在反复学习完形填空,语料是整篇文章,随机捂住中间的单词,通过上下文猜出这些单词。训练的是事后诸葛亮的能力,不符合人类正常思维方式。大家写作文,常打个腹稿,下笔还是思维流的方式补全调整细节措辞,很少整篇文字一次性喷涌而出。

很多情况下,AE学到了完形填空的精髓,为了考试而考试的机巧,石头 [ ] 人很疼,或许能预测出“打”字,但会更吃力,而且缺少泛化能力。

“事实证明,完型填空通常是同学们较难把握的题型之一,且失分率较高。”这是谷歌搜索完形填空**条搜索结果。“托福雅思都没有,表示这个已经不适合语言学发展”,模型在针对这样的题目训练,其实除了自虐,学不到多少机理。

籍此,笔者有一个可能让不少人恼火的判断,所有基于Bert的模型都因为使用了Encoder而很难涌现,反倒是仅用 Decoder的GPT 类的容易涌现。Google Bert and Bard 都是成本高昂的试错,其技术成果与发现,为GPT做了嫁衣裳。

AR 在学写作的机理,机理学习多了,容易涌现;而AE 将模型注意力放到了写作的机巧,机巧学习多了,反而造成混乱。


本文关于以上的科普知识就讲解到这里了,更多关相关知识欢迎关注我们。百检网是一个综合性的检测平台,为你提供各方面的检测服务,欢迎来电咨询。