ChatGPT 的前世今生

ChatGPT 是什么

一句话解释，ChatGPT 是一个由 AI 驱动的聊天机器人。

说到聊天机器人，我们之前想到的都是 Siri，小冰，小爱同学等。但是很明显，我们不会认为他们是人工智能而会认为他们是“人工智障”。

原因就在于他们生成的内容往往缺乏深度，对于用户文字或者语言的理解能力也是有限的。但是根本原因在于他们背后的模型和训练集。

什么是模型？

简单来说，你可以把模型理解为一个刚出生的小孩，他的大脑构造由开发人员决定，用来完成某项特定的工作。例如 AlphaGO 是一个被设计来下象棋的大脑。孩子诞生了，但是这是一个没有经过任何训练的大脑，我们需要让他成长，就得给他“做题”，把大量的数据丢给这个小孩让它学习。不管你怎么想，做题的数量往往决定了这个孩子将来的成绩。ChatGPT 背后的模型为 GPT-3.5，它的前辈 GPT-3 的训练样本参数为 1750亿。是至今最大的模型。这个数量比他的爷爷 GPT1 大了 1600 倍。这也导致他训练起来非常的昂贵，据说训练成本在数百万美金到数千万美金之间。折合人民币也是千万甚至上亿的价格。以至于训练如果出了 bug，也不可能重新训练，必须在训练完成之后处理。而 ChatGPT 的训练样本据说还要大上十倍，当然这并没有证实。

可以说完完全全 ChatGPT 是使用美金烧出来的超强人工智能。从这个层面来说，国内想要推出相同量级的人工智能，还需要不少的时间和大资本的决心。不过已经有人做成了，那么必然就会有第二个复现，这和原子弹的研发其实是一样的。

有了优秀的底层模型，以及大量的刷题，一个超强“小镇做题家“登上舞台，他告诉大家: “不好意思，在成为王者人工智能之前，刷题是没法跳过的“

至少目前是这样的。

当然真实的过程并不是简单的把数据丢给模型，其中还需要大量的标注人员，辅助训练的人员，因为其中需要用到人在回路的训练方式。

GPT-3

早在 2020 年，ChatGPT 的爷爷 GPT-3 模型就已经登上了历史舞台，但是并没有像如今这么火，不过当时的 GPT-3 模型让大家看到了三个重要的能力：

语言生成：遵循提示词（prompt），然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。

上下文学习 (in-context learning)：遵循给定任务的几个示例，然后为新的测试用例生成解决方案。很重要的一点是，GPT-3 虽然是个语言模型，但它的论文几乎没有谈到「语言建模」 (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上，这才是 GPT-3 的真正重点。

世界知识：包括事实性知识 (factual knowledge) 和常识 (commonsense)。

但是 GPT-3 的问题在于他的大。一方面，它合理地回应了某些特定的查询，并在许多数据集中达到了还不错的性能；

另一方面，它在许多任务上的表现还不如一些小模型（参见其原始论文）。

就是因为这个孩子太聪明，所以他的回答往往不着遍及，或许只是我们无法理解它罢了。

然而2020年之后，基于 GPT-3 这个父亲，一系列新的强者逐渐崭露头角。基于指令微调(instruction tuning) ，诞生了 text-davinci-001 模型，

code-davinci-001,code-cushman-001等等模型。

而基于人工反馈学习(RLHF)诞生了我们今天的主角 ChatGPT

所以简单来说，GPT-3 就是 ChatGPT 的本体，只不过是投入了大量的精力通过代码训练和指令微调来增强 GPT-3。当他们完成 code-davinci-002 时，所有的能力都已经存在了。很可能后续的指令微调，无论是通过有监督的版本还是强化学习的版本，都会做以下事情

指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级（基础的能力是通过预训练注入的）。

指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习，如 text-davinci-003，有些更擅长对话，如 ChatGPT。

指令微调通过牺牲性能换取与人类的对齐（alignment）。OpenAI 的作者在他们的指令微调论文中称其为「对齐税」 (alignment tax)。

总结

本文中我们简单了解了 ChatGPT 的一生，以及其背后蕴含的技术概览和他的能力来源。

ChatGPT 是迄今最强大的文本领域人工智能模型。

其前身 GPT-3 早在 2020 年已经崭露头角，经过开发人员和标注人员更加细致的代码训练和指令微调，才有了现在的 ChatGPT，为了就是更好的完成「与人类对话」这项工作。

他的能力可以总结为:

语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（davinci）。

存储大量知识的能力来自 1750 亿的参数量。

遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（Davinci-instruct-beta)。

执行复杂推理的能力很可能来自于代码训练（code-davinci-002）。

生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。