ChatGPT 是什么
一句话解释,ChatGPT 是一个由 AI 驱动的聊天机器人。
说到聊天机器人,我们之前想到的都是 Siri, 小冰,小爱同学等。但是很明显,我们不会认为他们是人工智能而会认为他们是“人工智障”。
原因就在于他们生成的内容往往缺乏深度,对于用户文字或者语言的理解能力也是有限的。但是根本原因在于他们背后的模型和训练集。
什么是模型?
简单来说,你可以把模型理解为一个刚出生的小孩,他的大脑构造由开发人员决定,用来完成某项特定的工作。例如 AlphaGO 是一个被设计来下象棋的大脑。孩子诞生了,但是这是一个没有经过任何训练的大脑,我们需要让他成长,就得给他“做题”,把大量的数据丢给这个小孩让它学习。不管你怎么想,做题的数量往往决定了这个孩子将来的成绩。ChatGPT 背后的模型为 GPT-3.5,它的前辈 GPT-3 的训练样本参数为 1750亿。是至今最大的模型。这个数量比他的爷爷 GPT1 大了 1600 倍。这也导致他训练起来非常的昂贵,据说训练成本在 数百万美金到 数千万美金之间。折合人民币也是千万甚至上亿的价格。以至于训练如果出了 bug,也不可能重新训练,必须在训练完成之后处理。而 ChatGPT 的训练样本据说还要大上十倍,当然这并没有证实。
可以说完完全全 ChatGPT 是使用美金烧出来的超强人工智能。从这个层面来说,国内想要推出相同量级的人工智能,还需要不少的时间和大资本的决心。不过已经有人做成了,那么必然就会有第二个复现,这和原子弹的研发其实是一样的。
有了优秀的底层模型,以及大量的刷题,一个超强“小镇做题家“登上舞台,他告诉大家: “不好意思,在成为王者人工智能之前,刷题是没法跳过的“
至少目前是这样的。
当然真实的过程并不是简单的把数据丢给模型,其中还需要大量的标注人员,辅助训练的人员,因为其中需要用到人在回路的训练方式。
GPT-3
早在 2020 年,ChatGPT 的爷爷 GPT-3 模型就已经登上了历史舞台,但是并没有像如今这么火,不过当时的 GPT-3 模型让大家看到了三个重要的能力:
- 语言生成:遵循提示词(prompt),然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。
- 上下文学习 (in-context learning):遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT-3 虽然是个语言模型,但它的论文几乎没有谈到「语言建模」 (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT-3 的真正重点。
- 世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)。
但是 GPT-3 的问题在于他的大。一方面,它合理地回应了某些特定的查询,并在许多数据集中达到了还不错的性能;
另一方面,它在许多任务上的表现还不如一些小模型(参见其原始论文)。
就是因为这个孩子太聪明,所以他的回答往往不着遍及,或许只是我们无法理解它罢了。
然而2020年之后,基于 GPT-3 这个父亲,一系列新的强者逐渐崭露头角。基于指令微调(instruction tuning) ,诞生了 text-davinci-001 模型,
code-davinci-001,code-cushman-001等等模型。
而基于人工反馈学习(RLHF)诞生了我们今天的主角 ChatGPT
所以简单来说,GPT-3 就是 ChatGPT 的本体,只不过是投入了大量的精力通过代码训练和指令微调来增强 GPT-3。当他们完成 code-davinci-002 时,所有的能力都已经存在了。很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情
- 指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。
- 指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习,如 text-davinci-003,有些更擅长对话,如 ChatGPT。
- 指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为「对齐税」 (alignment tax)。
总结
本文中我们简单了解了 ChatGPT 的一生,以及其背后蕴含的技术概览和他的能力来源。
ChatGPT 是迄今最强大的文本领域人工智能模型。
其前身 GPT-3 早在 2020 年已经崭露头角,经过开发人员和标注人员更加细致的代码训练和指令微调,才有了现在的 ChatGPT,为了就是更好的完成「与人类对话」这项工作。
他的能力可以总结为:
- 语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练(davinci)。
- 存储大量知识的能力来自 1750 亿的参数量。
- 遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(Davinci-instruct-beta)。
- 执行复杂推理的能力很可能来自于代码训练(code-davinci-002)。
- 生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。