挑战 Google 搜索？OpenAI 发布最强 AI 对话系统 ChatGPT 整理|苏宓出品|CSDN（ID：CSDNn

文章图片
整理|苏宓出品|CSDN（ID：CSDNnews）GPT-3发布的两年后，我们没等来它的亲弟弟GPT-4 ，而是在今天亲眼见证了OpenAI带来了一种全新的AI聊天机器人——ChatGPT ，也可以称之为是GPT-3家族里面的亲戚，它不仅可以解释代码、编写情景喜剧脚本，也可以为用户的查询提供对话式回答，而且回答几乎能够满足网友的”小心思“ 。
目前， ChatGPT处于测试阶段（chat.openai.com），只要有OpenAI账户就可以免费使用。万万没想到，此超级对话模型一经开放，很多人便深陷其中，无法自拔。就连OpenAI背后的投资者马斯克不忘调侃一句， ”很多人疯狂地陷入了ChatGPT循环中。 “

文章图片
ChatGPT的背后
对此，我们不禁好奇， ChatGPT到底有什么样的魔力，吸引这么多人去尝试？它与GPT-3又有什么不同之处？
根据OpenAI官方介绍，与GPT-3最大的不同应该就是ChatGPT提供了一个用户友好的对话界面，并且非常有道德，即可以强烈限制一些有害的输出，如暴力、脏话等不当的请求。
ChatGPT是InstructGPT的兄弟模型，它被训练为在提示中遵循指令并提供详细的响应。
之前了解过OpenAI的工程师们，想必对InstructGPT还有印象。今年年初， OpenAI为了好好调教GPT-3 ，便给它带来了”调教师“——InstructGPT ，它采用了”从人类反馈中强化学习“（RLHF）来训练这个模型，可以让彼时的GPT-3输出的更为准确。
最新的ChatGPT使用的方法与InstructGPT相同，也是使用了RLHF ，有些不同的地方主要体现在数据收集设置上。
对此， OpenAI解释道， ”ChatGPT使用监督微调训练了一个初始模型：人类AI培训师提供对话，他们在对话中扮演双方--用户和AI助手。 AI培训师通过由模型生成的建议，以帮助AI不断调整回复的内容。 “
当然，为了创建一个用于强化学习的奖励模型， OpenAI也需要收集比较数据，其中包括两个或更多按质量排名的模型回复。为了收集这些数据， OpenAI收集了AI培训师与聊天机器人的对话，并随机选择了一个模型编写的消息，抽查了几个备选的回复，再让AI培训师对这些回复进行排名。此外，利用这些奖励模型，这项研究使用近似策略优化算法对模型进行微调，并对这个过程进行了多次迭代。

文章图片
根据官方介绍， ChatGPT是对GPT-3.5系列中的一个模型微调而成，该模型在2022年初完成了训练。值得注意的是， ChatGPT和GPT-3.5是在AzureAI超级计算基础设施上训练的。
百态横生的ChatGPT ，玩出新花样
到目前为止，很多人对ChatGPT进行了各种测试，发现了各种潜在的用途。比如说：
它可以是程序员得力小助手，帮助开发者解决编码问题：

文章图片
就像这样：

文章图片
甚至还能解释冒泡排序算法：

文章图片
它也是很好的调试小伙伴，程序员再也不用害怕Debug了？

文章图片
它也能充当诗人。当问及”能否写一首关于埃隆-马斯克接管Twitter的押韵诗？“时，它能流畅自然地分享道（不知大家能打几分）：