ChatGPT

ChatGPT 是一种以对话方式进行交互的模型

ChatGPT：优化对话的
语言模型

我们已经训练了一个名为 ChatGPT 的模型，它以对话方式进行交互。对话格式使 ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT 是InstructGPT的兄弟模型，它经过训练可以按照提示中的说明进行操作并提供详细的响应。

方法

我们使用与InstructGPT相同的方法，使用来自人类反馈的强化学习 (RLHF) 来训练该模型，但数据收集设置略有不同。我们使用监督微调训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方——用户和 AI 助手。我们让培训师可以访问模型编写的建议，以帮助他们撰写回复。我们将这个新的对话数据集与 InstructGPT 数据集混合，我们将其转换为对话格式。

为了创建强化学习的奖励模型，我们需要收集比较数据，其中包含两个或多个按质量排序的模型响应。为了收集这些数据，我们收集了 AI 培训师与聊天机器人的对话。我们随机选择了一条模型编写的消息，抽取了几个备选的完成方式，并让 AI 培训师对它们进行排名。使用这些奖励模型，我们可以使用近端策略优化来微调模型。我们对这个过程进行了几次迭代。

ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的，该模型于 2022 年初完成训练。您可以在此处了解有关 3.5 系列的更多信息。ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础设施上进行了训练。

限制

ChatGPT 有时会写出看似合理但不正确或荒谬的答案。解决这个问题具有挑战性，因为：（1）在 RL 训练期间，目前没有真实来源；(2) 训练模型更加谨慎导致它拒绝可以正确回答的问题；(3) 监督训练会误导模型，因为理想的答案取决于模型知道什么，而不是人类演示者知道什么。
ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。例如，给定一个问题的措辞，模型可以声称不知道答案，但只要稍作改写，就可以正确回答。
该模型通常过于冗长并过度使用某些短语，例如重申它是 OpenAI 训练的语言模型。这些问题源于训练数据的偏差（训练者更喜欢看起来更全面的更长答案）和众所周知的过度优化问题。¹²
理想情况下，当用户提供模棱两可的查询时，模型会提出澄清问题。相反，我们当前的模型通常会猜测用户的意图。
虽然我们已努力使模型拒绝不当请求，但它有时会响应有害指令或表现出有偏见的行为。我们正在使用Moderation API来警告或阻止某些类型的不安全内容，但我们预计它目前会有一些漏报和漏报。我们渴望收集用户反馈，以帮助我们正在进行的改进该系统的工作。

迭代部署

今天发布的 ChatGPT 研究版本是 OpenAI迭代部署越来越安全和有用的人工智能系统的最新一步。从早期模型（如 GPT-3 和 Codex）的部署中汲取的许多教训已经为本次发布的安全缓解措施提供了信息，包括通过使用人类反馈强化学习 (RLHF) 实现的有害和不真实输出的大幅减少。

发表评论取消回复

要发表评论，您必须先登录。

ChatGPT

ChatGPT 是一种以对话方式进行交互的模型

ChatGPT：优化对话的语言模型

方法

限制

迭代部署

发表评论取消回复

ChatGPT：优化对话的
语言模型