Skip to content

Latest commit

 

History

History
63 lines (49 loc) · 1.86 KB

File metadata and controls

63 lines (49 loc) · 1.86 KB

动画讲解深度强化学习 - RLHF

本节目录

前情提要

简单提到了 强化学习PPO

1. Transformers

在RLHF前,先简单讲解一下 Transformers。

  • 模型一次只能生成一个单词
  • 模型生成的单词:最适合当前文本的那个词
  • 巨大的数据作为训练集
  • 精选的数据集作为微调的基础
  • 但是大语言模型可能出现幻觉,因此我们需要人为进行纠正--RLHF
Transformers Overview

2. RLHF

RLHF可能有以下两种形式:

  1. 指出答案的正误
  2. 从多个可能的答案中选取最优的答案:具体步骤如下

第一步

多个答案进行优劣排序,给出每个答案的分数

RLHF Step 1

第二步

多个答案生成不同的概率,作为策略的权重

RLHF Step 2

具体到小句子是这样的

RLHF Step 3

第三步

实际上这些关系并不是二维的,而是高纬的,人类将对许多句子进行评价,进而优化transformer,让他生成更好的句子。

RLHF Step 3

3. 结论

所以可以得出结论 策略神经网络就是变压器
(原视频原话,anchor[14:13])