简单提到了 强化学习 与 PPO。
在RLHF前,先简单讲解一下 Transformers。
- 模型一次只能生成一个单词
- 模型生成的单词:最适合当前文本的那个词
- 巨大的数据作为训练集
- 用精选的数据集作为微调的基础
- 但是大语言模型可能出现幻觉,因此我们需要人为进行纠正--RLHF
RLHF可能有以下两种形式:
- 指出答案的正误
- 从多个可能的答案中选取最优的答案:具体步骤如下
多个答案进行优劣排序,给出每个答案的分数
多个答案生成不同的概率,作为策略的权重
具体到小句子是这样的
实际上这些关系并不是二维的,而是高纬的,人类将对许多句子进行评价,进而优化transformer,让他生成更好的句子。
所以可以得出结论 策略神经网络就是变压器
(原视频原话,anchor[14:13])