为何可以产生prompts #10

lyravv · 2024-07-02T10:26:11Z

虽然llama-3-instruct模型是自回归模型，但其在sft和偏好对齐阶段训练时候，prompts是被mask掉的，不参与loss计算的。为什么给了前置template会自动产生prompts？

zhangchen-xu · 2024-07-03T03:33:14Z

您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中

lyravv · 2024-07-08T09:06:19Z

我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练（或者说退火阶段）数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下，仅使用llama3的bos token也有非常大的概率生成问答对。

zhangchen-xu · 2024-07-10T22:08:34Z

我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题！
之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>，可能确实有一部分指令数据来自于退火！

eyuansu62 · 2024-07-17T09:12:49Z

@lyravv 但是使用一些没有post train的模型比如tinyllama，他同样会这样

WooKimm · 2025-01-24T11:38:23Z

我尝试了 deepseek 放的 r 系列模型出 prompt 的概率很小，即使是他们蒸馏的 qwen 系列模型也是，你们有计划生成 r 系列模型的 prompts 吗？

zhangchen-xu · 2025-01-24T19:52:52Z

我尝试了 deepseek 放的 r 系列模型出 prompt 的概率很小，即使是他们蒸馏的 qwen 系列模型也是，你们有计划生成 r 系列模型的 prompts 吗？

我也发现了，有些过拟合，可能要压一下Token Distribution。当然有计划，毕竟paper写了800K的instructions还是很诱人的🧐

DumoeDss · 2025-02-09T09:37:50Z

我尝试了 deepseek 放的 r 系列模型出 prompt 的概率很小，即使是他们蒸馏的 qwen 系列模型也是，你们有计划生成 r 系列模型的 prompts 吗？

我也发现了，有些过拟合，可能要压一下Token Distribution。当然有计划，毕竟paper写了800K的instructions还是很诱人的🧐

期待R系列的prompts~

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

为何可以产生prompts #10

为何可以产生prompts #10

lyravv commented Jul 2, 2024

zhangchen-xu commented Jul 3, 2024

lyravv commented Jul 8, 2024

zhangchen-xu commented Jul 10, 2024

eyuansu62 commented Jul 17, 2024

WooKimm commented Jan 24, 2025

zhangchen-xu commented Jan 24, 2025

DumoeDss commented Feb 9, 2025

为何可以产生prompts #10

为何可以产生prompts #10

Comments

lyravv commented Jul 2, 2024

zhangchen-xu commented Jul 3, 2024

lyravv commented Jul 8, 2024

zhangchen-xu commented Jul 10, 2024

eyuansu62 commented Jul 17, 2024

WooKimm commented Jan 24, 2025

zhangchen-xu commented Jan 24, 2025

DumoeDss commented Feb 9, 2025