-
Notifications
You must be signed in to change notification settings - Fork 60
为何可以产生prompts #10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中 |
我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练(或者说退火阶段)数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下,仅使用llama3的bos token也有非常大的概率生成问答对。 |
我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题! |
@lyravv 但是使用一些没有post train的模型 比如tinyllama,他同样会这样 |
我尝试了 deepseek 放的 r 系列模型出 prompt 的概率很小,即使是他们蒸馏的 qwen 系列模型也是,你们有计划生成 r 系列模型的 prompts 吗? |
我也发现了,有些过拟合,可能要压一下Token Distribution。当然有计划,毕竟paper写了800K的instructions还是很诱人的🧐 |
期待R系列的prompts~ |
虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?
The text was updated successfully, but these errors were encountered: