Skip to content

对于有确定答案的问题,如果mpo训练的label中不包含cot过程,只有answer,mpo训练是否有效? #970

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
wintercat1994 opened this issue Apr 1, 2025 · 4 comments

Comments

@wintercat1994
Copy link

非常感谢您的工作!
在阅读internvl2.5mpo的文章和代码时,我发现对于有确定答案的问题,在生成mpo训练数据的时候就会带上cot过程
但我的模型是一个经过无cot数据sft的1b模型,不具有cot能力,且我的领域数据都是具有确定答案的,这种情况下应该如何构造mpo数据?文中提出的mpo方法在这种情况下是否还有效?

@yuecao0119
Copy link
Collaborator

你好,

如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。

@Weiyun1025
Copy link
Collaborator

如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对,因为MPO能work的原因其实是更好地引入了针对负样本的监督信号,从而帮助模型修剪自己的分布空间,更接近理想的分布空间,只有答案的样本很难起到这个效果

@wintercat1994
Copy link
Author

如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对,因为MPO能work的原因其实是更好地引入了针对负样本的监督信号,从而帮助模型修剪自己的分布空间,更接近理想的分布空间,只有答案的样本很难起到这个效果

非常感谢您的回复,我的意思是,我是否可以基于模型推理过程构建不含cot的正负样本对,然后用于MPO训练?因为我看到paper中的结果都是有cot的正负样本对

@wintercat1994
Copy link
Author

你好,

如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。

感谢您的回复,我的领域数据在其他开源模型上回复正确率较低,之前担心1b模型cot能力较差,带来反效果,因此没有做相关训练。我会尝试一下!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants