We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
非常感谢您的工作! 在阅读internvl2.5mpo的文章和代码时,我发现对于有确定答案的问题,在生成mpo训练数据的时候就会带上cot过程 但我的模型是一个经过无cot数据sft的1b模型,不具有cot能力,且我的领域数据都是具有确定答案的,这种情况下应该如何构造mpo数据?文中提出的mpo方法在这种情况下是否还有效?
The text was updated successfully, but these errors were encountered:
你好,
如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。
Sorry, something went wrong.
如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对,因为MPO能work的原因其实是更好地引入了针对负样本的监督信号,从而帮助模型修剪自己的分布空间,更接近理想的分布空间,只有答案的样本很难起到这个效果
非常感谢您的回复,我的意思是,我是否可以基于模型推理过程构建不含cot的正负样本对,然后用于MPO训练?因为我看到paper中的结果都是有cot的正负样本对
你好, 如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。
感谢您的回复,我的领域数据在其他开源模型上回复正确率较低,之前担心1b模型cot能力较差,带来反效果,因此没有做相关训练。我会尝试一下!
No branches or pull requests
非常感谢您的工作!
在阅读internvl2.5mpo的文章和代码时,我发现对于有确定答案的问题,在生成mpo训练数据的时候就会带上cot过程
但我的模型是一个经过无cot数据sft的1b模型,不具有cot能力,且我的领域数据都是具有确定答案的,这种情况下应该如何构造mpo数据?文中提出的mpo方法在这种情况下是否还有效?
The text was updated successfully, but these errors were encountered: