对于有确定答案的问题，如果mpo训练的label中不包含cot过程，只有answer，mpo训练是否有效？ #970

wintercat1994 · 2025-04-01T06:10:49Z

非常感谢您的工作！
在阅读internvl2.5mpo的文章和代码时，我发现对于有确定答案的问题，在生成mpo训练数据的时候就会带上cot过程
但我的模型是一个经过无cot数据sft的1b模型，不具有cot能力，且我的领域数据都是具有确定答案的，这种情况下应该如何构造mpo数据？文中提出的mpo方法在这种情况下是否还有效？

yuecao0119 · 2025-04-02T11:54:54Z

你好，

如果已经有明确的正确答案，可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率？如果正确率可以的话，我认为，或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。

Weiyun1025 · 2025-04-12T05:57:32Z

如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对，因为MPO能work的原因其实是更好地引入了针对负样本的监督信号，从而帮助模型修剪自己的分布空间，更接近理想的分布空间，只有答案的样本很难起到这个效果

wintercat1994 · 2025-04-14T01:19:09Z

如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对，因为MPO能work的原因其实是更好地引入了针对负样本的监督信号，从而帮助模型修剪自己的分布空间，更接近理想的分布空间，只有答案的样本很难起到这个效果

非常感谢您的回复，我的意思是，我是否可以基于模型推理过程构建不含cot的正负样本对，然后用于MPO训练？因为我看到paper中的结果都是有cot的正负样本对

wintercat1994 · 2025-04-14T01:21:30Z

你好，

如果已经有明确的正确答案，可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率？如果正确率可以的话，我认为，或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。

感谢您的回复，我的领域数据在其他开源模型上回复正确率较低，之前担心1b模型cot能力较差，带来反效果，因此没有做相关训练。我会尝试一下！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

对于有确定答案的问题，如果mpo训练的label中不包含cot过程，只有answer，mpo训练是否有效？ #970

对于有确定答案的问题，如果mpo训练的label中不包含cot过程，只有answer，mpo训练是否有效？ #970

wintercat1994 commented Apr 1, 2025

yuecao0119 commented Apr 2, 2025

Uh oh!

Weiyun1025 commented Apr 12, 2025

Uh oh!

wintercat1994 commented Apr 14, 2025

Uh oh!

wintercat1994 commented Apr 14, 2025

Uh oh!

对于有确定答案的问题，如果mpo训练的label中不包含cot过程，只有answer，mpo训练是否有效？ #970

对于有确定答案的问题，如果mpo训练的label中不包含cot过程，只有answer，mpo训练是否有效？ #970

Comments

wintercat1994 commented Apr 1, 2025

yuecao0119 commented Apr 2, 2025

Uh oh!

Weiyun1025 commented Apr 12, 2025

Uh oh!

wintercat1994 commented Apr 14, 2025

Uh oh!

wintercat1994 commented Apr 14, 2025

Uh oh!