FEAT: ovis2 #3170

Minamiyama · 2025-04-01T22:14:55Z

新增Ovis多模态模型的实现，包括视觉分词器、数据集处理、训练回调等功能模块。主要包含以下内容： 1. 新增视觉分词器（VisualTokenizer）及其配置类，支持多种视觉模型（如CLIP、SigLIP、AIMv2）。 2. 新增多模态数据集处理模块，支持图像和视频数据的预处理及对话格式的处理。 3. 新增训练回调模块，支持监控模型训练状态及调整参数。 4. 新增Ovis模型的配置类及实现，支持多模态输入的处理及生成。 5. 新增工具类，包括常量定义、日志打印、数据预处理等。这些改动为多模态模型的训练和推理提供了完整的支持。

add model card

26bdd16

XprobeBot added the feature label Apr 1, 2025

XprobeBot added this to the v1.x milestone Apr 1, 2025

Minamiyama added 3 commits April 5, 2025 06:33

add support new model class

3770cbb

remove thirdparty codes

d370b86

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FEAT: ovis2 #3170

FEAT: ovis2 #3170

Minamiyama commented Apr 1, 2025 •

edited

Loading

FEAT: ovis2 #3170

Are you sure you want to change the base?

FEAT: ovis2 #3170

Conversation

Minamiyama commented Apr 1, 2025 • edited Loading

Minamiyama commented Apr 1, 2025 •

edited

Loading