中国科技初创企业Moonshot AI近期推出了一款引人瞩目的开源模型Kimi-VL。该模型在图像、文本及视频处理领域展现出卓越性能,其高效率特性获得了业界广泛关注。Kimi-VL最突出的特点是其出色处理长文档、执行复杂推理以及解析用户界面的能力。
根据Moonshot AI介绍,Kimi-VL采用了创新的专家混合架构设计,仅在特定任务执行时激活部分模型组件。尽管其活跃参数仅有2.8亿个,但在多项基准评测中,Kimi-VL展现出与许多大型模型相当的表现,效率大幅超越同类产品。该模型支持高达128,000个标记的上下文窗口,使其能够轻松处理完整书籍或冗长视频的文本记录。公司数据显示,Kimi-VL在LongVideoBench和MMLongBench-Doc等测试中均取得了优异成绩。
在图像分析方面,Kimi-VL同样表现不俗。与竞争对手不同,该模型能够直接分析完整屏幕截图或复杂图表,无需分割处理。它还能有效处理数学图像问题和手写内容识别。一项测试中,Kimi-VL成功解析了一份手写稿件,准确识别出爱因斯坦相关引用并阐释其意义。
作为软件助手,Kimi-VL能够精准解读图形界面并自动化数字任务。Moonshot AI表示,测试结果显示,该模型在浏览器菜单导航和设置调整方面的表现超越了包括GPT-4o在内的多个竞品系统。
与其他开源模型相比,Kimi-VL展现出更高效率。Moonshot AI数据显示,在24项基准测试中,Kimi-VL赢得了19项,尽管其活跃参数远少于竞争对手。在MMBench-EN和AI2D等测试中,其得分与甚至超过了通常由大型商业模型获得的分数。
Moonshot AI指出,Kimi-VL的优异表现源于其独特训练方法。除标准监督微调外,该模型还应用了强化学习技术。特别版Kimi-VL-Thinking经过专门训练,支持更长推理步骤,提升了其在数学等复杂任务中的表现。
尽管表现出色,Kimi-VL在某些高度语言密集型或小众任务上仍存在局限,处理超长上下文时也面临技术挑战。Moonshot AI计划开发更大规模模型版本,扩充训练数据,优化微调技术,目标是打造一个"强大且资源高效的系统",适用于科研和工业等实际应用场景。
今年早些时候,Moonshot AI还发布了Kimi k1.5,这是一款专注于复杂推理的多模态模型,据称在基准测试中可与GPT-4o相媲美。用户可通过kimi.ai网页界面访问Kimi k1.5,而Kimi-VL的演示版则可在Hugging Face平台上获取。