📢 TL;DR: 针对纯自回归多模态模型在处理文本与视觉输入时的梯度冲突问题,我们提出了 Uni-X 架构。通过在模型两端设置模态专用分支,中间层保持共享,Uni-X 成功在 3B 参数量下实现了超越 7B 模型的性能。此外,该架构将注意力机制复杂度从 $O((a+b)^2)$ 优化至 $O(a^2+b^2)$,显著提升了训练与推理吞吐量。
📄 论文原文 |
💻 代码仓库 |
🤗 模型权重
近日,机器学习顶级会议 ICLR 2026 录用结果公布。由 哈尔滨工业大学(深圳) 智能科学与工程学院 多媒体智能前沿实验室(M3AIL Research Group) 研究生 郝继泰(第一作者)在 俞俊教授、黄强教授 指导下完成的论文 《Uni-X: Resolving Gradient Conflict in Unified Multimodal Models via Two-End-Separated Architecture》 被正式接收。
研究团队从信息论角度分析发现,视觉 Token 序列的条件熵(Condition Entropy)显著高于英语、德语或中文等自然语言。这种极高的信息熵意味着视觉序列需要模型建模更复杂的空间依赖。在标准 Transformer 中,这种差异会导致浅层(特征提取)和深层(分布预测)出现剧烈的梯度冲突(Gradient Conflict)。
基于上述发现,Uni-X 抛弃了复杂的外部视觉编码器,通过物理架构设计贴合模态特性:
Uni-X-3B 在多个基准测试中展现出卓越性能:
团队计划进一步探索移除 VQ-VAE 中间件的可能性。如果让 Uni-X 的分叉部分直接承担起 Tokenizer 与 Detokenizer 的功能,我们将有望实现真正意义上的 Pixel-to-Pixel 端到端原生多模态统一模型。