多媒体智能前沿实验室

博士生尤晓兴、硕士生赵德龙论文分别获AAAI 2026录用

📢 TL;DR： M³AIL实验室在多模态理解与可解释AI领域取得双重突破！ MERGE框架（Oral）通过构建实体中心知识库，使模型能利用外部背景知识精准生成新闻图片 caption，实现了 caption 质量与实体识别性能的双重提升； PS-CBM模型（Poster）创新性地提出“部分共享”概念策略，解决了传统概念瓶颈模型概念冗余的难题，在保持极高预测精度的同时，显著增强了黑盒模型的可解释性。

2025年11月，人工智能顶级会议 AAAI 2026 (The 40th AAAI Conference on Artificial Intelligence) 录用结果公布。由哈尔滨工业大学（深圳）多媒体智能前沿实验室（M³AIL Research Group）完成的两篇高质量论文成功入选。其中，博士生尤晓兴（第一作者）的论文被录用为 Oral（口头报告）；硕士生赵德龙（第一作者）的论文被录用为 Poster（海报展示）。两项研究均在俞俊教授、黄强教授指导下完成，展示了实验室在多模态学习与可解释深度学习方向的领先探索。

MERGE 研究亮点：知识补全视觉，助力图像描述生成任务

针对图像描述生成任务中实体信息缺失与匹配不准等核心挑战，本文提出了实体感知检索增强框架 MERGE。该框架通过构建实体中心多模态知识库（EMKB）补充外部背景知识，并结合 HCMA 与 RMKI 模块优化图文细粒度对齐与视觉实体关联，显著提升了复杂场景下新闻描述生成的准确性与完整性。

MERGE 实验结果：刷新 SOTA 指标，展现卓越泛化能力

在 GoodNews、NYTimes800k 和 Visual News 三个真实新闻数据集上的评测表明，MERGE 显著超越了现有最先进（SOTA）方法。在 GoodNews 和 NYTimes800k 上，CIDEr 指标分别提升了 +6.84 和 +1.16，命名实体识别（NER）的 F1 分数分别提升了 +4.14 和 +2.64。

此外，论文通过严苛的泛化性实验验证了框架的鲁棒性：在将 Visual News 排除在知识库构建之外（即模型从未见过该域数据）的情况下，MERGE 依然取得了 CIDEr +20.17 和 F1 +6.22 的惊人领先。这充分证明了 MERGE 并非依赖数据过拟合，而是具备了强大的跨数据集迁移与背景知识推理能力。

PS-CBM研究亮点：兼顾精度与解释性的部分共享概念模型

概念瓶颈模型（CBM）通过引入可理解的概念层来增强模型透明度，但面临概念冗余和精度下降的权衡。本研究提出了 PS-CBM (Partially Shared Concept Bottleneck Models)。该方法打破了传统“完全共享”或“完全独立”的概念模式，通过创新的部分共享策略，自动合并各类别间语义相似的概念。此外，本研究提出了概念有效准确率（CEA）这一新指标，为量化解释成本与预测精度之间的平衡提供了理论支撑。

PS-CBM实验结果：更简洁的概念，更精准的分类

在 11 个真实世界数据集上的实验表明，PS-CBM 始终优于现有的 SOTA CBM 模型。在显著减少所需概念数量（平均仅需约 500 个概念）的前提下，其分类准确率提升了 1.0%~7.4%。这表明部分共享策略能有效剔除无关干扰，在保持模型紧凑性的同时，提升了分类的鲁棒性，为构建“透明且强大”的 AI 决策系统开辟了新路径。

跨校企合作：科研与工程深度融合

以上研究由哈尔滨工业大学（深圳）牵头，联合人民日报社、鹏城实验室、新加坡国立大学等单位合作完成。这些成果充分体现了实验室在应对复杂现实挑战（如深度背景理解、可信任 AI 决策）时的持续创新能力，是产学研深度融合的又一结晶。

未来展望：让大模型更深度、更透明、更普惠

未来，实验室将进一步探索多模态 RAG 技术与可解释架构在智慧媒体、医疗诊断等高信任需求场景的落地。我们将继续致力于开发更具认知深度且易于人类理解的智能系统，推动人工智能技术向着更专业、更安全、更公平的方向发展。