多媒体智能前沿实验室

研究异构模态（如文本、图像）数据的高效表征学习与跨模态匹配算法，开展知识图谱、推荐算法等基础研究，以实现跨模态数据的精确检索与匹配。

研究图像问答、长视频理解和字幕生成技术，提升图像与视频内容的深度理解与语义匹配，推动智能多媒体交互。聚焦时序信息与上下文建模，开发高效的图像视频分析与生成技术。

基于卫星遥感与航拍遥感等技术，研究面向天空端智能体的基础视觉与语言模型部署，探索高效推理方法，形成自主飞行的无人机系统，实现空天智能体的自主感知与决策能力。

围绕大模型在垂直领域的应用，开展大规模数据工程，针对不同应用场景进行大模型微调和偏好对齐，最终实现模型轻量化部署，提高模型的实用性和部署效率。

围绕可控AI生成技术，研究接入复杂文本指令、语义信息的图像生成方法，开发各属性的细粒度编辑生成控制算法，以实现更加精确和定制化的图像生成。

研究面向无人机、机械臂、安全自动驾驶等领域的深度学习算法，搭建软硬件平台，实现指令控制、自主规划与智能决策，以推动具身智能体在实际应用中的落地。

基于医学多模态融合技术，研究面向医学多模态数据的影像识别技术与自动报告生成，实现对组织结构病变等的自动化识别，并提出智能化的诊疗方案推荐。

研究面向多模态遥感数据的跨域感知技术，结合开放动态环境理解与思维链推理等技术，完成跨域识别与群体协同决策，提升复杂环境中的决策能力与适应性。