跨模态检索

研究异构模态(如文本、图像)数据的高效表征学习与跨模态匹配算法,开展知识图谱、推荐算法等基础研究,以实现跨模态数据的精确检索与匹配。

图像视频理解

研究图像问答、长视频理解和字幕生成技术,提升图像与视频内容的深度理解与语义匹配,推动智能多媒体交互。聚焦时序信息与上下文建模,开发高效的图像视频分析与生成技术。

空天智能

基于卫星遥感与航拍遥感等技术,研究面向天空端智能体的基础视觉与语言模型部署,探索高效推理方法,形成自主飞行的无人机系统,实现空天智能体的自主感知与决策能力。

大模型应用

围绕大模型在垂直领域的应用,开展大规模数据工程,针对不同应用场景进行大模型微调和偏好对齐,最终实现模型轻量化部署,提高模型的实用性和部署效率。

图像生成

围绕可控AI生成技术,研究接入复杂文本指令、语义信息的图像生成方法,开发各属性的细粒度编辑生成控制算法,以实现更加精确和定制化的图像生成。

具身智能

研究面向无人机、机械臂、安全自动驾驶等领域的深度学习算法,搭建软硬件平台,实现指令控制、自主规划与智能决策,以推动具身智能体在实际应用中的落地。

医学影像分析

基于医学多模态融合技术,研究面向医学多模态数据的影像识别技术与自动报告生成,实现对组织结构病变等的自动化识别,并提出智能化的诊疗方案推荐。

跨域感知

研究面向多模态遥感数据的跨域感知技术,结合开放动态环境理解与思维链推理等技术,完成跨域识别与群体协同决策,提升复杂环境中的决策能力与适应性。