文本引导的可控图像/视频生成

报告题目：文本引导的可控图像/视频生成

报告人：左旺孟教授、博士生导师

报告时间：2023年9月23日9:50

报告地点：秀山校区艺设西楼213会议室

报告对象：二肖二码长期免费公开研究生及其他感兴趣师生

报告内容：近年来，Stable Diffusion等大规模文生图模型的出现为视觉内容生成提供了新的助力。然而，相对于通用图像生成，许多应用需求中都会涉及特定对象或特定结构的生成。为此，本报告主要包括：(1) 针对特定对象的定制化生成，综合利用全局伪文字生成和局部注意力匹配机制，设计了一种新的高效编码网络Elite生成伪文字，显著提升图像定制化生成效率，并研究了基于文本解耦的方式进行更好的伪文字生成。（2）针对特定结构的图像生成问题，提出了一种动态引导和开放域正则化方法，更够更为准确地利用分割图进行开放域图像生成。(3) 针对特定结构的视频生成问题，提出了一种仅基于已有Stable Diffusion，不需要额外训练的ControlVideo方法，能够更为稳定地生成视频。

报告人简介：

左旺孟，哈尔滨工业大学计算机学院教授、博士生导师，机器学习中心执行主任。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和T-PAMI、IJCV及IEEE Trans.等期刊上发表论文100余篇。曾任ICCV、CVPR等CCF-A类会议领域主席，现任IEEE T-PAMI、T-IP、中国科学-信息科学等期刊编委。

网站首页

学院概况

组织机构

本科生教育

研究生教育

师资队伍

学科与科研

党建园地

学生工作

校友之家

招贤纳士

ENGLISH

文本引导的可控图像/视频生成