报告时间:2020年6月4号星期四晚上8:00-8:45(北京时间)
视觉-语言(Vision-and-Language)问题是近年来非常热门的一个研究课题 ,而其中很多问题都与生成问题息息相关,比如image captioning是基于图像生成语言,text-image synthesis是基于语言生成图像,目前主流的算法倾向于使用end-to-end的方式,通过学习大量的数据,去解决语言和图像的生成问题,这就导致生成的大量样本是不可控的。我们认为,语言作为一种交互工具,理应是可控的,即无论是语言还是图像的生成,都应该是一个可交互,可控制的过程。基于以上想法,我们近期提出了几个工作,一个是controllable image caption generation,另外一个是 house design from a linguistic description 这两个工作都是利用了graph天然的结构化表征能力以及推理逻辑能力,而达到一个可控的,可交互的文字与图像生成效果。而在另外一个工作中,我们又同时将视觉,语言,交互嵌入到一个3D真实环境中,来指导机器人完成相应的动作指令。我将在本次报告中,对这些工作进行介绍。
吴琦,澳大利亚阿德莱德大学助理教授,博士生导师,澳大利亚国家杰出青年基金项目获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心(ACRV)vision-language课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR,ICCV,ECCV AAAI IJCAI TPAMI等多个顶级国际会议和期刊发表论文五十余篇,吴琦博士亦担任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等顶级学术期刊会议审稿人。
韩晓光,博士,香港中文大学(深圳)研究助理教授。其研究方向包括计算机视觉、计算机图形学、虚拟现实和医疗图像处理等,在该方向著名国际期刊和会议发表论文近30篇,包括顶级会议和期刊SIGGRAPHCVPRICCVAAAIACM TOG IEEE TIP,IEEE TVCG等。他的工作曾获得计算机图形学顶级会议Siggraph Asia 2013新兴技术**演示奖,入选2016年年度**计算论文之一,以及2019年计算机视觉顶级会议CVPR**论文列表(入选率1%),他的团队于2018年11月获得IEEE ICDM 全球气象挑战赛冠军(参赛队伍1700多)。更多细节详见[URL]