acrv

报告时间：2020年6月4号星期四晚上8:00-8:45北京

发表于 2025-09-04 synthesis acrv acl

报告时间：2020年6月4号星期四晚上8:00-8:45（北京时间）视觉-语言（Vision-and-Language）问题是近年来非常热门的一个研究课题，而其中很多问题都与生成问题息息相关，比如image captioning是基于图像生成语言，text-image synthesis是基于语言生成图像，目前主流的算法倾向于使用end-to-end的方式，通过学习大量的数据，去解决语言和图像的生成问题，这就导致生成的大量样本是不可控的。我们认为，语言作为一种交互工具，理应是可控的，即无论是语言还是图像的生成，都应该是一个可交互，可控制的过程。基于以上想法，我们近期提出了几个工作，一个是controllable image caption generation，另外一个是 house design from a linguistic description 这两个工作都是利用了graph天然的结构化表征能力以及推理逻辑能力，而达到一个可控的，可交互的文字与图像生成效果