captioning - 爱搜

发表于 2025-09-29 vatex ucsb 吴文俊

计算机视觉方向的顶级学术会议之一国际计算机视觉大会（ICCV）近日在韩国首尔落幕。会议期间举办的视频描述竞赛（VATEX Captioning Challenge）结果也同时揭晓。中科院自动化所视频内容安全团队和人民中科智能技术有限公司组成的联合团队在中英文描述两个赛道均获冠军

会议出访多媒体计算与多模态智能组蒋树强老师、王树徽老师参加i

发表于 2025-09-30 icme icme2017 lstm

【会议出访】多媒体计算与多模态智能组蒋树强老师、王树徽老师参加ICME2017 IEEE 举办的“International Conference on Multimedia & Expo”是多媒体技术研究领域的年度国际会议。自2000年在New York 举办第一届会议以来，至2017年已是18届。ICME 2017在时尚国际化大都市中国香港举办

报告时间：2020年6月4号星期四晚上8:00-8:45北京

发表于 2025-09-04 synthesis acrv acl

报告时间：2020年6月4号星期四晚上8:00-8:45（北京时间）视觉-语言（Vision-and-Language）问题是近年来非常热门的一个研究课题，而其中很多问题都与生成问题息息相关，比如image captioning是基于图像生成语言，text-image synthesis是基于语言生成图像，目前主流的算法倾向于使用end-to-end的方式，通过学习大量的数据，去解决语言和图像的生成问题，这就导致生成的大量样本是不可控的。我们认为，语言作为一种交互工具，理应是可控的，即无论是语言还是图像的生成，都应该是一个可交互，可控制的过程。基于以上想法，我们近期提出了几个工作，一个是controllable image caption generation，另外一个是 house design from a linguistic description 这两个工作都是利用了graph天然的结构化表征能力以及推理逻辑能力，而达到一个可控的，可交互的文字与图像生成效果