这篇 paper 将问题定义在 CLEVER dataset 与调整过的 Sort-of-CLEVER dataset 上面,要根据图片回答一个关于照片中物体间关联性的问题。架构上由三大 component 所组成,使用一个 CNN 与一个 LSTM 分别对图片与文字做资讯提取,并根据提取的资讯在 RN 中进行关系推理、输出最终推论结果。
而下式就是 RN 最简单的函示型态:
如上式, RN 考量的是“所有”物件对 (pair) 之间的 relation ,这代表着 RN 并不是聚焦于推论某一特定 relation 的存在性或意义, RN学习的是综合所有 relation ,推论所有 relation 的存在性与意涵。
2. 能非常有效率的使用资料:
RN 使用单一函式 g 学习所有的 relation ,这能使 g 不会 over-fit 到特定的物件组合的 relation 上,借此得到更好的泛用性。此外,我们会穷举所有物件的 relation , n 个物件会得到 n^2 个 relation 资讯,也就是 RN 在学习一笔 data 时, g 函式本身会被更新 n^2 次。
3. 接受的输入是物件 (非常广义的型态) ,并且不受输入顺序影响:
RN 的函式本身保证了输入顺序不会改变结果,这保证了 RN 输出的 relation 能够泛用地代表物件集合中的 relation 。在实验中, RN 于 CLEVER dataset 上无论是综合或是单项的准确率,都表现出了超越人类水平的准确率。