动机在于这样模型就固定下来，不同的输出会经过同样处理

文章首先总结了以往模型的策略，大体分为三种，Intra-modal Interaction，Cross-modal Interaction，Hybrid-modal Interaction。

动机在于这样模型就固定下来，不同的输出会经过同样处理，即使是简单的，也可能会经历复杂的架构，基于此，提出了动态的架构，可以自由选择。

为了解决这些问题，本文提出了一种基于路由机制的新型模态交互建模网络，这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说，坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互，然后以密集的策略将它们连接起来以构建路由空间。

本文的模型首先分别使用从底至顶的注意力机制抽取图像特征并选择得分靠前的区域，另一方面使用 BERT+CNN 抽取文本特征。在此基础上设计了四种交互方式：

Intra-Modal Reasoning Cell：通过注意力机制建模模态内的交互特征；

Global-Local Guidance Cell：通过一种模态指导另一种模态的注意力交互；

Cross-Modal Refinement Cell：两种模态互相交互的特征。

具体的模型图如下：

在此基础上，本文使用了动态路由的机制选择交互的方式，在训练的阶段，除了原本的损失函数以外，还加入了路径正则的机制，使得相同的语义信息应该选择相同的路径。