2023.11.28 组会内容

发表于 2023-11-27 更新于 2023-11-28 分类于组会阅读次数：本文字数： 3.6k 阅读时长 ≈ 7 分钟

预备知识：

Deep Cross-Modal Projection Learning for Image-Text Matching大工卢老师 ECCV14

跨模态投影匹配 (CMPM)

$${ (x_i, z_j), y_{i,j} }_{j=1}^n$$

$$y=1 | y=0$$

$$p_{i,j} = \frac{exp(x^T_i \bar{z_j)}}{\sum_{k=1}^{n} exp(x^T_i \bar{z_k})} s.t.\bar{z_j}=\frac{z_j}{||z_j ||} $$

$$q_{i,j} = \frac{y_{i, j}}{\sum_{k=1}^{n}y_{i,k} }$$

$$L_i = \sum_{j=1}^{n}p_{i,j} log\frac{p_{i,j}}{q_{i,k} + \epsilon } =KL(p_i|q_i)$$

$$L_{i2t}=\frac{1}{n} \sum_{j=1}^{n}L_i $$

$$L_{cmpm}=L_{i2t} + L_{t2i}$$

~~对于给定的一幅图像，在计算匹配损失时考虑了小批文本中所有的正、负候选文本，从而避免了传统的双向rankingloss的专用抽样过程。~~

跨模态投影分类损失(CMPC)

norm-softmax loss的直观解释如上图所示。可以看到，对于原始softmax，分类结果取决于$|W_{k}||{x}| \cos (\theta_{k}),(k=1,2)$，其中$θ_k$表示角度在$x$和 $W_k$ 之间。对于norm-softmax，所有的权重向量都被归一化为相同的长度，分类结果只能依赖于$|{x}| \cos (\theta_{k})$。这种限制鼓励特征 x 沿着权重向量更紧凑地分布，以便正确分类。

$$L_{ipt}=\frac{1}{N} \sum_{i}^{} -log(\frac{exp(W^T_{y_i}\hat{x_i})}{\sum_{j}^{}exp(W^T_{j} \hat{ {x_i}})})
\space \space \space s.t. \left || W_j \right ||=r,\hat{x_i}=x^T_{i}\bar{z_i} \cdot \bar{z_i} $$

$$L_{t2i}=\frac{1}{N} \sum_{i}^{} -log(\frac{exp(W^T_{y_i}\hat{z_i})}{\sum_{j}^{}exp(W^T_{j} \hat{ {z_i}})})
\space\space\space s.t. \left || W_j \right ||=r,\hat{z_i}=z^T_{i}\bar{x_i} \cdot \bar{x_i}$$

$$L_{cmpc} = L_{i2t} + L_{t2i}$$

跨模态投影将图像-文本的相似性整合到分类中，从而加强了匹配对之间的关联

ID Loss

将样本分为几个类，常用为softmax函数

$$L_{id} = -\frac{1}{n} \sum_{i=1}^{n}log(p(y_i|x_i)) $$

多模态对齐

主要目的

实现多模态数据的底层对齐能力，首先设计了一个隐式关系推理模块在掩蔽语言建模（MLM）范式。为了全局对齐视觉和文本嵌入，提出了相似性分布匹配，以最小化图像-文本相似性分布和归一化标签匹配分布之间的KL分歧。

问题与解决

1.受限于变化的投影长度，CMPM因此不能精确地控制投影概率分布，使得在模型更新期间难以关注硬阴性样本。为了探索更有效的跨模态匹配目标，提出了一种图像-文本相似性分布匹配（SDM）损失

2.以前的一些方法要么冻结了部分参数，要么只引入了CLIP的图像编码器，这导致它们无法充分利用CLIP在图像-文本匹配中的强大功能，这里直接进行使用

方法

这里随机15%打上掩码，然后用ImageFeature 预测

Similarity Distribution Matching (SDM)

$$p_{i,j} = \frac{exp(sim(f^v_i, f_j^t)/\tau )}{\sum_{k=1}^{n} exp(sim(f^v_i, f_k^t)/\tau)}$$

$$L = KL(p_i\left|\right|q_i)=\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{N}p_{i,j}log(\frac{p_{i,j}}{q_{i,j} + \epsilon }) \space\space s.t.q_{i,j} = \frac{y_{i, j}}{\sum_{k=1}^{n}y_{i,k} }$$

~~这里和CMPM一样吗！~~好像不一样，这里把投影改成了相似度

$$L = L_{irr} + L_{sdm} + L_{id}$$