多模态检索模型的设计

设计了2种模型分支进行对比,基于VILT和BLIP2的商品相似度模型对比与分析

本文将对比分析两种基于深度学习的商品相似度模型:基于VILT的模型和基于BLIP2的模型。这两种方法在商品相似度检测任务中具有不同的优缺点,我们将从训练、推理和实际应用等方面进行详细分析。

基于VILT的模型

VILT模型通过结合图像和文本信息来学习商品特征。在训练过程中,模型使用了多个分类损失和正负样本的相似度损失。通过保留品牌预测、使用原始商品图片和名称以及别名作为样本,该模型可以学到丰富的商品特征表示。在推理阶段,模型先预测品牌,然后对品牌下所有商品进行相似度检索。实验结果显示,该方法在准确率上取得了较好的效果,达到82.19%。

VILT模型的优点:

通过编码图片和标题为一个向量,可以更好地捕捉商品的多模态信息。
使用SimCSE论文中的方法进行训练,可以进一步提高模型的性能。
通过使用品牌预测和相似度检索,可以在推理阶段明显提高准确率。

VILT模型的缺点:

需要人工构造样本对和困难样本对,可能无法充分挖掘潜在的信息。
训练过程中需要调整多个损失项的权重,可能导致优化困难。

基于BLIP2的模型

BLIP2模型受到面部识别任务中损失函数设计的启发,旨在学习图像的良好表示而不是对预定类别进行分类。该模型以BLIP2为基础,结构为ViT+OPT+Qformer,模型参数量为37亿。训练过程中采用arcface损失,可以避免人工构造样本对。实验结果显示,经过微调后,模型的准确率可达52%。

BLIP2模型的优点:

无需人工构造样本对,降低了训练难度。
采用arcface损失,可以使样本之间的距离拉开,提高模型性能。
BLIP2模型的缺点:
训练时间较长,需要48小时才能完成10个epoch的训练。
模型参数量较大,计算资源需求高。

总结

基于VILT的模型和基于BLIP2的模型在商品相似度检测任务中各有优劣。VILT模型可以更好地捕捉商品的多模态信息,但需要人工构造样本对和困难样本对。而BLIP2模型无需人工构造样本对,采用arcface损失可以使样本之间的距离拉开,但训练时间较长,计算资源需求较高。根据实际应用场景和计算资源的限制,可以选择合适的模型进行商品相似度检测任务。


多模态检索模型的设计
https://johnson7788.github.io/2023/04/12/%E5%A4%9A%E6%A8%A1%E6%80%81%E6%A3%80%E7%B4%A2%E6%A8%A1%E5%9E%8B%E7%9A%84%E8%AE%BE%E8%AE%A1/
作者
Johnson
发布于
2023年4月12日
许可协议