设计了2种模型分支进行对比,基于VILT和BLIP2的商品相似度模型对比与分析

本文将对比分析两种基于深度学习的商品相似度模型：基于VILT的模型和基于BLIP2的模型。这两种方法在商品相似度检测任务中具有不同的优缺点，我们将从训练、推理和实际应用等方面进行详细分析。

基于VILT的模型

VILT模型通过结合图像和文本信息来学习商品特征。在训练过程中，模型使用了多个分类损失和正负样本的相似度损失。通过保留品牌预测、使用原始商品图片和名称以及别名作为样本，该模型可以学到丰富的商品特征表示。在推理阶段，模型先预测品牌，然后对品牌下所有商品进行相似度检索。实验结果显示，该方法在准确率上取得了较好的效果，达到82.19%。

VILT模型的优点：

通过编码图片和标题为一个向量，可以更好地捕捉商品的多模态信息。
使用SimCSE论文中的方法进行训练，可以进一步提高模型的性能。
通过使用品牌预测和相似度检索，可以在推理阶段明显提高准确率。

VILT模型的缺点：

需要人工构造样本对和困难样本对，可能无法充分挖掘潜在的信息。
训练过程中需要调整多个损失项的权重，可能导致优化困难。

基于BLIP2的模型

BLIP2模型受到面部识别任务中损失函数设计的启发，旨在学习图像的良好表示而不是对预定类别进行分类。该模型以BLIP2为基础，结构为ViT+OPT+Qformer，模型参数量为37亿。训练过程中采用arcface损失，可以避免人工构造样本对。实验结果显示，经过微调后，模型的准确率可达52%。

BLIP2模型的优点：

无需人工构造样本对，降低了训练难度。
采用arcface损失，可以使样本之间的距离拉开，提高模型性能。
BLIP2模型的缺点：
训练时间较长，需要48小时才能完成10个epoch的训练。
模型参数量较大，计算资源需求高。

总结

基于VILT的模型和基于BLIP2的模型在商品相似度检测任务中各有优劣。VILT模型可以更好地捕捉商品的多模态信息，但需要人工构造样本对和困难样本对。而BLIP2模型无需人工构造样本对，采用arcface损失可以使样本之间的距离拉开，但训练时间较长，计算资源需求较高。根据实际应用场景和计算资源的限制，可以选择合适的模型进行商品相似度检测任务。

多模态检索模型的设计

https://johnson7788.github.io/2023/04/12/%E5%A4%9A%E6%A8%A1%E6%80%81%E6%A3%80%E7%B4%A2%E6%A8%A1%E5%9E%8B%E7%9A%84%E8%AE%BE%E8%AE%A1/

作者

Johnson

发布于

2023年4月12日

许可协议

pinecone向量检索工具上一篇

安装cuda驱动报错下一篇