多模态检索模型的设计
设计了2种模型分支进行对比,基于VILT和BLIP2的商品相似度模型对比与分析
本文将对比分析两种基于深度学习的商品相似度模型:基于VILT的模型和基于BLIP2的模型。这两种方法在商品相似度检测任务中具有不同的优缺点,我们将从训练、推理和实际应用等方面进行详细分析。
基于VILT的模型
VILT模型通过结合图像和文本信息来学习商品特征。在训练过程中,模型使用了多个分类损失和正负样本的相似度损失。通过保留品牌预测、使用原始商品图片和名称以及别名作为样本,该模型可以学到丰富的商品特征表示。在推理阶段,模型先预测品牌,然后对品牌下所有商品进行相似度检索。实验结果显示,该方法在准确率上取得了较好的效果,达到82.19%。
VILT模型的优点:
通过编码图片和标题为一个向量,可以更好地捕捉商品的多模态信息。
使用SimCSE论文中的方法进行训练,可以进一步提高模型的性能。
通过使用品牌预测和相似度检索,可以在推理阶段明显提高准确率。
VILT模型的缺点:
需要人工构造样本对和困难样本对,可能无法充分挖掘潜在的信息。
训练过程中需要调整多个损失项的权重,可能导致优化困难。
基于BLIP2的模型
BLIP2模型受到面部识别任务中损失函数设计的启发,旨在学习图像的良好表示而不是对预定类别进行分类。该模型以BLIP2为基础,结构为ViT+OPT+Qformer,模型参数量为37亿。训练过程中采用arcface损失,可以避免人工构造样本对。实验结果显示,经过微调后,模型的准确率可达52%。
BLIP2模型的优点:
无需人工构造样本对,降低了训练难度。
采用arcface损失,可以使样本之间的距离拉开,提高模型性能。
BLIP2模型的缺点:
训练时间较长,需要48小时才能完成10个epoch的训练。
模型参数量较大,计算资源需求高。
总结
基于VILT的模型和基于BLIP2的模型在商品相似度检测任务中各有优劣。VILT模型可以更好地捕捉商品的多模态信息,但需要人工构造样本对和困难样本对。而BLIP2模型无需人工构造样本对,采用arcface损失可以使样本之间的距离拉开,但训练时间较长,计算资源需求较高。根据实际应用场景和计算资源的限制,可以选择合适的模型进行商品相似度检测任务。