向量检索模型大比拼和优化

向量检索模型对比和优化

一、测试模型

我们此次对比以下几个向量检索模型:

1
2
3
4
5
6
7
8
9
10
"BAAI": "BAAI/bge-large-zh",
"MiniLM": "sentence-transformers/all-MiniLM-L6-v2",
"m3e": "moka-ai/m3e-base",
"e5": "intfloat/multilingual-e5-large",
"mpnet": "sentence-transformers/all-mpnet-base-v2",
"text2vec": "GanymedeNil/text2vec-large-chinese",
"gtr": "sentence-transformers/gtr-t5-large",
"ernie": "nghuyong/ernie-3.0-base-zh",
"piccolo": "sensenova/piccolo-base-zh"
"stella": "infgrad/stella-base-zh",

二、简要介绍模型

  1. “BAAI”: “BAAI/bge-large-zh”
    这是由BAAI(北京智源人工智能研究院)发布的一个中文预训练语言模型。它是基于GPT-3.5架构进行训练的,专注于中文语言处理任务。

  2. “MiniLM”: “sentence-transformers/all-MiniLM-L6-v2”
    MiniLM是一种轻量级的预训练语言模型,它在多种自然语言处理任务上表现出色。这个模型是基于MiniLM-L6架构训练的,它具有较小的模型大小和较快的推理速度。

  3. “m3e”: “moka-ai/m3e-base”
    m3e是由Moka AI发布的一个基于GPT架构的中文预训练语言模型。它在中文文本生成和理解任务上表现出色,可以用于生成文章、回答问题等任务。

  4. “e5”: “intfloat/multilingual-e5-large”
    e5是一个多语言的预训练语言模型,它是基于ELECTRA架构进行训练的。这个模型可以处理多种语言的文本,包括中文和其他多种语言,适用于跨语言的自然语言处理任务。

  5. “mpnet”: “sentence-transformers/all-mpnet-base-v2”
    mpnet是一个基于MPNet架构的预训练语言模型。它在多种文本相关任务上表现出色,包括文本分类、文本相似度计算等。这个模型可以用于生成文本的表示向量,以及进行文本之间的相似性度量。

  6. “text2vec”: “GanymedeNil/text2vec-large-chinese”
    text2vec是一个中文预训练语言模型,它是基于BERT架构进行训练的。这个模型在中文文本处理任务上具有很好的性能,可以用于文本分类、命名实体识别等任务。

  7. “gtr”:sentence-transformers/gtr-t5-large

    使用 T5 大模型的编码微调的句子编码器

  8. nghuyong/ernie-3.0-base-zh

    文心系列模型

  9. sensenova/piccolo-base-zh

    商汤模型,借鉴了E5以及GTE的训练流程,采用了两阶段的训练方式。 在第一阶段中,我们搜集和爬取了4亿的中文文本对(可视为弱监督文本对数据),并采用二元组的softmax对比学习损失来优化模型。 在第二阶段中,我们搜集整理了2000万人工标注的中文文本对(精标数据),并采用带有难负样本的三元组的softmax对比学习损失来帮助模型更好地优化。

  10. infgrad/stella-base-zh

    是商汤模型的微调版本,stella-base-zh和stella-large-zh分别以piccolo-base-zh[6]和piccolo-large-zh作为基础模型

三、为什么要测试不同的模型

因为目前密集检索模型对于不同领域的数据,性能相差很大,这也很容易理解,模型对于不同领域的数据理解的深度不同,所以不能很好的区分,所以我们找来几款模型进行对比。

四、测试方法

使用自己领域内的数据,构建文档数据集,使用weaviate的数据库,使用的余弦相似度度量,自动化切换不同的向量模型,构建不同的数据表,同时写几个评估问题集,即真实的问题和应该要检索出的内容。测试结果是topk的准确率。

**1)**对于文档数据集,我们统计文档平均长度在400字左右。我们分2种方案,方案1是直接把整个文档放入模型,生成向量,方案2:是对文档拆成成不大于250个字的多个子文档,然后生成向量,目的是测试文档长度对向量的影响。

**2)**对于词语数据集,我们测试模型是否对词语也具有相似性判断的能力,打印top9的相似词。

五、测试结果

1)对于文本进行分段后的准确率结果如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
模型BAAI的评测结果是:
top1的准确率为0.1
top2的准确率为0.1
top3的准确率为0.1
top4的准确率为0.1
top5的准确率为0.1
top6的准确率为0.1
top7的准确率为0.2
top8的准确率为0.2
top9的准确率为0.2
----------------------------------------
模型MiniLM的评测结果是:
top1的准确率为0.1
top2的准确率为0.1
top3的准确率为0.1
top4的准确率为0.2
top5的准确率为0.3
top6的准确率为0.4
top7的准确率为0.4
top8的准确率为0.4
top9的准确率为0.4
----------------------------------------
模型m3e的评测结果是:
top1的准确率为0.8
top2的准确率为0.8
top3的准确率为0.8
top4的准确率为0.8
top5的准确率为0.8
top6的准确率为0.8
top7的准确率为0.8
top8的准确率为0.8
top9的准确率为0.8
----------------------------------------
模型e5的评测结果是:
top1的准确率为0.6
top2的准确率为0.6
top3的准确率为0.6
top4的准确率为0.6
top5的准确率为0.6
top6的准确率为0.6
top7的准确率为0.6
top8的准确率为0.6
top9的准确率为0.6
----------------------------------------
模型mpnet的评测结果是:
top1的准确率为0.2
top2的准确率为0.2
top3的准确率为0.3
top4的准确率为0.3
top5的准确率为0.3
top6的准确率为0.3
top7的准确率为0.3
top8的准确率为0.3
top9的准确率为0.3
----------------------------------------
模型text2vec的评测结果是:
top1的准确率为0.6
top2的准确率为0.6
top3的准确率为0.6
top4的准确率为0.6
top5的准确率为0.6
top6的准确率为0.6
top7的准确率为0.6
top8的准确率为0.7
top9的准确率为0.7
----------------------------------------

如果不对文档进行拆分,那么准确率如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
模型BAAI的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------
模型MiniLM的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------
模型m3e的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------
模型e5的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------
模型mpnet的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------
模型text2vec的评测结果是:
top1的准确率为0.0
top2的准确率为0.0
top3的准确率为0.0
top4的准确率为0.0
top5的准确率为0.0
top6的准确率为0.0
top7的准确率为0.0
top8的准确率为0.0
top9的准确率为0.0
----------------------------------------

2)对词语的测试结果如下,因为词语只要找出相似的即可,这里我们只人工查看结果,MiniLM,ernie,gtr效果不太行,其它都还不错

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
模型MiniLM的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 爆闪,相似距离是: 0.6642834
top2的相似item是: 挺管,相似距离是: 0.6642834
top3的相似item是: 岁了,相似距离是: 0.6642834
top4的相似item是: 朋友,相似距离是: 0.6642834
top5的相似item是: 增稠,相似距离是: 0.6642834
top6的相似item是: 降温,相似距离是: 0.6642834
top7的相似item是: 娃娃,相似距离是: 0.6642834
top8的相似item是: 变薄,相似距离是: 0.6642834
top9的相似item是: 枯草,相似距离是: 0.6642834
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 兄弟们,相似距离是: 0.6814165
top2的相似item是: 快来抢,相似距离是: 0.6814165
top3的相似item是: 烧烤店,相似距离是: 0.6814165
top4的相似item是: 穿短裙,相似距离是: 0.6814165
top5的相似item是: 去哪玩,相似距离是: 0.6814165
top6的相似item是: 猕猴桃,相似距离是: 0.6814165
top7的相似item是: 多宝鱼,相似距离是: 0.6814165
top8的相似item是: 色可选,相似距离是: 0.6814165
top9的相似item是: 黄圣依,相似距离是: 0.6814165
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 搞不清楚,相似距离是: 0.3681532
top2的相似item是: 不掉色,相似距离是: 0.37161183
top3的相似item是: 不晕妆,相似距离是: 0.37161183
top4的相似item是: 不脱妆,相似距离是: 0.37161183
top5的相似item是: 不错哦,相似距离是: 0.37161183
top6的相似item是: 少不了,相似距离是: 0.3744135
top7的相似item是: 受不了,相似距离是: 0.3744135
top8的相似item是: 遮不住,相似距离是: 0.3744135
top9的相似item是: 划不来,相似距离是: 0.3744135
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 爆闪,相似距离是: 0.6899002
top2的相似item是: 挺管,相似距离是: 0.6899002
top3的相似item是: 岁了,相似距离是: 0.6899002
top4的相似item是: 朋友,相似距离是: 0.6899002
top5的相似item是: 增稠,相似距离是: 0.6899002
top6的相似item是: 降温,相似距离是: 0.6899002
top7的相似item是: 娃娃,相似距离是: 0.6899002
top8的相似item是: 变薄,相似距离是: 0.6899002
top9的相似item是: 枯草,相似距离是: 0.6899002
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 青花香型,相似距离是: 0.34087384
top2的相似item是: 德基广场,相似距离是: 0.4441809
top3的相似item是: 懒人福利,相似距离是: 0.51578313
top4的相似item是: 蕾德,相似距离是: 0.5369906
top5的相似item是: 鼻子两侧,相似距离是: 0.63184136
top6的相似item是: 宝妈群,相似距离是: 0.66840714
top7的相似item是: 起红疹,相似距离是: 0.66840714
top8的相似item是: 又长又,相似距离是: 0.66840714
top9的相似item是: 较划算,相似距离是: 0.66840714
--------------------------------------------------
----------------------------------------
模型m3e的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.17733163
top2的相似item是: 气温,相似距离是: 0.19743681
top3的相似item是: 温度,相似距离是: 0.19869286
top4的相似item是: 防暑降温,相似距离是: 0.20124817
top5的相似item是: 恒温,相似距离是: 0.20198685
top6的相似item是: 温度升,相似距离是: 0.20889539
top7的相似item是: 凉的,相似距离是: 0.21706992
top8的相似item是: 凉嗖嗖,相似距离是: 0.21961367
top9的相似item是: 天气太冷,相似距离是: 0.219643
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 超级划算,相似距离是: 0.16289127
top2的相似item是: 巨划算,相似距离是: 0.16961932
top3的相似item是: 超划算,相似距离是: 0.169824
top4的相似item是: 炒鸡划算,相似距离是: 0.18516332
top5的相似item是: 太划算,相似距离是: 0.18573344
top6的相似item是: 划算,相似距离是: 0.19167715
top7的相似item是: 挺划算,相似距离是: 0.19548327
top8的相似item是: 较划算,相似距离是: 0.2025578
top9的相似item是: 超低折扣,相似距离是: 0.20821947
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.18018043
top2的相似item是: 迫不及,相似距离是: 0.1939463
top3的相似item是: 来不及,相似距离是: 0.23023778
top4的相似item是: 急着,相似距离是: 0.23764336
top5的相似item是: 漫长的等待,相似距离是: 0.24780029
top6的相似item是: 迫切,相似距离是: 0.25250387
top7的相似item是: 等待,相似距离是: 0.25469834
top8的相似item是: 迫不,相似距离是: 0.25631028
top9的相似item是: 来得及,相似距离是: 0.25737226
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 心塞,相似距离是: 0.18470961
top2的相似item是: 心痛,相似距离是: 0.2211805
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 芬芳馥郁,相似距离是: 0.19530988
top2的相似item是: 芳香怡人,相似距离是: 0.19693959
top3的相似item是: 芳香四溢,相似距离是: 0.2010594
top4的相似item是: 浓香扑鼻,相似距离是: 0.2040044
top5的相似item是: 飘柔香氛,相似距离是: 0.2049725
top6的相似item是: 香味浓,相似距离是: 0.20721632
top7的相似item是: 香草味,相似距离是: 0.21418816
top8的相似item是: 香水味,相似距离是: 0.21454716
top9的相似item是: 淡淡清香,相似距离是: 0.21587455
--------------------------------------------------
----------------------------------------
模型m3elarge的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.46471047
top2的相似item是: 气温,相似距离是: 0.47846055
top3的相似item是: 防暑降温,相似距离是: 0.5286896
top4的相似item是: 炎热,相似距离是: 0.5421034
top5的相似item是: 温度升,相似距离是: 0.554334
top6的相似item是: 温度,相似距离是: 0.5692508
top7的相似item是: 闷热,相似距离是: 0.5708548
top8的相似item是: 闷热潮湿,相似距离是: 0.58649486
top9的相似item是: 天气太冷,相似距离是: 0.59807837
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 巨划算,相似距离是: 0.50006294
top2的相似item是: 超级划算,相似距离是: 0.5173361
top3的相似item是: 太划算,相似距离是: 0.53421617
top4的相似item是: 超划算,相似距离是: 0.5549385
top5的相似item是: 炒鸡划算,相似距离是: 0.5698542
top6的相似item是: 划算,相似距离是: 0.5707562
top7的相似item是: 减100,相似距离是: 0.5950444
top8的相似item是: 合算,相似距离是: 0.62307715
top9的相似item是: 超低折扣,相似距离是: 0.6262009
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.5405167
top2的相似item是: 期盼,相似距离是: 0.63015074
top3的相似item是: 来不及,相似距离是: 0.6388767
top4的相似item是: 期盼之,相似距离是: 0.6433611
top5的相似item是: 静等,相似距离是: 0.645116
top6的相似item是: 满怀期待,相似距离是: 0.65584314
top7的相似item是: 期待,相似距离是: 0.65750605
top8的相似item是: 耐心等待,相似距离是: 0.65829045
top9的相似item是: 漫长的等待,相似距离是: 0.6588255
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 难过,相似距离是: 0.60774666
top2的相似item是: 心碎,相似距离是: 0.6213428
top3的相似item是: 伤心,相似距离是: 0.6334448
top4的相似item是: 呕心,相似距离是: 0.63551766
top5的相似item是: 心痛,相似距离是: 0.6460869
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 香精香料,相似距离是: 0.5127891
top2的相似item是: 芳香怡人,相似距离是: 0.5156232
top3的相似item是: 芳香,相似距离是: 0.52685297
top4的相似item是: 气味芬芳,相似距离是: 0.52997434
top5的相似item是: 香水味,相似距离是: 0.5311647
top6的相似item是: 飘柔香氛,相似距离是: 0.5335852
top7的相似item是: 香气,相似距离是: 0.53773946
top8的相似item是: 香味,相似距离是: 0.5380831
top9的相似item是: 芬芳馥郁,相似距离是: 0.5394434
--------------------------------------------------
----------------------------------------
模型e5的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.10655463
top2的相似item是: 防暑降温,相似距离是: 0.11984193
top3的相似item是: 冲凉,相似距离是: 0.13570184
top4的相似item是: 偏冷,相似距离是: 0.13818032
top5的相似item是: 抑汗,相似距离是: 0.13856757
top6的相似item是: 天气冷,相似距离是: 0.1400274
top7的相似item是: 遇冷,相似距离是: 0.14159423
top8的相似item是: 冷的,相似距离是: 0.14293164
top9的相似item是: 解暑,相似距离是: 0.14396358
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 巨划算,相似距离是: 0.09558219
top2的相似item是: 超级划算,相似距离是: 0.114004076
top3的相似item是: 巨好,相似距离是: 0.1176725
top4的相似item是: 超划算,相似距离是: 0.12307727
top5的相似item是: 较划算,相似距离是: 0.12738872
top6的相似item是: 划算,相似距离是: 0.1278795
top7的相似item是: 太划算,相似距离是: 0.13102645
top8的相似item是: 挺划算,相似距离是: 0.1313073
top9的相似item是: 聚划算,相似距离是: 0.13178027
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.104038775
top2的相似item是: 迫不及,相似距离是: 0.11686194
top3的相似item是: 急于求,相似距离是: 0.1308515
top4的相似item是: 急了,相似距离是: 0.13777733
top5的相似item是: 亟待,相似距离是: 0.13832688
top6的相似item是: 着急,相似距离是: 0.13907921
top7的相似item是: 迫切,相似距离是: 0.13958007
top8的相似item是: 急急,相似距离是: 0.1422686
top9的相似item是: 赶快,相似距离是: 0.14273024
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 心塞,相似距离是: 0.105965495
top2的相似item是: 心疼,相似距离是: 0.14425671
top3的相似item是: 心累,相似距离是: 0.14479327
top4的相似item是: 疑心病,相似距离是: 0.14581728
top5的相似item是: 毛躁打结,相似距离是: 0.1459809
top6的相似item是: 心痛,相似距离是: 0.1469531
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 芳香四溢,相似距离是: 0.09236938
top2的相似item是: 香气扑鼻,相似距离是: 0.12255293
--------------------------------------------------
----------------------------------------
模型text2vec的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.35962522
top2的相似item是: 防暑降温,相似距离是: 0.40482336
top3的相似item是: 天气太冷,相似距离是: 0.47608447
top4的相似item是: 很温,相似距离是: 0.47975266
top5的相似item是: 天太冷,相似距离是: 0.48214555
top6的相似item是: 冬天太冷,相似距离是: 0.4902383
top7的相似item是: 温度升,相似距离是: 0.49144685
top8的相似item是: 天气冷,相似距离是: 0.5012304
top9的相似item是: 冰冰凉,相似距离是: 0.5020483
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 巨划算,相似距离是: 0.38411915
top2的相似item是: 超级划算,相似距离是: 0.4798777
top3的相似item是: 超划算,相似距离是: 0.52056795
top4的相似item是: 聚划算,相似距离是: 0.5252485
top5的相似item是: 划算,相似距离是: 0.5456249
top6的相似item是: 太划算,相似距离是: 0.56098694
top7的相似item是: 算了算,相似距离是: 0.5652418
top8的相似item是: 挺划算,相似距离是: 0.56810284
top9的相似item是: 很划,相似距离是: 0.58487564
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.40853673
top2的相似item是: 迫不及,相似距离是: 0.509001
top3的相似item是: 满怀期待,相似距离是: 0.530249
top4的相似item是: 万众期待,相似距离是: 0.53644925
top5的相似item是: 渴望,相似距离是: 0.53924066
top6的相似item是: 期盼,相似距离是: 0.5495295
top7的相似item是: 盼望,相似距离是: 0.5519364
top8的相似item是: 欲望,相似距离是: 0.55418944
top9的相似item是: 期盼之,相似距离是: 0.55459285
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 心塞,相似距离是: 0.390207
top2的相似item是: 心痛,相似距离是: 0.47719705
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 芳香四溢,相似距离是: 0.3012836
top2的相似item是: 香气扑鼻,相似距离是: 0.4257697
--------------------------------------------------
----------------------------------------
模型ernie的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: BOB,相似距离是: 0.21998101
top2的相似item是: Dove,相似距离是: 0.2204274
top3的相似item是: DOVE,相似距离是: 0.2204274
top4的相似item是: dove,相似距离是: 0.2204274
top5的相似item是: ck,相似距离是: 0.22156453
top6的相似item是: CK,相似距离是: 0.22156453
top7的相似item是: DAY,相似距离是: 0.22466367
top8的相似item是: day,相似距离是: 0.22466367
top9的相似item是: et,相似距离是: 0.22615755
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: BOB,相似距离是: 0.1921286
top2的相似item是: ck,相似距离是: 0.19541574
top3的相似item是: CK,相似距离是: 0.19541574
top4的相似item是: SKI,相似距离是: 0.19748348
top5的相似item是: day,相似距离是: 0.1984297
top6的相似item是: DAY,相似距离是: 0.1984297
top7的相似item是: DOVE,相似距离是: 0.19885945
top8的相似item是: dove,相似距离是: 0.19885945
top9的相似item是: Dove,相似距离是: 0.19885945
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 太火,相似距离是: 0.14728725
top2的相似item是: 便宜,相似距离是: 0.14806843
top3的相似item是: 可惜,相似距离是: 0.14838964
top4的相似item是: 太贵,相似距离是: 0.15002203
top5的相似item是: 火爆,相似距离是: 0.15067595
top6的相似item是: 阻止,相似距离是: 0.15156943
top7的相似item是: 诱人,相似距离是: 0.1517896
top8的相似item是: 珍贵,相似距离是: 0.15244949
top9的相似item是: 低调,相似距离是: 0.15262008
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: BOB,相似距离是: 0.18688709
top2的相似item是: dove,相似距离是: 0.18828762
top3的相似item是: Dove,相似距离是: 0.18828762
top4的相似item是: DOVE,相似距离是: 0.18828762
top5的相似item是: CK,相似距离是: 0.18956923
top6的相似item是: ck,相似距离是: 0.18956923
top7的相似item是: DAY,相似距离是: 0.19206822
top8的相似item是: day,相似距离是: 0.19206822
top9的相似item是: yue,相似距离是: 0.1971966
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 香奈,相似距离是: 0.17088163
top2的相似item是: 香水,相似距离是: 0.1735372
top3的相似item是: 莱雅,相似距离是: 0.17919815
top4的相似item是: CK,相似距离是: 0.17927355
top5的相似item是: ck,相似距离是: 0.17927355
top6的相似item是: dove,相似距离是: 0.18118739
top7的相似item是: DOVE,相似距离是: 0.18118739
top8的相似item是: Dove,相似距离是: 0.18118739
top9的相似item是: 香气扑鼻,相似距离是: 0.18131757
--------------------------------------------------
----------------------------------------
模型gtr的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 红肿痘痘,相似距离是: 0.7034993
top2的相似item是: 新生儿,相似距离是: 0.7034993
top3的相似item是: 针对,相似距离是: 0.7034993
top4的相似item是: 烫头,相似距离是: 0.7034993
top5的相似item是: 懒人,相似距离是: 0.7034993
top6的相似item是: 供货,相似距离是: 0.7034993
top7的相似item是: 欺骗,相似距离是: 0.7034993
top8的相似item是: 恰逢,相似距离是: 0.7034993
top9的相似item是: 办公室,相似距离是: 0.7034993
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 红肿痘痘,相似距离是: 0.7034993
top2的相似item是: 新生儿,相似距离是: 0.7034993
top3的相似item是: 针对,相似距离是: 0.7034993
top4的相似item是: 烫头,相似距离是: 0.7034993
top5的相似item是: 懒人,相似距离是: 0.7034993
top6的相似item是: 供货,相似距离是: 0.7034993
top7的相似item是: 欺骗,相似距离是: 0.7034993
top8的相似item是: 恰逢,相似距离是: 0.7034993
top9的相似item是: 办公室,相似距离是: 0.7034993
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 红肿痘痘,相似距离是: 0.7034993
top2的相似item是: 新生儿,相似距离是: 0.7034993
top3的相似item是: 针对,相似距离是: 0.7034993
top4的相似item是: 烫头,相似距离是: 0.7034993
top5的相似item是: 懒人,相似距离是: 0.7034993
top6的相似item是: 供货,相似距离是: 0.7034993
top7的相似item是: 欺骗,相似距离是: 0.7034993
top8的相似item是: 恰逢,相似距离是: 0.7034993
top9的相似item是: 办公室,相似距离是: 0.7034993
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 红肿痘痘,相似距离是: 0.7034993
top2的相似item是: 新生儿,相似距离是: 0.7034993
top3的相似item是: 针对,相似距离是: 0.7034993
top4的相似item是: 烫头,相似距离是: 0.7034993
top5的相似item是: 懒人,相似距离是: 0.7034993
top6的相似item是: 供货,相似距离是: 0.7034993
top7的相似item是: 欺骗,相似距离是: 0.7034993
top8的相似item是: 恰逢,相似距离是: 0.7034993
top9的相似item是: 办公室,相似距离是: 0.7034993
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 红肿痘痘,相似距离是: 0.7034993
top2的相似item是: 新生儿,相似距离是: 0.7034993
top3的相似item是: 针对,相似距离是: 0.7034993
top4的相似item是: 烫头,相似距离是: 0.7034993
top5的相似item是: 懒人,相似距离是: 0.7034993
top6的相似item是: 供货,相似距离是: 0.7034993
top7的相似item是: 欺骗,相似距离是: 0.7034993
top8的相似item是: 恰逢,相似距离是: 0.7034993
top9的相似item是: 办公室,相似距离是: 0.7034993
--------------------------------------------------
----------------------------------------
模型piccolo的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.39637017
top2的相似item是: 防暑降温,相似距离是: 0.4307152
top3的相似item是: 解暑,相似距离是: 0.45362866
top4的相似item是: 冲凉,相似距离是: 0.48955578
top5的相似item是: 温度升,相似距离是: 0.48979068
top6的相似item是: 预热,相似距离是: 0.49728698
top7的相似item是: 天气太热,相似距离是: 0.5072539
top8的相似item是: 天太热,相似距离是: 0.5078721
top9的相似item是: 天气炎热,相似距离是: 0.50807387
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 巨划算,相似距离是: 0.35490757
top2的相似item是: 太划算,相似距离是: 0.41290933
top3的相似item是: 挺划算,相似距离是: 0.41352832
top4的相似item是: 超级划算,相似距离是: 0.41358566
top5的相似item是: 超划算,相似距离是: 0.42278445
top6的相似item是: 划算,相似距离是: 0.43492198
top7的相似item是: 炒鸡划算,相似距离是: 0.45018208
top8的相似item是: 较划算,相似距离是: 0.46122158
top9的相似item是: 更划算,相似距离是: 0.47862732
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.39426315
top2的相似item是: 迫不及,相似距离是: 0.46141648
top3的相似item是: 来不及,相似距离是: 0.47554076
top4的相似item是: 迫切,相似距离是: 0.49990135
top5的相似item是: 着急,相似距离是: 0.5218519
top6的相似item是: 等了,相似距离是: 0.52599746
top7的相似item是: 催促,相似距离是: 0.53234255
top8的相似item是: 等太久,相似距离是: 0.5360391
top9的相似item是: 迫不,相似距离是: 0.5361459
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 心塞,相似距离是: 0.35021114
top2的相似item是: 心痛,相似距离是: 0.4810719
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 芳香四溢,相似距离是: 0.2855131
top2的相似item是: 芳香怡人,相似距离是: 0.37011528
top3的相似item是: 芳香,相似距离是: 0.40277708
top4的相似item是: 芬芳馥郁,相似距离是: 0.4250155
top5的相似item是: 气味芬芳,相似距离是: 0.43941897
top6的相似item是: 香气逼,相似距离是: 0.44385237
top7的相似item是: 清香,相似距离是: 0.44459355
top8的相似item是: 浓香扑鼻,相似距离是: 0.4468745
top9的相似item是: 花香浓郁,相似距离是: 0.45042557
--------------------------------------------------
----------------------------------------
模型stella的评测结果是:
问答对数量一共是5条
问题是:降温,答案是:减温
top1的相似item是: 降温,相似距离是: 0.3385083
top2的相似item是: 防暑降温,相似距离是: 0.36956936
top3的相似item是: 解暑,相似距离是: 0.42880464
top4的相似item是: 冲凉,相似距离是: 0.4500631
top5的相似item是: 温度升,相似距离是: 0.4586656
top6的相似item是: 天气炎热,相似距离是: 0.4620381
top7的相似item是: 温热,相似距离是: 0.46223176
top8的相似item是: 天气太热,相似距离是: 0.4642412
top9的相似item是: 热疹,相似距离是: 0.4717164
--------------------------------------------------
问题是:巨划算,答案是:很便宜
top1的相似item是: 巨划算,相似距离是: 0.34006882
top2的相似item是: 太划算,相似距离是: 0.38315916
top3的相似item是: 挺划算,相似距离是: 0.3973055
top4的相似item是: 超级划算,相似距离是: 0.4050069
top5的相似item是: 超划算,相似距离是: 0.41086733
top6的相似item是: 划算,相似距离是: 0.418099
top7的相似item是: 较划算,相似距离是: 0.4282635
top8的相似item是: 炒鸡划算,相似距离是: 0.43370014
top9的相似item是: 更划算,相似距离是: 0.4515053
--------------------------------------------------
问题是:迫不及待,答案是:急迫
top1的相似item是: 迫不及待,相似距离是: 0.34825367
top2的相似item是: 等了,相似距离是: 0.42180103
top3的相似item是: 迫不及,相似距离是: 0.42461818
top4的相似item是: 耐心等待,相似距离是: 0.4387263
top5的相似item是: 来不及,相似距离是: 0.44104576
top6的相似item是: 着急,相似距离是: 0.44229925
top7的相似item是: 迫切,相似距离是: 0.445567
top8的相似item是: 等待,相似距离是: 0.45731974
top9的相似item是: 等太久,相似距离是: 0.45850307
--------------------------------------------------
问题是:心塞,答案是:心痛
top1的相似item是: 心塞,相似距离是: 0.36119032
top2的相似item是: 心窝,相似距离是: 0.4379077
top3的相似item是: 心动不如,相似距离是: 0.44686007
top4的相似item是: 心痛,相似距离是: 0.4498604
--------------------------------------------------
问题是:芳香四溢,答案是:香气扑鼻
top1的相似item是: 芳香四溢,相似距离是: 0.34361947
top2的相似item是: 芳香怡人,相似距离是: 0.38098574
top3的相似item是: 芳香,相似距离是: 0.4240142
top4的相似item是: 浓香扑鼻,相似距离是: 0.44596785
top5的相似item是: 芬芳馥郁,相似距离是: 0.4536096
top6的相似item是: 花香浓郁,相似距离是: 0.46288288
top7的相似item是: 有余香,相似距离是: 0.46615
top8的相似item是: 香气扑鼻,相似距离是: 0.4709983

六、结论

不同的模型对同一批数据的性能相差很大,文本长度对于模型影响更大,长度过长,超过模型训练时的长度太多,那么检索效果就会很差,但是总的来说m3e,e5,piccolo模型效果比较好。


向量检索模型大比拼和优化
https://johnson7788.github.io/2023/09/25/%E5%90%91%E9%87%8F%E6%A3%80%E7%B4%A2%E6%A8%A1%E5%9E%8B%E5%A4%A7%E6%AF%94%E6%8B%BC%E5%92%8C%E4%BC%98%E5%8C%96/
作者
Johnson
发布于
2023年9月25日
许可协议