微软在Hugging Face开源了多语言文本嵌入模型家族harrier-oss-v1,包含270M、0.6B和27B三个版本。
模型特点
- 架构:采用decoder-only架构。
- 处理方式:使用last-token pooling和L2归一化。
- 上下文长度:最长支持32768个token。
- 应用场景:适用于检索、聚类、语义相似度、分类、双语挖掘和重排序等任务。
性能表现
在权威的多语言文本嵌入基准Multilingual MTEB v2上,三档模型的得分分别为:
- 270M版本:66.5分
- 0.6B版本:69.0分
- 27B版本:74.3分
其中,27B版本在发布当日即登上该基准榜首。270M和0.6B版本额外采用了更大嵌入模型进行知识蒸馏以提升性能。
开源许可
所有模型均基于MIT许可证发布。