微软在Hugging Face开源了多语言文本嵌入模型家族harrier-oss-v1,包含270M0.6B27B三个版本。

模型特点

  • 架构:采用decoder-only架构。
  • 处理方式:使用last-token pooling和L2归一化。
  • 上下文长度:最长支持32768个token。
  • 应用场景:适用于检索、聚类、语义相似度、分类、双语挖掘和重排序等任务。

性能表现
在权威的多语言文本嵌入基准Multilingual MTEB v2上,三档模型的得分分别为:

  • 270M版本:66.5分
  • 0.6B版本:69.0分
  • 27B版本:74.3分

其中,27B版本在发布当日即登上该基准榜首。270M和0.6B版本额外采用了更大嵌入模型进行知识蒸馏以提升性能。

开源许可
所有模型均基于MIT许可证发布。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化