AI/LLM

임베딩 모델 한국어 성능 비교(BGE-M3 vs E5-large)

bigc 2025. 4. 10. 16:24
반응형

기존에 임베딩 모델은 multilingual-e5-large로 계속 사용하던 중 한국어 임베딩 모델 중 성능 좋은 bge-m3가 있다는 것을 이제야 알았습니다.

 

https://huggingface.co/intfloat/multilingual-e5-large

 

intfloat/multilingual-e5-large · Hugging Face

Multilingual-E5-large Multilingual E5 Text Embeddings: A Technical Report. Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, arXiv 2024 This model has 24 layers and the embedding size is 1024. Usage Below is an example to encode

huggingface.co

https://huggingface.co/BAAI/bge-m3

 

BAAI/bge-m3 · Hugging Face

For more details please refer to our github repo: https://github.com/FlagOpen/FlagEmbedding In this project, we introduce BGE-M3, which is distinguished for its versatility in Multi-Functionality, Multi-Linguality, and Multi-Granularity. Multi-Functionalit

huggingface.co

 

Rank Model Memory Usage (MB) Number of Parameters Embedding Dimensions Max Tokens Mean (Task)
20 [bge-m3](https://huggingface.co/BAAI/bge-m3) 2167 568M 4096 8194 59.54
24 [multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) 2136 560M 1024 514 58.53

 

MTEB leaderboard 중 현실적인 메모리와 임베딩 차원 가성비를 고려한 두 모델을 정리한 표입니다. 

 

BGE-M3

  • 100개 이상 언어 지원
  • 8194 토큰 길이 문서 처리
  • 메모리 2167MB 필요
모델 다운로드 코드

!huggingface-cli login --token 자신의 토큰

from langchain_huggingface import HuggingFaceEmbeddings

model_name = "BAAI/bge-m3"
emb = HuggingFaceEmbeddings(model_name=model_name)

 

 

 

모델 결과 비교 예시

벡터 DB에 올려둔 위 두 데이터에 대해

 

multilingual-e5-large 모델은 위 결과 하나만 가져옴.

 

bge-m3 모델은 위 벡터 DB 데이터 둘 다 가져옴.

 

 

위의 예시 한 가지 말고도 여러 한국어 문서 기반 테스트를 해봤는데, bge-m3가 임베딩이 더 잘 돼있는 것 같더라고요.

 

앞으로 bge-m3 모델 애용할듯 합니다.   

반응형