기존에 임베딩 모델은 multilingual-e5-large로 계속 사용하던 중 한국어 임베딩 모델 중 성능 좋은 bge-m3가 있다는 것을 이제야 알았습니다.
https://huggingface.co/intfloat/multilingual-e5-large
intfloat/multilingual-e5-large · Hugging Face
Multilingual-E5-large Multilingual E5 Text Embeddings: A Technical Report. Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, arXiv 2024 This model has 24 layers and the embedding size is 1024. Usage Below is an example to encode
huggingface.co
https://huggingface.co/BAAI/bge-m3
BAAI/bge-m3 · Hugging Face
For more details please refer to our github repo: https://github.com/FlagOpen/FlagEmbedding In this project, we introduce BGE-M3, which is distinguished for its versatility in Multi-Functionality, Multi-Linguality, and Multi-Granularity. Multi-Functionalit
huggingface.co
| Rank | Model | Memory Usage (MB) | Number of Parameters | Embedding Dimensions | Max Tokens | Mean (Task) |
| 20 | [bge-m3](https://huggingface.co/BAAI/bge-m3) | 2167 | 568M | 4096 | 8194 | 59.54 |
| 24 | [multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) | 2136 | 560M | 1024 | 514 | 58.53 |
MTEB leaderboard 중 현실적인 메모리와 임베딩 차원 가성비를 고려한 두 모델을 정리한 표입니다.
BGE-M3
- 100개 이상 언어 지원
- 8194 토큰 길이 문서 처리
- 메모리 2167MB 필요
모델 다운로드 코드
!huggingface-cli login --token 자신의 토큰
from langchain_huggingface import HuggingFaceEmbeddings
model_name = "BAAI/bge-m3"
emb = HuggingFaceEmbeddings(model_name=model_name)
모델 결과 비교 예시

벡터 DB에 올려둔 위 두 데이터에 대해

multilingual-e5-large 모델은 위 결과 하나만 가져옴.

bge-m3 모델은 위 벡터 DB 데이터 둘 다 가져옴.
위의 예시 한 가지 말고도 여러 한국어 문서 기반 테스트를 해봤는데, bge-m3가 임베딩이 더 잘 돼있는 것 같더라고요.
앞으로 bge-m3 모델 애용할듯 합니다.
'AI > LLM' 카테고리의 다른 글
| Unstructured PDF (multi-modal-rag) 사용 해보기 (0) | 2025.04.30 |
|---|---|
| Cogito-70B llm 모델 성능 테스트 해보기 (0) | 2025.04.11 |
| QWQ vs Llama3.3 Ollama 기반 Agentic RAG 해보기 (0) | 2025.04.09 |
| PyMuPDF4LLM vs PyMuPDFLoader(PDF loader 비교) (0) | 2025.04.04 |
| Qwen2.5-VL-32B 모델로 image to text(이미지로 텍스트 생성) 해보기(Gemma3 비교) (0) | 2025.04.03 |