임베딩 모델 한국어 성능 비교(BGE-M3 vs E5-large)

AI/LLM

임베딩 모델 한국어 성능 비교(BGE-M3 vs E5-large)

bigc 2025. 4. 10. 16:24

기존에 임베딩 모델은 multilingual-e5-large로 계속 사용하던 중 한국어 임베딩 모델 중 성능 좋은 bge-m3가 있다는 것을 이제야 알았습니다.

https://huggingface.co/intfloat/multilingual-e5-large

intfloat/multilingual-e5-large · Hugging Face

Multilingual-E5-large Multilingual E5 Text Embeddings: A Technical Report. Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, arXiv 2024 This model has 24 layers and the embedding size is 1024. Usage Below is an example to encode

huggingface.co

https://huggingface.co/BAAI/bge-m3

BAAI/bge-m3 · Hugging Face

For more details please refer to our github repo: https://github.com/FlagOpen/FlagEmbedding In this project, we introduce BGE-M3, which is distinguished for its versatility in Multi-Functionality, Multi-Linguality, and Multi-Granularity. Multi-Functionalit

huggingface.co

Rank	Model	Memory Usage (MB)	Number of Parameters	Embedding Dimensions	Max Tokens	Mean (Task)
20	[bge-m3](https://huggingface.co/BAAI/bge-m3)	2167	568M	4096	8194	59.54
24	[multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large)	2136	560M	1024	514	58.53

MTEB leaderboard 중 현실적인 메모리와 임베딩 차원 가성비를 고려한 두 모델을 정리한 표입니다.

BGE-M3

100개 이상 언어 지원
8194 토큰 길이 문서 처리
메모리 2167MB 필요

모델 다운로드 코드

!huggingface-cli login --token 자신의 토큰

from langchain_huggingface import HuggingFaceEmbeddings

model_name = "BAAI/bge-m3"
emb = HuggingFaceEmbeddings(model_name=model_name)

모델 결과 비교 예시

벡터 DB에 올려둔 위 두 데이터에 대해

multilingual-e5-large 모델은 위 결과 하나만 가져옴.

bge-m3 모델은 위 벡터 DB 데이터 둘 다 가져옴.

위의 예시 한 가지 말고도 여러 한국어 문서 기반 테스트를 해봤는데, bge-m3가 임베딩이 더 잘 돼있는 것 같더라고요.

앞으로 bge-m3 모델 애용할듯 합니다.

'AI > LLM' 카테고리의 다른 글

Unstructured PDF (multi-modal-rag) 사용 해보기 (0)	2025.04.30
Cogito-70B llm 모델 성능 테스트 해보기 (0)	2025.04.11
QWQ vs Llama3.3 Ollama 기반 Agentic RAG 해보기 (0)	2025.04.09
PyMuPDF4LLM vs PyMuPDFLoader(PDF loader 비교) (0)	2025.04.04
Qwen2.5-VL-32B 모델로 image to text(이미지로 텍스트 생성) 해보기(Gemma3 비교) (0)	2025.04.03

현재글임베딩 모델 한국어 성능 비교(BGE-M3 vs E5-large)

bigc 님의 블로그

인공지능 개발자의 이것저것

OCR, Markdown, image to text, RAG, 레딧후기, generation, 생성형, PDF, llama3.3, 이미지텍스트화, qwen, 텍스트 추출, LLM, 클로드 코드, Embedding, Document, qwen2.5-vl-32b, gemma3, qwq, qwen2.5,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

bigc 님의 블로그