요구사항: 기업이 RAG 지식 기반을 구축할 때는 적절한 임베딩 임베딩 모델을 선택하는 것이 중요합니다. 임베딩의 성능은 검색 정확도를 결정하고 간접적으로 대형 모델 출력의 신뢰성을 결정하기 때문입니다. 일반적으로 사용되는 모델: bge, m3e, nomic-embed-text, BCEmbedding(NetEase Youdao).
왜 모델을 임베딩해야 하나요?
컴퓨터는 수치 연산만 처리할 수 있으며 자연어, 텍스트, 이미지, 오디오와 같은 비수치 형태의 데이터를 직접 이해할 수 없습니다. 따라서 이 데이터를 컴퓨터가 이해하고 처리할 수 있는 수치 형태로 변환하기 위해 "벡터화"가 필요하며, 즉 수학적 벡터 표현으로 매핑할 수 있습니다. 이 과정은 보통 임베딩 모델의 도움으로 이루어지며, 이 모델은 데이터 내 의미 정보와 내부 구조를 효과적으로 포착할 수 있습니다.
임베딩 모델의 역할은 이산 데이터(예: 단어, 이미지 조각, 오디오 조각)를 연속적인 저차원 벡터로 변환할 뿐만 아니라, 벡터 공간 내 데이터 간의 의미적 관계를 보존하는 데 있습니다. 예를 들어, 자연어 처리에서 임베딩 모델은 단어 벡터를 생성하여 의미적으로 유사한 단어들을 벡터 공간에서 더 가깝게 만들 수 있습니다. 이러한 효율적인 표현 덕분에 컴퓨터는 이러한 벡터를 기반으로 복잡한 계산과 분석을 수행할 수 있어, 텍스트, 이미지, 소리와 같은 복잡한 데이터를 더 잘 이해하고 처리할 수 있습니다.
모델의 벡터화를 임베딩함으로써 컴퓨터는 대규모 데이터를 효율적으로 처리할 뿐만 아니라, 분류, 검색, 생성 등 다양한 작업에서 더 강력한 성능과 일반화 능력을 입증할 수 있습니다.
임베드 모델 평가
임베디드 모델의 품질을 평가하려면 명확한 기준이 있어야 합니다. MTEB 및 C-MTEB 는 벤치마킹에 일반적으로 사용됩니다.
MTEB
Huggingface는 MTEB(대규모 다국어 텍스트 삽입 벤치마크) 평가 표준을 가지고 있는데, 이는 업계에서 비교적 인정받는 표준이며 참고 자료로 활용할 수 있습니다. 8개의 임베딩 작업, 총 58개의 데이터셋, 112개 언어를 포함하여, 지금까지 가장 포괄적인 텍스트 임베딩 벤치마크입니다.
목록:하이퍼링크 로그인이 보입니다. GitHub 주소:하이퍼링크 로그인이 보입니다.
C-MTEB
C-MTEB는 검색, 정렬, 문장 유사성, 추론, 분류, 클러스터링 등 6가지 평가 과제와 35개의 데이터셋을 포함하는 가장 포괄적인 중국어 의미 벡터 평가 벤치마크입니다.
C-MTEB 서류:하이퍼링크 로그인이 보입니다. 코드 및 리더보드:하이퍼링크 로그인이 보입니다.(인터넷에 있는 많은 주소가 오래된 주소입니다)
|