이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 1262|회답: 3

AI (11) 임베딩 모델 선택

[링크 복사]
2025-3-14 23:01:35에 게시됨 | | | |
요구사항: 기업이 RAG 지식 기반을 구축할 때는 적절한 임베딩 임베딩 모델을 선택하는 것이 중요합니다. 임베딩의 성능은 검색 정확도를 결정하고 간접적으로 대형 모델 출력의 신뢰성을 결정하기 때문입니다. 일반적으로 사용되는 모델: bge, m3e, nomic-embed-text, BCEmbedding(NetEase Youdao).

왜 모델을 임베딩해야 하나요?

컴퓨터는 수치 연산만 처리할 수 있으며 자연어, 텍스트, 이미지, 오디오와 같은 비수치 형태의 데이터를 직접 이해할 수 없습니다. 따라서 이 데이터를 컴퓨터가 이해하고 처리할 수 있는 수치 형태로 변환하기 위해 "벡터화"가 필요하며, 즉 수학적 벡터 표현으로 매핑할 수 있습니다. 이 과정은 보통 임베딩 모델의 도움으로 이루어지며, 이 모델은 데이터 내 의미 정보와 내부 구조를 효과적으로 포착할 수 있습니다.

임베딩 모델의 역할은 이산 데이터(예: 단어, 이미지 조각, 오디오 조각)를 연속적인 저차원 벡터로 변환할 뿐만 아니라, 벡터 공간 내 데이터 간의 의미적 관계를 보존하는 데 있습니다. 예를 들어, 자연어 처리에서 임베딩 모델은 단어 벡터를 생성하여 의미적으로 유사한 단어들을 벡터 공간에서 더 가깝게 만들 수 있습니다. 이러한 효율적인 표현 덕분에 컴퓨터는 이러한 벡터를 기반으로 복잡한 계산과 분석을 수행할 수 있어, 텍스트, 이미지, 소리와 같은 복잡한 데이터를 더 잘 이해하고 처리할 수 있습니다.

모델의 벡터화를 임베딩함으로써 컴퓨터는 대규모 데이터를 효율적으로 처리할 뿐만 아니라, 분류, 검색, 생성 등 다양한 작업에서 더 강력한 성능과 일반화 능력을 입증할 수 있습니다.

임베드 모델 평가

임베디드 모델의 품질을 평가하려면 명확한 기준이 있어야 합니다. MTEB 및 C-MTEB 는 벤치마킹에 일반적으로 사용됩니다.

MTEB

Huggingface는 MTEB(대규모 다국어 텍스트 삽입 벤치마크) 평가 표준을 가지고 있는데, 이는 업계에서 비교적 인정받는 표준이며 참고 자료로 활용할 수 있습니다. 8개의 임베딩 작업, 총 58개의 데이터셋, 112개 언어를 포함하여, 지금까지 가장 포괄적인 텍스트 임베딩 벤치마크입니다.



목록:하이퍼링크 로그인이 보입니다.
GitHub 주소:하이퍼링크 로그인이 보입니다.



C-MTEB

C-MTEB는 검색, 정렬, 문장 유사성, 추론, 분류, 클러스터링 등 6가지 평가 과제와 35개의 데이터셋을 포함하는 가장 포괄적인 중국어 의미 벡터 평가 벤치마크입니다.

C-MTEB 서류:하이퍼링크 로그인이 보입니다.
코드 및 리더보드:하이퍼링크 로그인이 보입니다.(인터넷에 있는 많은 주소가 오래된 주소입니다)





이전의:리눅스 명령어: sudo와 apt 영어 단어 약어
다음:.NET/C#은 SM3 알고리즘을 사용하여 서명을 생성합니다
 집주인| 2025-3-17 08:55:55에 게시됨 |
북극 임베드 2.0

Snowflake는 최첨단 임베딩 모델의 차세대인 Arctic Embed L 2.0과 Arctic Embed M 2.0의 출시를 기쁘게 발표하며, 다국어 검색도 지원합니다.하이퍼링크 로그인이 보입니다.

모델 다운로드

Arctic Embed L 2.0:하이퍼링크 로그인이 보입니다.
북극 임베드 M 2.0:하이퍼링크 로그인이 보입니다.

 집주인| 2025-3-17 16:30:21에 게시됨 |
BCEmbedding은 NetEase Youdao에서 개발한 이중언어 및 교차 언어 의미 표현 알고리즘의 모델 라이브러리로, EmbeddingModel과 RerankerModel이라는 두 가지 기본 모델을 포함하고 있습니다. EmbeddingModel은 의미 벡터를 생성하도록 특별히 설계되었으며, 의미 탐색과 Q&A에서 중요한 역할을 하는 반면, RerankerModel은 의미 탐색 결과 최적화와 의미상 연관된 시퀀싱에 뛰어납니다.

GitHub:하이퍼링크 로그인이 보입니다.

임베딩모델:하이퍼링크 로그인이 보입니다.
RerankerModel:하이퍼링크 로그인이 보입니다.

 집주인| 2025-3-18 10:07:55에 게시됨 |
모델 명칭버전조직/개인주소임베드 길이최대 입력 길이
GTEGTE-라지-ZH알리바바 다르마 아카데미하이퍼링크 로그인이 보입니다.1024512
BGEBGE-large-zh-v1.5베이징 즈위안 인공지능연구소하이퍼링크 로그인이 보입니다.1024512
M3EM3E-베이스모카하이퍼링크 로그인이 보입니다.768512
타오8K타오8KHuggingface는 amu에서 개발 및 오픈 소스로 제공되었습니다하이퍼링크 로그인이 보입니다.1024512

면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com