Požadavky: Když podniky budují znalostní bázi RAG, je důležité zvolit vhodný model embeddingu, protože výkon embeddingu určuje přesnost vyhledávání a nepřímo spolehlivost výstupu velkých modelů. Běžně používané modely: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Proč je potřeba vložit model?
Počítače zvládají pouze numerické operace a nemohou přímo rozumět nenumerickým formám dat, jako je přirozený jazyk, text, obrázky a zvuk. Proto je potřeba "vektorizovat" a tato data převést do číselných forem, kterým počítače rozumí a zpracují, tedy je přemapovat do matematických vektorových reprezentací. Tento proces je obvykle realizován pomocí vnořených modelů, které dokážou efektivně zachytit sémantické informace a vnitřní struktury v datech.
Úlohou embedding modelů je nejen převádět diskrétní data (jako jsou slova, obrazové fragmenty nebo audio fragmenty) do spojitých nízkorozměrných vektorů, ale také zachovávat sémantické vztahy mezi daty ve vektorovém prostoru. Například v zpracování přirozeného jazyka mohou embedding modely generovat vektory slov, čímž se sémanticky podobná slova ve vektorovém prostoru přibližují. Tato efektivní reprezentace umožňuje počítačům provádět složité výpočty a analýzy na základě těchto vektorů, čímž lépe rozumí a zpracovává složitá data, jako jsou text, obrázky nebo zvuky.
Díky vektorizaci modelu mohou počítače nejen efektivně zpracovávat velká data, ale také prokazovat lepší výkonnost a schopnosti generalizace v různých úkolech (jako je klasifikace, vyhledávání, generování atd.).
Hodnocení vkládaného modelu
Pro posouzení kvality vloženého modelu musí existovat jasná sada kritérií. MTEB a C-MTEB se běžně používají pro benchmarking.
MTEB
Huggingface má hodnotící standard MTEB (Massive Multilingual Text Embedding Benchmark), který je v oboru poměrně uznávaným standardem a může sloužit jako referenční bod. Pokrývá 8 úloh vkládání, celkem 58 datových sad a 112 jazyků, což z něj činí nejkomplexnější benchmark textového vkládání dosud.
Seznam:Přihlášení k hypertextovému odkazu je viditelné. Adresa GitHubu:Přihlášení k hypertextovému odkazu je viditelné.
C-MTEB
C-MTEB je nejkomplexnější čínský benchmark pro hodnocení sémantických vektorů, pokrývající 6 kategorií hodnotících úkolů (vyhledávání, třídění, podobnost vět, uvažování, klasifikace, shlukování) a 35 datových sad.
Dokumenty C-MTEB:Přihlášení k hypertextovému odkazu je viditelné. Kódy a žebříčky:Přihlášení k hypertextovému odkazu je viditelné.(Mnoho adres na internetu je starých)
|