Wymagania: Gdy przedsiębiorstwa budują bazę wiedzy RAG, ważne jest wybranie odpowiedniego modelu osadzania embeddingu, ponieważ wydajność osadzania determinuje dokładność wyszukiwania, a pośrednio niezawodność wyników dużych modeli. Najczęściej stosowane modele: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Dlaczego musisz osadzać model?
Komputery mogą obsługiwać jedynie operacje numeryczne i nie potrafią bezpośrednio zrozumieć nienumerycznych form danych, takich jak język naturalny, tekst, obrazy czy dźwięk. Dlatego musimy "wektoryzować", aby przekształcić te dane w formy numeryczne, które komputery mogą zrozumieć i przetworzyć, czyli odwzorować je na matematyczne reprezentacje wektorowe. Proces ten jest zwykle realizowany za pomocą modeli osadzających, które skutecznie rejestrują informacje semantyczne i struktury wewnętrzne danych.
Rola modeli osadzania polega na tym, że nie tylko przekształcają one dyskretne dane (takie jak słowa, fragmenty obrazów czy fragmenty dźwięku) w ciągłe wektory o niskim wymiarze, ale także zachowują relacje semantyczne między danymi w przestrzeni wektorowej. Na przykład w przetwarzaniu języka naturalnego modele osadzające mogą generować wektory słowne, dzięki czemu podobne słowa są coraz bliżej siebie w przestrzeni wektorowej. Ta efektywna reprezentacja pozwala komputerom na wykonywanie złożonych obliczeń i analiz na podstawie tych wektorów, dzięki czemu lepiej rozumieją i przetwarzają złożone dane, takie jak tekst, obrazy czy dźwięki.
Dzięki osadzeniu wektoryzacji modelu komputery mogą nie tylko efektywnie przetwarzać dane na dużą skalę, ale także wykazywać lepsze możliwości wydajności i uogólniania w różnych zadaniach (takich jak klasyfikacja, wyszukiwanie, generowanie itp.).
Ocena modelu osadzenia
Aby ocenić jakość modelu wbudowanego, musi istnieć jasny zestaw kryteriów. MTEB i C-MTEB są powszechnie stosowane do benchmarkingu.
MTEB
Huggingface posiada standard oceny MTEB (Massive Multilingual Text Embedding Benchmark), który jest stosunkowo uznanym standardem w branży i może być wykorzystywany jako odniesienie. Obejmuje 8 zadań osadzania, łącznie 58 zbiorów danych i 112 języków, co czyni go najbardziej kompleksowym benchmarkiem osadzania tekstu do tej pory.
Lista:Logowanie do linku jest widoczne. Adres GitHub:Logowanie do linku jest widoczne.
C-MTEB
C-MTEB to najbardziej kompleksowy chiński benchmark oceny wektorów semantycznych, obejmujący 6 kategorii zadań ewaluacyjnych (wyszukiwanie, sortowanie, podobieństwo zdań, rozumowanie, klasyfikacja, klasteryzacja) oraz 35 zbiorów danych.
Artykuły C-MTEB:Logowanie do linku jest widoczne. Kody i rankingi:Logowanie do linku jest widoczne.(Wiele adresów w Internecie jest starych)
|