Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 1262|Odpowiedź: 3

AI (11) Wybór modelu osadzania

[Skopiuj link]
Opublikowano 2025-3-14 23:01:35 | | | |
Wymagania: Gdy przedsiębiorstwa budują bazę wiedzy RAG, ważne jest wybranie odpowiedniego modelu osadzania embeddingu, ponieważ wydajność osadzania determinuje dokładność wyszukiwania, a pośrednio niezawodność wyników dużych modeli. Najczęściej stosowane modele: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Dlaczego musisz osadzać model?

Komputery mogą obsługiwać jedynie operacje numeryczne i nie potrafią bezpośrednio zrozumieć nienumerycznych form danych, takich jak język naturalny, tekst, obrazy czy dźwięk. Dlatego musimy "wektoryzować", aby przekształcić te dane w formy numeryczne, które komputery mogą zrozumieć i przetworzyć, czyli odwzorować je na matematyczne reprezentacje wektorowe. Proces ten jest zwykle realizowany za pomocą modeli osadzających, które skutecznie rejestrują informacje semantyczne i struktury wewnętrzne danych.

Rola modeli osadzania polega na tym, że nie tylko przekształcają one dyskretne dane (takie jak słowa, fragmenty obrazów czy fragmenty dźwięku) w ciągłe wektory o niskim wymiarze, ale także zachowują relacje semantyczne między danymi w przestrzeni wektorowej. Na przykład w przetwarzaniu języka naturalnego modele osadzające mogą generować wektory słowne, dzięki czemu podobne słowa są coraz bliżej siebie w przestrzeni wektorowej. Ta efektywna reprezentacja pozwala komputerom na wykonywanie złożonych obliczeń i analiz na podstawie tych wektorów, dzięki czemu lepiej rozumieją i przetwarzają złożone dane, takie jak tekst, obrazy czy dźwięki.

Dzięki osadzeniu wektoryzacji modelu komputery mogą nie tylko efektywnie przetwarzać dane na dużą skalę, ale także wykazywać lepsze możliwości wydajności i uogólniania w różnych zadaniach (takich jak klasyfikacja, wyszukiwanie, generowanie itp.).

Ocena modelu osadzenia

Aby ocenić jakość modelu wbudowanego, musi istnieć jasny zestaw kryteriów. MTEB i C-MTEB są powszechnie stosowane do benchmarkingu.

MTEB

Huggingface posiada standard oceny MTEB (Massive Multilingual Text Embedding Benchmark), który jest stosunkowo uznanym standardem w branży i może być wykorzystywany jako odniesienie. Obejmuje 8 zadań osadzania, łącznie 58 zbiorów danych i 112 języków, co czyni go najbardziej kompleksowym benchmarkiem osadzania tekstu do tej pory.



Lista:Logowanie do linku jest widoczne.
Adres GitHub:Logowanie do linku jest widoczne.



C-MTEB

C-MTEB to najbardziej kompleksowy chiński benchmark oceny wektorów semantycznych, obejmujący 6 kategorii zadań ewaluacyjnych (wyszukiwanie, sortowanie, podobieństwo zdań, rozumowanie, klasyfikacja, klasteryzacja) oraz 35 zbiorów danych.

Artykuły C-MTEB:Logowanie do linku jest widoczne.
Kody i rankingi:Logowanie do linku jest widoczne.(Wiele adresów w Internecie jest starych)





Poprzedni:Linux komenduje sudo oraz odpowiednie angielskie skróty słów
Następny:.NET/C# wykorzystuje algorytm SM3 do generowania sygnatur
 Ziemianin| Opublikowano 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake z radością ogłasza wydanie Arctic Embed L 2.0 oraz Arctic Embed M 2.0, kolejnej odsłony naszego nowoczesnego modelu osadzania, obecnie z wsparciem dla wielojęzycznego wyszukiwania.Logowanie do linku jest widoczne.

Pobieranie modeli

Arctic Embed L 2.0:Logowanie do linku jest widoczne.
Arktyczne osadzenie M 2.0:Logowanie do linku jest widoczne.

 Ziemianin| Opublikowano 2025-3-17 16:30:21 |
BCEmbedding to biblioteka modelowa algorytmów semantycznych dwujęzycznych i międzylingwalnych opracowana przez NetEase Youdao, obejmująca dwa typy podstawowych modeli: EmbeddingModel i RerankerModel. EmbeddingModel został specjalnie zaprojektowany do generowania wektorów semantycznych i odgrywa kluczową rolę w wyszukiwaniu semantycznym oraz pytaniach i odpowiedziach, podczas gdy RerankerModel wyróżnia się optymalizacją wyników wyszukiwania semantycznego i sekwencjonowania powiązanego semantycznie.

GitHub:Logowanie do linku jest widoczne.

EmbeddingModel:Logowanie do linku jest widoczne.
RerankerModel:Logowanie do linku jest widoczne.

 Ziemianin| Opublikowano 2025-3-18 10:07:55 |
Nazwa modeluWersjaOrganizacja/JednostkaadresDługość osadzeniaMaksymalna długość wejściowa
Gtegte-large-zhAlibaba Dharma AcademyLogowanie do linku jest widoczne.1024512
BGEbge-large-zh-v1.5Instytut Badań nad Sztuczną Inteligencją Pekin-ZhiyuanLogowanie do linku jest widoczne.1024512
m3eM3E-basemokaLogowanie do linku jest widoczne.768512
tao8ktao8kHuggingface jest rozwijany i udostępniany jako open source przez amuLogowanie do linku jest widoczne.1024512

Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com