Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 2451|Atsakyti: 0

【AI】(14) Trumpas įvadas į atvirojo kodo vektorines duomenų bazes

[Kopijuoti nuorodą]
Publikuota: 2025-3-25 11:29:25 | | | |
Reikalavimai: Praėjusį kartą organizavome įterpimo modelių pasirinkimą, o konvertuodami modelį į vektorius turime apsvarstyti galimybę išsaugoti vektorius. Yra daug vektorinių duomenų bazių, tokių kaip: LanceDB, Astra DB, Pinecone, Chroma, Weaviate, QDrant, Milvus, Zilliz, PGVector, Redis, Elasticsearch, Redis, FAISS, SQL Server 2025 ir kt.

Kas yra vektorinė duomenų bazė?

Vektorinė duomenų bazė yra organizuotas vektorinių įterpimų rinkinys, kuriame yra vektorinių įterpimų, kuriuos galima bet kada sukurti, skaityti, atnaujinti ir ištrinti. Vektoriniai įterpimai pateikia duomenų blokus, pvz., tekstą ar vaizdus, kaip skaitines reikšmes. Vektorinė duomenų bazė yra duomenų bazių sistema, skirta saugoti ir gauti didelių matmenų vektorius. Jis greitai suranda artimiausią tikslinį vektorių, apskaičiuodamas vektorių panašumą (pvz., kosinuso panašumą, Euklido atstumą ir kt.). Ši technika dažnai naudojama įterpimo duomenims, pvz., tekstui, vaizdams, garso ar vaizdo įrašų atvaizdams, apdoroti.

Vektorinė duomenų bazė yra matematine forma saugomų duomenų rinkinys. Vektorinės duomenų bazės leidžia mašininio mokymosi modeliams lengviau įsiminti ankstesnes įvestis, todėl mašininis mokymasis gali būti naudojamas tokiems naudojimo atvejams kaip paieška, rekomendacijos ir teksto generavimas. Duomenis galima identifikuoti pagal panašumo metriką, o ne tikslią atitiktį, todėl kompiuteriniai modeliai gali suprasti duomenų kontekstą.

Kai klientas apsilanko batų parduotuvėje, pardavėjas gali rekomenduoti batus, panašius į klientui patinkančius batus. Panašiai, apsiperkant elektroninėje parduotuvėje, parduotuvė gali rekomenduoti panašias prekes tokiose antraštėse kaip "Klientas taip pat pirko...". Vektorinės duomenų bazės leidžia mašininio mokymosi modeliams identifikuoti panašius objektus, kaip pardavėjas gali rasti panašius batus, o el. parduotuvė gali rekomenduoti susijusius produktus. (Tiesą sakant, elektroninės prekybos parduotuvės gali naudoti tokius mašininio mokymosi modelius).

Apibendrinant galima pasakyti, kad vektorinės duomenų bazės leidžia kompiuterinėms programoms atlikti palyginimus, nustatyti ryšius ir suprasti kontekstą. Tai leidžia kurti pažangias dirbtinio intelekto (AI) programas, tokias kaip dideli kalbos modeliai (LLM).

Chroma

Svetainė:Hipersaito prisijungimas matomas.



"Chroma" yra efektyvi, Python pagrindu sukurta atvirojo kodo duomenų bazė, skirta didelio masto panašumų paieškoms. Jis skirtas išspręsti panašumo paieškų problemą didelio masto duomenų rinkiniuose, ypač dirbant su didelių matmenų duomenimis. Galimos kelios prieglobos parinktys: be serverio / įterptasis, savarankiškai priglobtas (klientas-serveris) ir debesies paskirstyti SaaS sprendimai su įterptaisiais ir kliento-serverio modeliais.
Puikiai tinka prototipų kūrimo ir gamybos aplinkoje. Dėl efemeriško duomenų saugojimo pobūdžio "Chroma" idealiai tinka greitam scenarijų prototipų kūrimui. Naudodami paprastą sąranką, vartotojai gali lengvai kurti kolekcijas ir jas pakartotinai naudoti, palengvindami vėlesnius duomenų papildymus. Be to, "Chroma" turi galimybę automatiškai įkelti ir išsaugoti duomenis. Kai klientas paleidžiamas, jis automatiškai įkelia vartotojo duomenis; Uždarius duomenys automatiškai išsaugomi, o tai labai supaprastina duomenų valdymo procesą. Dėl šios savybės "Chroma" yra labai populiari prototipų kūrimo ir kūrimo etapuose.
"Chroma" gavo pradinį finansavimo etapą 2022 m. gegužę ir antrąjį 1,800 USD finansavimo etapą.

Argumentai "už": "Chroma" siūlo klientams daugiau nei tuziną programavimo kalbų, gali greitai paleisti vektorinę saugyklą ir yra pirmoji vektorinė duomenų bazė rinkoje, siūlanti įterpimo režimą pagal numatytuosius nustatymus. Jis yra gana patogus kūrėjams ir lengvai integruojamas.
Trūkumai: Funkcionalumas yra gana paprastas, ypač programoms, kurioms reikalingos sudėtingesnės funkcijos. Palaikomas tik procesoriaus skaičiavimas, kuris gali apriboti našumo padidėjimą tais atvejais, kai reikia didelių skaičiavimo išteklių.

LanceDB

Svetainė:Hipersaito prisijungimas matomas.



"LanceDB" yra atvirojo kodo vektorinė duomenų bazė, skirta daugiarūšio dirbtinio intelekto duomenims, skirtiems saugoti, valdyti, užklausti ir gauti didelio masto multimodalinius duomenis. Jo esmė parašyta "Rust" ir sukurta remiantis "Lance" – stulpelio duomenų formatu, kuris optimizuoja didelės spartos atsitiktinę prieigą ir dirbtinio intelekto duomenų rinkinių, tokių kaip vektoriai, dokumentai ir vaizdai, valdymą. Jis tinka įvairioms dirbtinio intelekto programoms, kurioms reikia apdoroti didelių matmenų vektorinius duomenis, pvz., vaizdo atpažinimą, natūralios kalbos apdorojimą, rekomendacijų sistemas ir kt. "LanceDB" teikia du režimus: įterptąsias ir debesyje esančias paslaugas.

Privalumai: LanceDB pašalina poreikį valdyti serverius, sumažina kūrėjų eksploatavimo ir valdymo išlaidas ir pagerina kūrimo efektyvumą. Jis optimizuotas multimodaliniams duomenims ir palaiko įvairių tipų duomenis, tokius kaip vaizdai, tekstas ir garsas, pagerindamas duomenų bazės efektyvumą tvarkant sudėtingus duomenis. Ji suteikia patogią API sąsają ir vizualizacijos įrankius, leidžiančius kūrėjams lengvai integruoti ir naudoti duomenų bazes.
Trūkumai: Ji bus paleista tik 2023 m., Tai yra labai nauja duomenų bazė, ir ji nėra pakankamai brandi funkcijų kūrimo ir bendruomenės veiklos požiūriu.

PGVector

Svetainė:Hipersaito prisijungimas matomas.



PGVector yra PostgreSQL pagrįstas plėtinys, skirtas suteikti galingas vektorinės saugyklos ir užklausų galimybes. Jis naudoja C kalbą, kad įdiegtų įvairius vektorinių duomenų tipus ir algoritmus, taip pat gali efektyviai saugoti ir užklausti AI įterpimus, išreikštus vektoriais. PGVector palaiko tikslią ir apytikslę artimiausio kaimyno paiešką, leidžiančią greitai pasiekti panašius duomenų taškus didelių matmenų erdvėje. Jis taip pat palaiko įvairius vektorinio skaičiavimo algoritmus ir duomenų tipus, tokius kaip L2 atstumas, vidinė sandauga ir kosinuso atstumas. Tai tinka scenarijams, kai vektorinės paieškos funkcija nėra sistemos šerdis arba projektas greitai paleidžiamas ankstyvoje stadijoje.

Argumentai "už": PGVector sklandžiai integruojasi į esamas PostgreSQL duomenų bazes, todėl vartotojai gali pradėti naudotis vektorinės paieškos galimybėmis neperkeliant esamų duomenų bazių. Kadangi tai yra PostgreSQL papildinys, PGVector paveldi jo patikimumą ir tvirtumą naudodamas ilgalaikį PostgreSQL kūrimą ir optimizavimą, tuo pačiu pagerindamas vektorizacijos apdorojimą.
Trūkumai: Palyginti su specialiomis vektorinėmis duomenų bazėmis, našumo optimizavimas ir išteklių panaudojimas yra šiek tiek nepakankamas.

Qdrant

Svetainė:Hipersaito prisijungimas matomas.



"Qdrant" yra atvirojo kodo vektorinė duomenų bazė ir debesyje priglobta paslauga, pristatyta 2021 m. ir skirta naujos kartos dirbtinio intelekto programoms. Patogios API yra skirtos taškams (t. y. vektoriams) saugoti, ieškoti ir valdyti su papildomomis naudingosiomis apkrovomis, kad būtų išplėstas filtravimo palaikymas. Keli indeksų tipai, įskaitant naudingosios apkrovos indeksus, viso teksto indeksus ir vektorinius indeksus, leidžia efektyviai apdoroti didelių matmenų duomenis. Be to, Qdrant naudoja pasirinktinį HNSW algoritmą greitoms ir tikslioms paieškoms ir leidžia filtruoti rezultatus pagal atitinkamas vektorines naudingąsias apkrovas. Dėl šių funkcijų Qdrant yra naudingas neuroniniams tinklams arba semantiniam atitikimui, daugialypei paieškai ir kitoms programoms. "Qdrant" stiprybė yra semantinės paieškos ir panašumų atitikimo funkcijos, leidžiančios lengvai įgyvendinti verslo scenarijus, tokius kaip vaizdų, balso ir vaizdo įrašų paieška, taip pat rekomendacijų sistemas.

Argumentai "už": Puiki dokumentacija, padedanti kūrėjams lengvai pradėti naudoti "Docker". Jis sukurtas tik "Rust" ir siūlo API, kurias kūrėjai gali naudoti per "Rust", "Python" ir "Golang" klientus, kurie šiandien yra populiariausios kalbos galinių programų kūrėjams. Qdrant palaiko įvairias optimizavimo strategijas, tokias kaip indeksų optimizavimas ir užklausų optimizavimas. Jis taip pat palaiko paskirstytą diegimą ir horizontalų mastelio keitimą, kad atitiktų didelio masto duomenų apdorojimo poreikius.
Trūkumai: Projektas yra palyginti naujas ir neturi pakankamai laiko patvirtinti. Reaguojant į verslo apimties augimą, jis gali būti keičiamas tik horizontaliai paslaugų lygiu. Palaikomas tik statinis skaldymas. Remiantis Zilliz ataskaita, didėjant nestruktūrizuotų duomenų elementų skaičiui vektorinėse duomenų bazėse, saugomų duomenų kiekis yra didelis, o tai gali turėti įtakos užklausų efektyvumui.

Milvus/Zilliz debesis

Milvus svetainė:Hipersaito prisijungimas matomas.
"Zilliz" svetainė:Hipersaito prisijungimas matomas.



"Milvus" yra 2019 m. atvirojo kodo gryno vektorinio kodo duomenų bazė, sukurta remiantis gerai žinomomis vektorinės paieškos bibliotekomis, tokiomis kaip FAISS, Annoy ir HNSW, ir optimizuota scenarijams, kuriems reikalinga greita panašumo paieška. "Zilliz Cloud" yra debesies vektorinių duomenų bazių paslauga, sukurta remiantis "Milvus", kuria siekiama suteikti patogesnes ir našesnes valdymo ir mastelio keitimo galimybes. Trumpai tariant, "Zilliz" yra komercinė "Milvus" debesų prieglobos versija, kuri taip pat yra sėkmingesnis verslo modelis duomenų bazių srityje.

Argumentai "už": Dėl ilgo egzistavimo vektorinių duomenų bazių ekosistemoje duomenų bazė yra labai brandi ir turi daug algoritmų. Yra daugybė vektorinio indeksavimo parinkčių, ir jis sukurtas nuo pat pradžių Golang, kad būtų itin keičiamas. Nuo 2023 m. tai yra vienintelis pagrindinis pardavėjas, siūlantis perspektyvų DiskANN diegimą, kuris, kaip teigiama, yra efektyviausias disko vektoriaus indeksavimas.
Trūkumai: Atrodo, kad "Milvus" yra sprendimas, kuris sprendžia mastelio keitimo problemas – jis yra labai keičiamas naudojant tarpinius serverius, apkrovos balansavimo priemones, pranešimų brokerius, "Kafka" ir "Kubernetes 7", todėl visa sistema yra labai sudėtinga ir reikalauja daug išteklių. Kliento pusės API, pvz., Python, taip pat nėra tokios skaitomos ar intuityvios kaip naujesnės duomenų bazės, tokios kaip Weaviate ir Qdrant, kurios paprastai yra labiau orientuotos į kūrėjo patirtį. "Milvus" sukurtas siekiant perkelti duomenis į vektorinius indeksus, kad būtų užtikrintas didžiulis mastelio keitimas, ir daugeliu atvejų "Milvus" atrodo šiek tiek per didelis, kai duomenų kiekis nėra per didelis. Statiškesnėms ir retesnėms didelio masto situacijoms tokios alternatyvos kaip "Qdrant" ar "Weaviate" gali būti pigesnės ir greičiau pradėti veikti gamyboje.

kitas

Redis:Hipersaito prisijungimas matomas.
Kankorėžis:Hipersaito prisijungimas matomas.
Pynimas:Hipersaito prisijungimas matomas.
FAISS:Hipersaito prisijungimas matomas.Hipersaito prisijungimas matomas.
Elasticsearch:Hipersaito prisijungimas matomas.
SQL serveris:Hipersaito prisijungimas matomas.

Nuoroda:
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.





Ankstesnis:[AI] (13) Trumpas įvadas į vektorių panašumą ir atstumą
Kitą:[AI] (15) Vektorinę duomenų bazę Qdrant lengva naudoti
Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com