【AI】(14) Eine kurze Einführung in Open-Source-Vektordatenbanken

Kleiner Abschaum · Veröffentlicht am 25.03.2025 11:29:25

Anforderungen: Beim letzten Mal haben wir die Auswahl der Einbettungsmodelle organisiert, und bei der Umwandlung des Modells in Vektoren müssen wir die Vektoren speichern. Es gibt viele Vektordatenbanken, wie: LanceDB, Astra DB, Pinecone, Chroma, Weaviate, QDrant, Milvus, Zilliz, PGVector, Redis, Elasticsearch, Redis, FAISS, SQL Server 2025 usw.

Was ist eine Vektordatenbank?

Eine Vektordatenbank ist eine organisierte Sammlung von Vektor-Embeddings, die Vektor-Embeddings enthalten, die jederzeit erstellt, gelesen, aktualisiert und gelöscht werden können. Vektoreinbettungen stellen Datenblöcke wie Text oder Bilder als numerische Werte dar. Eine Vektordatenbank ist ein Datenbanksystem, das dazu entwickelt wurde, hochdimensionale Vektoren zu speichern und abzurufen. Er findet schnell den nächstgelegenen Zielvektor, indem er die Ähnlichkeit zwischen Vektoren berechnet (wie Cosinusähnlichkeit, euklidische Entfernung usw.). Diese Technik wird häufig verwendet, um Embedding-basierte Daten wie Text-, Bilder-, Audio- oder Video-Feature-Darstellungen zu verarbeiten.

Eine Vektordatenbank ist eine Sammlung von Daten, die in mathematischer Form gespeichert werden. Vektordatenbanken erleichtern es maschinellen Lernmodellen, sich vorherige Eingaben zu merken, wodurch maschinelles Lernen zur Unterstützung von Anwendungsfällen wie Suche, Empfehlung und Textgenerierung genutzt werden kann. Daten können anhand von Ähnlichkeitsmetriken und nicht durch exakte Übereinstimmungen identifiziert werden, sodass Computermodelle den Kontext der Daten verstehen können.

Wenn ein Kunde ein Schuhgeschäft besucht, empfiehlt der Verkäufer möglicherweise Schuhe, die dem Kunde ähnlich sind. Ähnlich kann das Geschäft beim Einkaufen in einem E-Commerce-Geschäft ähnliche Artikel unter Überschriften wie "Der Kunde hat auch gekauft..." empfehlen. Vektordatenbanken ermöglichen es maschinellen Lernmodellen, ähnliche Objekte zu identifizieren, genauso wie ein Verkäufer ähnliche Schuhe finden kann und ein E-Commerce-Shop verwandte Produkte empfehlen kann. (Tatsächlich können E-Commerce-Geschäfte solche maschinellen Lernmodelle verwenden, um diese Aufgabe zu erledigen).

Zusammenfassend ermöglichen Vektordatenbanken Computerprogrammen, Vergleiche anzustellen, Zusammenhänge zu identifizieren und Kontext zu verstehen. Dies ermöglicht die Erstellung fortschrittlicher KI-Programme (KI) wie große Sprachmodelle (LLMs).

Chroma

Platz:Der Hyperlink-Login ist sichtbar.

Chroma ist eine effiziente, auf Python basierende, Open-Source-Datenbank für groß angelegte Ähnlichkeitssuche. Sie ist darauf ausgelegt, das Problem der Ähnlichkeitssuchen in groß angelegten Datensätzen zu lösen, insbesondere bei hochdimensionalen Daten. Es gibt mehrere Hosting-Optionen: serverlos/eingebettet, selbstgehostet (Client-Server) und cloud-native verteilte SaaS-Lösungen mit sowohl eingebetteten als auch Client-Server-Modellen.
Hervorragend in Prototyping- und Produktionsumgebungen. Aufgrund der flüchtigen Natur seiner Datenspeicherung ist Chroma ideal für das schnelle Prototyping von Skripten. Mit einer einfachen Einrichtung können Nutzer Sammlungen einfach erstellen und wiederverwenden, was nachfolgende Datenergänzungen erleichtert. Außerdem kann Chroma Daten automatisch laden und speichern. Wenn der Client gestartet wird, lädt er automatisch die Daten des Benutzers; Im geschlossenen Zustand werden die Daten automatisch gespeichert, was den Datenmanagementprozess erheblich vereinfacht. Diese Funktion macht Chroma während der Prototyping- und Entwicklungsphase sehr beliebt.
Chroma erhielt im Mai 2022 eine Startfinanzierungsrunde und eine zweite Finanzierungsrunde über 1.800 US-Dollar.

Vorteile: Chroma bietet Kunden für mehr als ein Dutzend Programmiersprachen an, kann schnell Vektorspeicher starten und ist die erste Vektordatenbank auf dem Markt, die standardmäßig den Embedding-Modus anbietet. Es ist relativ entwicklerfreundlich und leicht zu integrieren.
Nachteile: Die Funktionalität ist relativ einfach, insbesondere für Anwendungen mit komplexeren Funktionen. Es wird nur CPU-Berechnung unterstützt, was die Leistungssteigerungen in Situationen mit erheblichen Rechenressourcen einschränken kann.

LanceDB

Platz:Der Hyperlink-Login ist sichtbar.

LanceDB ist eine Open-Source-Vektordatenbank, die für multimodale KI-Daten entwickelt wurde, um großflächige multimodale Dateneinbettungen zu speichern, zu verwalten, abzufragen und abzurufen. Sein Kern ist in Rust geschrieben und basiert auf Lance, einem Kolumnen-Datenformat, das den schnellen Zugriff auf KI-Datensätze wie Vektoren, Dokumente und Bilder optimiert. Es eignet sich für verschiedene KI-Anwendungen, die hochdimensionale Vektordaten verarbeiten müssen, wie Bilderkennung, natürliche Sprachverarbeitung, Empfehlungssysteme usw. LanceDB bietet zwei Modi: eingebettete und cloud-gehostete Dienste.

Vorteile: LanceDB macht die Serververwaltung überflüssig, senkt die O&M-Kosten für Entwickler und verbessert die Entwicklungseffizienz. Sie ist für multimodale Daten optimiert und unterstützt verschiedene Datentypen wie Bilder, Text und Audio, wodurch die Effizienz der Datenbank bei der Verarbeitung komplexer Daten verbessert wird. Es bietet eine benutzerfreundliche API-Oberfläche und Visualisierungstools, die es Entwicklern ermöglichen, Datenbanken einfach zu integrieren und zu nutzen.
Nachteile: Sie wird erst 2023 gestartet, eine sehr neue Datenbank, und sie ist in Bezug auf Funktionsentwicklung und Community-Betrieb noch nicht ausgereift genug.

PGVector

Platz:Der Hyperlink-Login ist sichtbar.

PGVector ist eine auf PostgreSQL basierende Erweiterung, die leistungsstarke Vektorspeicher- und Abfragefunktionen bereitstellt. Es verwendet die C-Sprache, um eine Vielzahl von Vektordatentypen und Algorithmen zu implementieren, und kann KI-Einbettungen, die in Vektoren ausgedrückt werden, effizient speichern und abfragen. PGVector unterstützt eine präzise und ungefähre Suche nach nächstgelegenen Nachbarn und ermöglicht einen schnellen Zugriff auf ähnliche Datenpunkte im hochdimensionalen Raum. Es unterstützt außerdem eine Vielzahl von Vektorberechnungsalgorithmen und Datentypen, wie L2-Abstand, Skalarprodukt und Kosinusdistanz, unter anderem. Es eignet sich für Szenarien, in denen die Vektorsuchfunktion nicht der Kern des Systems ist oder das Projekt in einer frühen Phase schnell gestartet wird.

Vorteile: PGVector lässt sich nahtlos in bestehende PostgreSQL-Datenbanken integrieren und ermöglicht es Nutzern, Vektorsuchfunktionen zu nutzen, ohne bestehende Datenbanken zu migrieren. Da es sich um ein PostgreSQL-Plugin handelt, erbt PGVector seine Zuverlässigkeit und Robustheit mithilfe der langfristigen Entwicklung und Optimierung von PostgreSQL und verbessert gleichzeitig die Vektorisierungsverarbeitung.
Nachteile: Im Vergleich zu dedizierten Vektordatenbanken ist die Optimierung von Leistung und Ressourcenauslastung leicht unzureichend.

Qdrant

Platz:Der Hyperlink-Login ist sichtbar.

Qdrant ist eine Open-Source-Vektordatenbank und cloudgehosteter Dienst, der 2021 gestartet wurde und für KI-Anwendungen der nächsten Generation entwickelt wurde. Praktische APIs werden bereitgestellt, um Punkte (d. h. Vektoren) zu speichern, zu suchen und zu verwalten, mit zusätzlichen Payloads zur Erweiterung der Filterunterstützung. Die verschiedenen Indextypen, darunter Nutzlastindizes, Volltextindizes und Vektorindizes, ermöglichen es, hochdimensionale Daten effizient zu verarbeiten. Zusätzlich verwendet Qdrant einen eigenen HNSW-Algorithmus für schnelle und präzise Suchen und ermöglicht das Filtern von Ergebnissen basierend auf relevanten Vektornutzlasten. Diese Funktionen machen Qdrant nützlich für neuronale Netze oder semantischbasierte Matching, multifacettierte Suche und andere Anwendungen. Die Stärke von Qdrant liegt in seinen semantischen Such- und Ähnlichkeitsabstimmungsfunktionen, die die Implementierung von Geschäftsszenarien wie Bild-, Sprach- und Videosuche sowie Empfehlungssysteme erleichtern.

Vorteile: Ausgezeichnete Dokumentation, die Entwicklern hilft, Docker leicht zu starten. Es ist vollständig in Rust entwickelt und bietet APIs an, die Entwickler über seine Rust-, Python- und Golang-Clients nutzen können, die heute die beliebtesten Sprachen für Backend-Entwickler sind. Qdrant unterstützt verschiedene Optimierungsstrategien, wie Indexoptimierung und Abfrageoptimierung. Es unterstützt außerdem verteilte Bereitstellung und horizontale Skalierung, um den Anforderungen der großflächigen Datenverarbeitung gerecht zu werden.
Nachteile: Das Projekt ist relativ neu und hat nicht genug Zeit zur Validierung. Wenn man auf das Wachstum des Geschäftsvolumens reagiert, kann es nur horizontal auf Serviceebene skalieren. Es wird nur statisches Sharding unterstützt. Laut Zilliz' Bericht ist mit zunehmender Anzahl unstrukturierter Datenelemente in Vektordatenbanken die Speichermenge groß und die Abfrageeffizienz kann beeinträchtigt werden.

Milvus/Zilliz Cloud

Milvus-Website:Der Hyperlink-Login ist sichtbar.
Zilliz Webseite:Der Hyperlink-Login ist sichtbar.

Milvus ist eine Open-Source-Datenbank aus dem Jahr 2019, die auf bekannten Vektorsuchbibliotheken wie FAISS, Annoy und HNSW basiert und für Szenarien optimiert ist, die schnelle Ähnlichkeitssuche erfordern. Zilliz Cloud ist ein cloudnativer Vektordatenbankdienst, der auf Milvus basiert und darauf abzielt, bequemere und leistungsfähigere Management- und Skalierungsfunktionen zu bieten. Kurz gesagt, Zilliz ist eine kommerzielle Version von Milvus' Cloud-Hosting, das auch ein erfolgreicheres Geschäftsmodell im Datenbankbereich darstellt.

Vorteile: Aufgrund ihrer langen Existenz im Vektordatenbank-Ökosystem ist die Datenbank sehr ausgereift und verfügt über eine große Anzahl von Algorithmen. Es gibt viele Vektorindexierungsoptionen, und es wurde von Grund auf in Golang für extreme Skalierbarkeit entwickelt. Stand 2023 ist es der einzige gängige Anbieter, der eine praktikable DiskANN-Implementierung anbietet, die als effizienteste Festplattenvektor-Indizierung gilt.
Nachteile: Milvus scheint eine Lösung zu sein, die auf Skalierbarkeitsprobleme hinausgeht – es ist hochskalierbar durch eine Kombination aus Proxys, Load Balancern, Nachrichtenbrokern, Kafka und Kubernetes 7, was das gesamte System sehr komplex und ressourcenintensiv macht. Client-seitige APIs wie Python sind zudem nicht so lesbar oder intuitiv wie neuere Datenbanken wie Weaviate und Qdrant, die tendenziell stärker auf das Entwicklererlebnis fokussiert sind. Milvus wurde mit der Idee entwickelt, Daten zu Vektorindizes zu streamen, um massive Skalierbarkeit zu erreichen, und in vielen Fällen wirkt Milvus etwas übertrieben, wenn die Datenmenge nicht zu groß ist. Für statischere und seltenere Großraumsituationen sind Alternativen wie Qdrant oder Weaviate möglicherweise günstiger und können schneller in Produktion laufen.

andere

Redis:Der Hyperlink-Login ist sichtbar.
Kiefernzapfen:Der Hyperlink-Login ist sichtbar.
Weaviate:Der Hyperlink-Login ist sichtbar.
FAISS:Der Hyperlink-Login ist sichtbar.、Der Hyperlink-Login ist sichtbar.
Elasticsearch:Der Hyperlink-Login ist sichtbar.
SQL Server:Der Hyperlink-Login ist sichtbar.

Referenz:
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.

【AI】(14) Eine kurze Einführung in Open-Source-Vektordatenbanken

Verwandte Beiträge

Betrachtete Abschnitte