【AI】(14) Brève introduction aux bases de données vectorielles open source

Petite ordure · Publié sur 25/03/2025 11:29:25

Exigences : La dernière fois, nous avons organisé la sélection des modèles d’inclusion, et lors de la conversion du modèle en vecteurs, nous devons envisager de sauvegarder les vecteurs. Il existe de nombreuses bases de données vectorielles, telles que : LanceDB, Astra DB, Pinecone, Chroma, Weaviate, QDrant, Milvus, Zilliz, PGVector, Redis, Elasticsearch, Redis, FAISS, SQL Server 2025, etc.

Qu’est-ce qu’une base de données vectorielle ?

Une base de données vectorielle est un ensemble organisé d’embeddings vectoriels qui intègrent des embeddings vectoriels pouvant être créés, lus, mis à jour et supprimés à tout moment. Les embeddings vectoriels représentent des blocs de données, tels que du texte ou des images, sous forme de valeurs numériques. Une base de données vectorielle est un système de base de données conçu pour stocker et récupérer des vecteurs de haute dimension. Il trouve rapidement le vecteur cible le plus proche en calculant la similarité entre les vecteurs (comme la similarité cosinus, la distance euclidienne, etc.). Cette technique est souvent utilisée pour traiter des données basées sur l’inclusion, telles que le texte, les images, les représentations audio ou vidéo.

Une base de données vectorielle est un ensemble de données stockées sous forme mathématique. Les bases de données vectorielles facilitent la mémoire des entrées précédentes par les modèles d’apprentissage automatique, permettant ainsi de supporter des cas d’utilisation tels que la recherche, la recommandation et la génération de texte. Les données peuvent être identifiées à partir de métriques de similarité plutôt que de correspondances exactes, permettant aux modèles informatiques de comprendre le contexte des données.

Lorsqu’un client visite un magasin de chaussures, le vendeur peut recommander des chaussures similaires à celles qu’il aime. De même, lors des achats dans une boutique en ligne, le magasin peut recommander des articles similaires sous des titres tels que « Le client a également acheté... ». Les bases de données vectorielles permettent aux modèles d’apprentissage automatique d’identifier des objets similaires, tout comme un vendeur peut trouver des chaussures similaires, et qu’une boutique en ligne peut recommander des produits similaires. (En fait, les boutiques en ligne peuvent utiliser de tels modèles d’apprentissage automatique pour faire le travail).

En conclusion, les bases de données vectorielles permettent aux programmes informatiques d’effectuer des comparaisons, d’identifier des relations et de comprendre le contexte. Cela permet de créer des programmes avancés d’intelligence artificielle (IA) tels que de grands modèles de langage (LLM).

Chroma

Site:La connexion hyperlientérée est visible.

Chroma est une base de données open source efficace, basée sur Python, pour les recherches de similarité à grande échelle. Il est conçu pour résoudre le problème des recherches de similarité dans les ensembles de données à grande échelle, en particulier lorsqu’il s’agit de données de haute dimension. Plusieurs options d’hébergement sont disponibles : solutions sans serveur/embarquées, auto-hébergées (client-serveur) et solutions SaaS distribuées natives cloud, avec des modèles embarqués et client-serveur.
Excellent en prototypage et en environnements de production. En raison de la nature éphémère de son stockage de données, Chroma est idéal pour le prototypage rapide des scripts. Avec une configuration simple, les utilisateurs peuvent facilement créer des collections et les réutiliser, facilitant ainsi les ajouts de données ultérieurs. De plus, Chroma a la capacité de charger et sauvegarder automatiquement les données. Lorsque le client est lancé, il charge automatiquement les données de l’utilisateur ; Une fois fermées, les données sont automatiquement sauvegardées, ce qui simplifie grandement le processus de gestion des données. Cette caractéristique rend Chroma très populaire lors des phases de prototypage et de développement.
Chroma a reçu un financement initial en mai 2022 et un second tour de financement de 1 800 $.

Avantages : Chroma offre aux clients plus d’une douzaine de langages de programmation, peut lancer rapidement un stockage vectoriel et est la première base de données vectorielle sur le marché à proposer par défaut le mode d’intégration. Il est relativement convivial pour les développeurs et facile à intégrer.
Inconvénients : La fonctionnalité est relativement simple, surtout pour les applications nécessitant des fonctions plus complexes. Seul le calcul CPU est supporté, ce qui peut limiter les gains de performance dans des situations nécessitant des ressources de calcul importantes.

LanceDB

Site:La connexion hyperlientérée est visible.

LanceDB est une base de données vectorielle open source conçue pour les données multimodales d’IA afin de stocker, gérer, interroger et récupérer des embeddings multimodaux à grande échelle. Son noyau est écrit en Rust et construit sur Lance, un format de données en colonnes qui optimise l’accès aléatoire à grande vitesse et la gestion des ensembles de données IA tels que vecteurs, documents et images. Il convient à diverses applications d’IA qui doivent traiter des données vectorielles de haute dimension, telles que la reconnaissance d’images, le traitement du langage naturel, les systèmes de recommandation, etc. LanceDB propose deux modes : services embarqués et services hébergés dans le cloud.

Avantages : LanceDB élimine le besoin de gérer les serveurs, réduisant les coûts d’exploitation et maintenance des développeurs et améliorant l’efficacité du développement. Elle est optimisée pour les données multimodales et prend en charge divers types de données tels que les images, le texte et l’audio, améliorant ainsi l’efficacité de la base de données lors du traitement de données complexes. Il offre une interface API conviviale et des outils de visualisation, permettant aux développeurs d’intégrer et d’utiliser facilement les bases de données.
Inconvénients : Elle ne sera lancée qu’en 2023, ce qui est une base de données très récente, et elle n’est pas assez mature en termes de développement fonctionnel et de fonctionnement communautaire.

PGVector

Site:La connexion hyperlientérée est visible.

PGVector est une extension basée sur PostgreSQL conçue pour offrir de puissantes capacités de stockage vectoriel et de requête. Il utilise le langage C pour implémenter une variété de types de données vectorielles et d’algorithmes, et peut stocker et interroger efficacement les embeddings IA exprimés dans des vecteurs. PGVector prend en compte une recherche précise et approximative des plus proches voisins, permettant un accès rapide à des points de données similaires dans un espace de haute dimension. Il prend également en compte une variété d’algorithmes de calcul vectoriel et de types de données, tels que la distance L2, le produit scalaire et la distance cosinus, entre autres. Il convient aux scénarios où la fonction de recherche vectorielle n’est pas le cœur du système, ou où le projet est rapidement lancé à un stade précoce.

Avantages : PGVector s’intègre parfaitement aux bases de données PostgreSQL existantes, permettant aux utilisateurs de commencer à utiliser des capacités de recherche vectorielle sans migrer les bases de données existantes. Parce qu’il s’agit d’un plugin PostgreSQL, PGVector hérite de sa fiabilité et de sa robustesse grâce au développement et à l’optimisation à long terme de PostgreSQL, tout en améliorant le traitement de la vectorisation.
Inconvénients : Comparé aux bases de données vectorielles dédiées, l’optimisation des performances et de l’utilisation des ressources est légèrement insuffisante.

Qdrant

Site:La connexion hyperlientérée est visible.

Qdrant est une base de données vectorielle open source et un service hébergé dans le cloud, lancé en 2021 et conçu pour les applications d’IA de nouvelle génération. Des API pratiques sont fournies pour stocker, rechercher et gérer des points (c’est-à-dire des vecteurs) avec des charges utiles supplémentaires pour étendre le support du filtrage. Les multiples types d’index, y compris les index de charge utile, les index en texte intégral et les index vectoriels, lui permettent de traiter efficacement des données en haute dimension. De plus, Qdrant utilise un algorithme HNSW personnalisé pour des recherches rapides et précises et permet de filtrer les résultats en fonction des charges utiles vectorielles pertinentes. Ces fonctionnalités rendent Qdrant utile pour les réseaux de neurones ou l’appariement sémantique, la recherche multifacette et d’autres applications. La force de Qdrant réside dans ses fonctions de recherche sémantique et de correspondance de similarité, qui facilitent la mise en œuvre de scénarios métier tels que la recherche d’images, de voix et de vidéos, ainsi que des systèmes de recommandation.

Avantages : Excellente documentation pour aider les développeurs à démarrer facilement avec Docker. Il est entièrement construit en Rust et propose des API que les développeurs peuvent utiliser via ses clients Rust, Python et Golang, qui sont les langages les plus populaires chez les développeurs backend aujourd’hui. Qdrant prend en charge diverses stratégies d’optimisation, telles que l’optimisation des indices et l’optimisation des requêtes. Il prend également en charge le déploiement distribué et l’échelle horizontale pour répondre aux besoins du traitement de données à grande échelle.
Inconvénients : Le projet est relativement récent et n’a pas assez de temps pour valider. Lorsqu’il s’agit de répondre à la croissance du volume d’activités, il ne peut s’étendre qu’horizontalement au niveau du service. Seul le fragment statique est pris en charge. Selon le rapport de Zilliz, à mesure que le nombre d’éléments de données non structurées dans les bases de données vectorielles augmente, la quantité de données stockées est importante, et l’efficacité des requêtes peut être affectée.

Nuage Milvus/Zilliz

Site de Milvus :La connexion hyperlientérée est visible.
Site web de Zilliz :La connexion hyperlientérée est visible.

Milvus est une base de données vectorielle pure open source de 2019, construite sur des bibliothèques de recherche vectorielle bien connues telles que FAISS, Annoy et HNSW, et optimisée pour des scénarios nécessitant des recherches rapides de similarité. Zilliz Cloud est un service de base de données vectorielle native cloud, développé basé sur Milvus, visant à offrir des capacités de gestion et d’extension plus pratiques et performantes. En résumé, Zilliz est une version commerciale de l’hébergement cloud de Milvus, qui constitue également un modèle économique plus réussi dans le domaine des bases de données.

Avantages : En raison de sa longue existence dans l’écosystème des bases de données vectorielles, la base de données est très mature et possède un grand nombre d’algorithmes. De nombreuses options d’indexation vectorielle sont disponibles, et il est conçu de A à Z en Golang pour une grande scalabilité. En 2023, c’est le seul fournisseur grand public à proposer une implémentation viable de DiskANN, considérée comme l’indexation vectorielle disque la plus efficace.
Inconvénients : Milvus semble être une solution qui met tout son potentiel sur les questions de scalabilité – elle est très évolutive via une combinaison de proxys, équilibreurs de charge, courtiers de messages, Kafka et Kubernetes 7, ce qui rend l’ensemble du système très complexe et gourmande en ressources. Les API côté client, comme Python, ne sont pas non plus aussi lisibles ou intuitives que les bases de données plus récentes comme Weaviate et Qdrant, qui ont tendance à être plus axées sur l’expérience développeur. Milvus est conçu avec l’idée de diffuser des données vers des index vectoriels pour une grande scalabilité, et dans de nombreux cas, Milvus semble un peu excessif lorsque la quantité de données n’est pas trop grande. Pour des situations à grande échelle plus statiques et rares, des alternatives comme Qdrant ou Weaviate peuvent être moins coûteuses et démarrer plus rapidement en production.

autre

Redis :La connexion hyperlientérée est visible.
Pinecone:La connexion hyperlientérée est visible.
Tisser :La connexion hyperlientérée est visible.
FAISS :La connexion hyperlientérée est visible.、La connexion hyperlientérée est visible.
Elasticsearch :La connexion hyperlientérée est visible.
SQL Server :La connexion hyperlientérée est visible.

Référence:
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.

【AI】(14) Brève introduction aux bases de données vectorielles open source

Articles connexes

Sections vues