【AI】(14) Кратко въведение в отворените векторни бази данни

Малък боклук · Публикувано в 25.03.2025 г. 11:29:25 ч.

Изисквания: Миналия път организирахме избора на embedding модели и при конвертиране на модела във вектори трябва да обмислим запазването на векторите. Има много векторни бази данни, като: LanceDB, Astra DB, Pinecone, Chroma, Weaviate, QDrant, Milvus, Zilliz, PGVector, Redis, Elasticsearch, Redis, FAISS, SQL Server 2025 и др.

Какво е векторна база данни?

Векторната база данни е организирана колекция от векторни вграждания, които включват векторни вграждания, които могат да бъдат създавани, четени, актуализирани и изтривани по всяко време. Векторните вграждания представляват блокове от данни, като текст или изображения, като числови стойности. Векторната база данни е база данни, предназначена за съхранение и извличане на високоизмерни вектори. Той бързо намира най-близкия целеви вектор, като изчислява сходството между векторите (като косинусово сходство, евклидово разстояние и др.). Тази техника често се използва за обработка на данни, базирани на вграждане, като текст, изображения, аудио или видео представяния на характеристики.

Векторната база данни е колекция от данни, съхранявани в математическа форма. Векторните бази данни улесняват моделите с машинно обучение да запомнят предишни входни данни, позволявайки машинното обучение да се използва за поддръжка на случаи като търсене, препоръки и генериране на текст. Данните могат да бъдат идентифицирани въз основа на метрики за сходство, а не на точни съвпадения, което позволява на компютърните модели да разберат контекста на данните.

Когато клиент посети магазин за обувки, продавачът може да препоръча обувки, които са подобни на тези, които харесва клиентът. По подобен начин, когато пазарувате в електронен магазин, магазинът може да препоръча подобни артикули под заглавия като "Клиентът също е купил...". Векторните бази данни позволяват на моделите за машинно обучение да идентифицират подобни обекти, точно както продавачът може да намери подобни обувки, а електронният магазин може да препоръчва свързани продукти. (Всъщност, магазините за електронна търговия могат да използват такива модели на машинно обучение, за да свършат работата).

В заключение, векторните бази данни позволяват на компютърните програми да правят сравнения, да идентифицират връзки и да разбират контекста. Това прави възможно създаването на напреднали програми за изкуствен интелект (AI), като големи езикови модели (LLM).

Хрома

Сайт:Входът към хиперлинк е видим.

Chroma е ефективна, базирана на Python база данни с отворен код за мащабни търсения по сходство. Той е предназначен да реши проблема с търсенето на сходство в големи набори от данни, особено при работа с данни с висока размерност. Налични са множество опции за хостинг: безсървърни/вградени, самостоятелно хоствани (клиент-сървър) и облачно нативни разпределени SaaS решения с вградени и клиент-сървърни модели.
Отличен в прототипиране и продукционна среда. Поради ефимерния характер на съхранението на данни, Chroma е идеален за бързо прототипиране на скриптове. С опростена настройка потребителите могат лесно да създават колекции и да ги използват повторно, улеснявайки последващите добавяния на данни. Освен това Chroma има възможност автоматично да зарежда и запазва данни. Когато клиентът се стартира, той автоматично зарежда данните на потребителя; Когато са затворени, данните се запазват автоматично, което значително опростява процеса на управление на данните. Тази функция прави Chroma много популярна по време на прототипирането и разработката.
Chroma получи начален кръг финансиране през май 2022 г. и втори кръг от $1,800 финансиране.

Плюсове: Chroma предлага клиенти за повече от дузина програмни езици, може бързо да стартира векторно съхранение и е първата векторна база данни на пазара, която по подразбиране предлага режим на вграждане. Той е сравнително удобен за разработчици и лесен за интеграция.
Недостатъци: Функционалността е сравнително проста, особено за приложения, които изискват по-сложни задачи. Поддържа се само CPU изчисления, което може да ограничи подобренията в производителността в ситуации, изискващи значителни изчислителни ресурси.

LanceDB

Сайт:Входът към хиперлинк е видим.

LanceDB е векторна база данни с отворен код, предназначена за мултимодални AI данни за съхранение, управление, заявки и извличане на мащабни мултимодални вграждания на данни. Ядрото ѝ е написано на Rust и е изградено върху Lance, колонен формат за данни, който оптимизира високоскоростен случаен достъп и управление на AI набори от данни като вектори, документи и изображения. Той е подходящ за различни AI приложения, които трябва да обработват високоизмерни векторни данни, като разпознаване на изображения, обработка на естествен език, системи за препоръки и др. LanceDB предлага два режима: вградени и облачно хоствани услуги.

Предимства: LanceDB премахва нуждата от управление на сървъри, намалявайки разходите за експлоатация и транспорт на разработчиците и подобрявайки ефективността на разработката. Той е оптимизиран за мултимодални данни и поддържа различни типове данни като изображения, текст и аудио, подобрявайки ефективността на базата данни при обработка на сложни данни. Той предоставя удобен API интерфейс и инструменти за визуализация, позволявайки на разработчиците лесно да интегрират и използват бази данни.
Недостатъци: Ще бъде пусната едва през 2023 г., което е много нова база данни и не е достатъчно зряла по отношение на развитието на функциите и функционирането на общността.

PGVector

Сайт:Входът към хиперлинк е видим.

PGVector е разширение, базирано на PostgreSQL, предназначено да предоставя мощни възможности за съхранение и заявки за вектори. Използва език C за реализиране на различни видове векторни данни и алгоритми и може ефективно да съхранява и заявява AI вграждания, изразени във вектори. PGVector поддържа прецизно и приблизително търсене на най-близки съседи, позволявайки бърз достъп до подобни данни в пространство с големи измерения. Той също така поддържа различни алгоритми за векторно изчисление и типове данни, като L2 разстояние, вътрешно произведение и косинусово разстояние, наред с други. Подходящо е за ситуации, в които векторната функция за търсене не е ядрото на системата или проектът се стартира бързо в ранен етап.

Плюсове: PGVector се интегрира безпроблемно в съществуващите бази данни на PostgreSQL, позволявайки на потребителите да започнат да използват възможности за векторно търсене без миграция на съществуващи бази данни. Тъй като е плъгин за PostgreSQL, PGVector наследява неговата надеждност и устойчивост с помощта на дългосрочната разработка и оптимизация на PostgreSQL, като същевременно подобрява обработката на векторизация.
Недостатъци: В сравнение със специализираните векторни бази данни, оптимизацията на производителността и използването на ресурси е леко недостатъчна.

Qdrant

Сайт:Входът към хиперлинк е видим.

Qdrant е векторна база данни с отворен код и услуга, хоствана в облака, стартирана през 2021 г. и предназначена за приложения с изкуствен интелект от следващо поколение. Удобни API са предоставени за съхранение, търсене и управление на точки (т.е. вектори) с допълнителни полезни товари за разширяване на поддръжката на филтриране. Множеството типове индекси, включително Payload индекси, пълнотекстови индекси и векторни индекси, му позволяват ефективно да обработва високоизмерни данни. Освен това Qdrant използва собствен алгоритъм за HNSW за бързи и точни търсения и позволява филтриране на резултати въз основа на релевантни векторни полезни товари. Тези функции правят Qdrant полезен за невронни мрежи или семантично съвпадение, многостранно търсене и други приложения. Силата на Qdrant се крие в неговите семантични функции за търсене и съвпадение по сходство, които улесняват реализирането на бизнес сценарии като търсене по изображения, глас и видео, както и системи за препоръки.

Плюсове: Отлична документация, която помага на разработчиците лесно да започнат работа с Docker. Тя е изцяло изградена на Rust и предлага API-та, които разработчиците могат да използват чрез своите Rust, Python и Golang клиенти, които са най-популярните езици за бекенд разработчици днес. Qdrant поддържа различни стратегии за оптимизация, като оптимизация на индекси и оптимизация на заявки. Той също така поддържа разпределено внедряване и хоризонтално мащабиране, за да отговори на нуждите на мащабната обработка на данни.
Минуси: Проектът е сравнително нов и няма достатъчно време за валидиране. Когато отговаря на растежа на бизнес обема, той може да се мащабира хоризонтално само на ниво обслужване. Поддържа се само статично шардинг. Според доклада на Zilliz, с нарастването на броя на неструктурираните елементи в векторните бази данни, обемът на съхраняваните данни е голям и ефективността на заявките може да бъде засегната.

Милвус/Зилиз Клауд

Уебсайт на Milvus:Входът към хиперлинк е видим.
Уебсайт на Zilliz:Входът към хиперлинк е видим.

Milvus е отворена чисто векторна база данни от 2019 г., изградена върху добре познати векторни търсещи библиотеки като FAISS, Annoy и HNSW, оптимизирана за сценарии, изискващи бързи търсения по сходство. Zilliz Cloud е облачно нативна векторна база данни, разработена на базата на Milvus, с цел да осигури по-удобни и високопроизводителни възможности за управление и мащабиране. Накратко, Zilliz е комерсиална версия на облачния хостинг на Milvus, който също е по-успешен бизнес модел в областта на базите данни.

Плюсове: Поради дългогодишното си съществуване в екосистемата на векторните бази данни, базата данни е много зряла и разполага с голям брой алгоритми. Има много опции за векторно индексиране, а системата е изградена от нулата в Golang за максимална мащабируемост. Към 2023 г. това е единственият масов доставчик, който предлага жизнеспособна реализация на DiskANN, която се счита за най-ефективното векторно индексиране на диска.
Минуси: Milvus изглежда като решение, което се фокусира изцяло върху мащабируемостта – той е силно мащабируем чрез комбинация от проксита, балансьори на натоварването, брокери на съобщения, Kafka и Kubernetes 7, което прави цялата система много сложна и ресурсоемка. Клиентските API-та, като Python, също не са толкова четливи или интуитивни, колкото по-новите бази данни като Weaviate и Qdrant, които обикновено са по-фокусирани върху преживяването на разработчиците. Milvus е създаден с идеята за стрийминг на данни към векторни индекси за огромна мащабируемост, и в много случаи Milvus изглежда малко прекалено, когато количеството данни не е твърде голямо. За по-статични и редки големи ситуации, алтернативи като Qdrant или Weaviate може да са по-евтини и да стартират по-бързо в производство.

друг

Redis:Входът към хиперлинк е видим.
Шишарка:Входът към хиперлинк е видим.
Тъкане:Входът към хиперлинк е видим.
ФАЙС:Входът към хиперлинк е видим.、Входът към хиперлинк е видим.
Elasticsearch:Входът към хиперлинк е видим.
SQL Server:Входът към хиперлинк е видим.

Препратка:
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.

【AI】(14) Кратко въведение в отворените векторни бази данни

Свързани публикации

Разгледани секции