Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 1009|Ответ: 0

[ИИ] (13) Краткое введение в векторное сходство и расстояние

[Скопировать ссылку]
Опубликовано 21.03.2025 13:37:09 | | | |
Требования: В прошлый раз, когда я писал статью о выборе модели вложения и получении вектора, какой алгоритм следует использовать для вычисления векторного сходства после вызова модели вложения, чтобы получить значение вектора и хранить его в векторной базе данных?

вектор

В линейной алгебре векторы часто определяются в более абстрактном векторном пространстве (также известном как линейное пространство). Векторы — это базовые строительные блоки в векторном пространстве.


(Множество стрелок обозначают множество векторов)

Векторное сходство

Некоторые методы вычисления векторного сходства:

  • Евклидово расстояние
  • Косинусное сходство
  • Коэффициент корреляции Пирсона (Пирсон)
  • Скорректированный косинус
  • Расстояние Хэмминга
  • Манхэттенское расстояние
  • Чебышевская дистанция
  • Евклидово расстояние


Косинусное сходство

Косинусное сходство измеряет сходство между двумя векторами, измеряя косинусное значение угла между ними. Косинус угла 0 градусов равно 1, тогда как косинус любого другого угла не превышает 1; И его минимальное значение — -1. Таким образом, косинусное значение угла между двумя векторами определяет, указывают ли они примерно в одном направлении. Когда два вектора имеют одинаковую направленность, значение сходства косинуса равно 1; Когда угол между двумя векторами равен 90°, значение сходства косинуса равно 0. Когда два вектора указывают в противоположных направлениях, значение косинусного сходства равно -1. Этот результат не зависит от длины вектора, только от направления его направления. Косинусное сходство обычно используется в положительных пространствах, поэтому задаваемое значение находится между -1 и 1.

Косинусное сходство использует косинусное значение угла между двумя векторами в векторном пространстве как величину разницы между двумя индивидами. Чем ближе значение косинуса к 1, тем ближе угол к 0 градусов, то есть тем похожи два вектора, что называется «косинусной подобностью».



Коэффициент корреляции Пирсона

Имея две случайные величины X и Y, коэффициент корреляции Пирсона можно использовать для измерения их коррелирования, используя следующую формулу:



Коэффициент Жаккара

Предположим, что существует два множества X и Y (обратите внимание, что оба здесь не являются векторами), формула для вычислений выглядит так:



Точечное произведение

Количественное произведение, также известное как скалярное произведение и точечное произведение, называется внутренним произведением в евклидовом пространстве, соответствующие элементы умножаются и складываются, и в результате получается скалярная величина (то есть число). Она относится к бинарной операции, которая принимает два вектора на вещественном числе R и возвращает вещественный численный скаляр. Это стандартное внутреннее произведение евклидового пространства.

Распространённые расстояния

Расстояние Минковски

Расстояние Минковского — это обобщённое выражение множественных формул измерения расстояний, при условии p=1, расстояние Минковского — это расстояние Манхэттена; Когда p=2, расстояние Минковского — это евклидово расстояние; Минковский Дистан принимает форму предела расстояния Чебышева.



Манхэттенское расстояние



Евклидово расстояние



Чебышевская дистанция



Расстояние Хэмминга

В теории информации расстояние Хемма между двумя равными струнами — это количество символов, расположенных в разных позициях, соответствующих двум струнам. Пусть есть две строки: x=[x1,x2,...,xn] и y=[y1,y2,...,yn], то расстояние между ними равно:



где II представляет индикативную функцию, обе равны 1 для одного и того же значения, иначе это равно 0.

KL Дивергенция

Имея случайную величину X и два вероятностных распределения P и Q, дивергенция KL может использоваться для измерения разницы между двумя распределениями по следующей формуле:




сводка

Для измерения сходства в векторных или текстовых данных часто используются расстояние по произведению пип-произведения и косинусное сходство。 Он в основном используется для измерения векторного сходства, например, сходства документов в текстовом майнинге и обработке естественного языка, а также для поиска информации, рекомендательных систем и других областях. Если вы используете современную модель встраивания, такую как Sentence-BERT или другие предобученные модели, выход по умолчанию обычно нормализован, так что "Накопление точекЭто предпочтительный вариант.

Ссылка:

Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден.




Предыдущий:Создайте простой консольный проект Maven
Следующий:【AI】(14) Краткое введение в векторные базы данных с открытым исходным кодом
Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com