Требования: В прошлый раз, когда я писал статью о выборе модели вложения и получении вектора, какой алгоритм следует использовать для вычисления векторного сходства после вызова модели вложения, чтобы получить значение вектора и хранить его в векторной базе данных?
вектор
В линейной алгебре векторы часто определяются в более абстрактном векторном пространстве (также известном как линейное пространство). Векторы — это базовые строительные блоки в векторном пространстве.
(Множество стрелок обозначают множество векторов)
Векторное сходство
Некоторые методы вычисления векторного сходства:
- Евклидово расстояние
- Косинусное сходство
- Коэффициент корреляции Пирсона (Пирсон)
- Скорректированный косинус
- Расстояние Хэмминга
- Манхэттенское расстояние
- Чебышевская дистанция
- Евклидово расстояние
Косинусное сходство
Косинусное сходство измеряет сходство между двумя векторами, измеряя косинусное значение угла между ними. Косинус угла 0 градусов равно 1, тогда как косинус любого другого угла не превышает 1; И его минимальное значение — -1. Таким образом, косинусное значение угла между двумя векторами определяет, указывают ли они примерно в одном направлении. Когда два вектора имеют одинаковую направленность, значение сходства косинуса равно 1; Когда угол между двумя векторами равен 90°, значение сходства косинуса равно 0. Когда два вектора указывают в противоположных направлениях, значение косинусного сходства равно -1. Этот результат не зависит от длины вектора, только от направления его направления. Косинусное сходство обычно используется в положительных пространствах, поэтому задаваемое значение находится между -1 и 1.
Косинусное сходство использует косинусное значение угла между двумя векторами в векторном пространстве как величину разницы между двумя индивидами. Чем ближе значение косинуса к 1, тем ближе угол к 0 градусов, то есть тем похожи два вектора, что называется «косинусной подобностью».
Коэффициент корреляции Пирсона
Имея две случайные величины X и Y, коэффициент корреляции Пирсона можно использовать для измерения их коррелирования, используя следующую формулу:
Коэффициент Жаккара
Предположим, что существует два множества X и Y (обратите внимание, что оба здесь не являются векторами), формула для вычислений выглядит так:
Точечное произведение
Количественное произведение, также известное как скалярное произведение и точечное произведение, называется внутренним произведением в евклидовом пространстве, соответствующие элементы умножаются и складываются, и в результате получается скалярная величина (то есть число). Она относится к бинарной операции, которая принимает два вектора на вещественном числе R и возвращает вещественный численный скаляр. Это стандартное внутреннее произведение евклидового пространства.
Распространённые расстояния
Расстояние Минковски
Расстояние Минковского — это обобщённое выражение множественных формул измерения расстояний, при условии p=1, расстояние Минковского — это расстояние Манхэттена; Когда p=2, расстояние Минковского — это евклидово расстояние; Минковский Дистан принимает форму предела расстояния Чебышева.
Манхэттенское расстояние
Евклидово расстояние
Чебышевская дистанция
Расстояние Хэмминга
В теории информации расстояние Хемма между двумя равными струнами — это количество символов, расположенных в разных позициях, соответствующих двум струнам. Пусть есть две строки: x=[x1,x2,...,xn] и y=[y1,y2,...,yn], то расстояние между ними равно:
где II представляет индикативную функцию, обе равны 1 для одного и того же значения, иначе это равно 0.
KL Дивергенция
Имея случайную величину X и два вероятностных распределения P и Q, дивергенция KL может использоваться для измерения разницы между двумя распределениями по следующей формуле:
сводка
Для измерения сходства в векторных или текстовых данных часто используются расстояние по произведению пип-произведения и косинусное сходство。 Он в основном используется для измерения векторного сходства, например, сходства документов в текстовом майнинге и обработке естественного языка, а также для поиска информации, рекомендательных систем и других областях. Если вы используете современную модель встраивания, такую как Sentence-BERT или другие предобученные модели, выход по умолчанию обычно нормализован, так что "Накопление точекЭто предпочтительный вариант.
Ссылка:
Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден. |