Вимоги: Минулого разу, коли я писав статтю про вибір моделі вкладення та отримання вектора, який алгоритм слід використовувати для розрахунку векторної схожості після виклику моделі вкладення, щоб отримати значення вектора і зберегти його у векторній базі даних?
вектор
У лінійній алгебрі вектори часто визначаються у більш абстрактному векторному просторі (також відомому як лінійний простір). Вектори — це основні будівельні блоки у векторному просторі.
(Багато стрілок позначають багато векторів)
Векторна схожість
Деякі методи розрахунку векторної схожості:
- Евклідова відстань
- Косинусна схожість
- Коефіцієнт кореляції Пірсона (Пірсон)
- Скоригований косинус
- Дистанція Гаммінг
- Манхеттенська відстань
- Дистанція Чебишева
- Евклідова відстань
Косинусна схожість
Косинусна схожість вимірює подібність між двома векторами, вимірюючи косинусне значення кута між ними. Значення косинуса кута 0 градусів дорівнює 1, тоді як значення косинуса будь-якого іншого кута не перевищує 1; І його мінімальне значення — -1. Отже, косинусне значення кута між двома векторами визначає, чи вказують два вектори приблизно в одному напрямку. Коли два вектори мають однакове вказування, значення косинусної схожості дорівнює 1; Коли кут між двома векторами дорівнює 90°, значення косинусної схожості дорівнює 0. Коли два вектори вказують у протилежних напрямках, значення косинусної подібності дорівнює -1. Цей результат не залежить від довжини вектора, лише від напрямку його вказівки. Косинусна схожість зазвичай використовується в додатних просторах, тому значення знаходиться між -1 і 1.
Косинусна схожість використовує значення косинуса кута між двома векторами у векторному просторі як величину різниці між двома особами. Чим ближче значення косинуса до 1, тим ближчий кут до 0 градусів, тобто тим більш схожими є два вектори, що називається «косинусною схожістю».
Коефіцієнт кореляції Пірсона
Маючи дві випадкові величини X і Y, коефіцієнт кореляції Пірсона можна використати для вимірювання їхньої кореляції, використовуючи таку формулу:
Коефіцієнт Жаккара
Припустимо, що існує дві множини X і Y (зверніть увагу, що вони тут не є векторами), формула для обчислення має вигляд:
Крапковий добуток
Кількісний добуток, також відомий як скалярний добуток і крапковий добуток, називається внутрішнім добутком у евклідовому просторі, і відповідні елементи множаться та додаються, і результатом є скалярна величина (тобто число). Вона стосується бінарної операції, яка приймає два вектори на дійсному числі R і повертає дійсний числовий скаляр. Це стандартний внутрішній добуток евклідового простору.
Поширені відстані
Мінковська дистанція
Відстань Мінковського — це узагальнений вираз формул множинного вимірювання відстані, коли p=1, дистаном Мінковського — це відстань Манхеттена; Коли p=2, Мінковський Дистан — евклідова відстань; Мінковський Дістан має форму межі відстані Чебишева.
Манхеттенська відстань
Евклідова відстань
Дистанція Чебишева
Дистанція Гаммінг
У теорії інформації відстань Геммінга між двома рівними струнами — це кількість символів у різних позиціях, що відповідають двом рядкам. Припустимо, що є два рядки: x=[x1,x2,...,xn] та y=[y1,y2,...,yn], тоді відстань між ними дорівнює:
де II позначає індикативну функцію, обидві дорівнюють 1 для однієї й тієї ж особи, інакше це 0.
KL Дивергенція
Маючи випадкову величину X і дві ймовірнісні розподіли P і Q, дивергенцію KL можна використати для вимірювання різниці між цими розподілами за такою формулою:
зведення
Відстань добутку Pip та косинусна схожість часто використовуються для вимірювання схожості векторних або текстових даних。 Він головним чином використовується для вимірювання векторної схожості, наприклад, схожості документів у текстовому майнінгу та обробці природної мови, а також для пошуку інформації, рекомендаційних систем та інших сферах. Якщо ви використовуєте сучасну модель вбудовування, таку як Sentence-BERT або інші попередньо навчені моделі, стандартний вихід зазвичай нормалізований, тому "Накопичення кратокЦе найкращий варіант.
Посилання:
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно. |