Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 1009|Відповідь: 0

[ШІ] (13) Короткий вступ до векторної схожості та відстані

[Копіювати посилання]
Опубліковано 2025-3-21 13:37:09 | | | |
Вимоги: Минулого разу, коли я писав статтю про вибір моделі вкладення та отримання вектора, який алгоритм слід використовувати для розрахунку векторної схожості після виклику моделі вкладення, щоб отримати значення вектора і зберегти його у векторній базі даних?

вектор

У лінійній алгебрі вектори часто визначаються у більш абстрактному векторному просторі (також відомому як лінійний простір). Вектори — це основні будівельні блоки у векторному просторі.


(Багато стрілок позначають багато векторів)

Векторна схожість

Деякі методи розрахунку векторної схожості:

  • Евклідова відстань
  • Косинусна схожість
  • Коефіцієнт кореляції Пірсона (Пірсон)
  • Скоригований косинус
  • Дистанція Гаммінг
  • Манхеттенська відстань
  • Дистанція Чебишева
  • Евклідова відстань


Косинусна схожість

Косинусна схожість вимірює подібність між двома векторами, вимірюючи косинусне значення кута між ними. Значення косинуса кута 0 градусів дорівнює 1, тоді як значення косинуса будь-якого іншого кута не перевищує 1; І його мінімальне значення — -1. Отже, косинусне значення кута між двома векторами визначає, чи вказують два вектори приблизно в одному напрямку. Коли два вектори мають однакове вказування, значення косинусної схожості дорівнює 1; Коли кут між двома векторами дорівнює 90°, значення косинусної схожості дорівнює 0. Коли два вектори вказують у протилежних напрямках, значення косинусної подібності дорівнює -1. Цей результат не залежить від довжини вектора, лише від напрямку його вказівки. Косинусна схожість зазвичай використовується в додатних просторах, тому значення знаходиться між -1 і 1.

Косинусна схожість використовує значення косинуса кута між двома векторами у векторному просторі як величину різниці між двома особами. Чим ближче значення косинуса до 1, тим ближчий кут до 0 градусів, тобто тим більш схожими є два вектори, що називається «косинусною схожістю».



Коефіцієнт кореляції Пірсона

Маючи дві випадкові величини X і Y, коефіцієнт кореляції Пірсона можна використати для вимірювання їхньої кореляції, використовуючи таку формулу:



Коефіцієнт Жаккара

Припустимо, що існує дві множини X і Y (зверніть увагу, що вони тут не є векторами), формула для обчислення має вигляд:



Крапковий добуток

Кількісний добуток, також відомий як скалярний добуток і крапковий добуток, називається внутрішнім добутком у евклідовому просторі, і відповідні елементи множаться та додаються, і результатом є скалярна величина (тобто число). Вона стосується бінарної операції, яка приймає два вектори на дійсному числі R і повертає дійсний числовий скаляр. Це стандартний внутрішній добуток евклідового простору.

Поширені відстані

Мінковська дистанція

Відстань Мінковського — це узагальнений вираз формул множинного вимірювання відстані, коли p=1, дистаном Мінковського — це відстань Манхеттена; Коли p=2, Мінковський Дистан — евклідова відстань; Мінковський Дістан має форму межі відстані Чебишева.



Манхеттенська відстань



Евклідова відстань



Дистанція Чебишева



Дистанція Гаммінг

У теорії інформації відстань Геммінга між двома рівними струнами — це кількість символів у різних позиціях, що відповідають двом рядкам. Припустимо, що є два рядки: x=[x1,x2,...,xn] та y=[y1,y2,...,yn], тоді відстань між ними дорівнює:



де II позначає індикативну функцію, обидві дорівнюють 1 для однієї й тієї ж особи, інакше це 0.

KL Дивергенція

Маючи випадкову величину X і дві ймовірнісні розподіли P і Q, дивергенцію KL можна використати для вимірювання різниці між цими розподілами за такою формулою:




зведення

Відстань добутку Pip та косинусна схожість часто використовуються для вимірювання схожості векторних або текстових даних。 Він головним чином використовується для вимірювання векторної схожості, наприклад, схожості документів у текстовому майнінгу та обробці природної мови, а також для пошуку інформації, рекомендаційних систем та інших сферах. Якщо ви використовуєте сучасну модель вбудовування, таку як Sentence-BERT або інші попередньо навчені моделі, стандартний вихід зазвичай нормалізований, тому "Накопичення кратокЦе найкращий варіант.

Посилання:

Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.




Попередній:Створіть простий консольний проєкт Maven
Наступний:【AI】(14) Короткий вступ до відкритих векторних баз даних
Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com