Изисквания: Последния път, когато писах статия за избор на модел за вграждане и получаване на вектор, кой алгоритъм трябва да се използва за изчисляване на векторното сходство след извикване на модела на вграждане, за да се получи стойността на вектора и да се съхранява във векторната база данни?
вектор
В линейната алгебра векторите често се дефинират в по-абстрактно векторно пространство (известно още като линейно пространство). Векторите са основните градивни елементи във векторното пространство.
(Много стрелки представят много вектори)
Векторно сходство
Някои методи за изчисляване на векторно сходство:
- Евклидово разстояние
- Косинусово сходство
- Коефициент на корелация на Пиърсън (Пиърсън)
- Коригиран косинус
- Разстояние Хаминг
- Манхатън Дистанция
- Разстоянието Чебишев
- Евклидово разстояние
Косинусово сходство
Косинусовата прилика измерва сходството между два вектора чрез измерване на косинусовата стойност на ъгъла между тях. Косинусовата стойност на ъгъла от 0 градуса е 1, докато косинусът на друг ъгъл не е по-голям от 1; Минималната му стойност е -1. Така косинусовата стойност на ъгъла между двата вектора определя дали двата вектора сочат приблизително в една и съща посока. Когато два вектора имат еднакво посочване, стойността на косинусово сходство е 1; Когато ъгълът между двата вектора е 90°, стойността на косинусово сходство е 0. Когато два вектора сочат в противоположни посоки, стойността на косинусово сходство е -1. Този резултат е независим от дължината на вектора, а само от посоката на насочване на вектора. Косинусното сходство обикновено се използва в положителни пространства, така че дадената стойност е между -1 и 1.
Косинусното сходство използва косинусовата стойност на ъгъла между два вектора във векторното пространство като големина на разликата между два индивида. Колкото по-близо е стойността на косинуса до 1, толкова по-близо е ъгълът до 0 градуса, тоест толкова по-сходни са двата вектора, което се нарича "косинусово сходство".
Коефициент на корелация на Пиърсън
Дадени две случайни променливи X и Y, коефициентът на корелация на Пиърсън може да се използва за измерване на тяхната корелация, използвайки следната формула:
Коефициент на Жакар
Да предположим, че има две множества X и Y (имайте предвид, че двете тук не са вектори), формулата за изчисление е:
Точково произведение
Количественото произведение, известно още като скаларно произведение и скаларно произведение, се нарича вътрешен продукт в евклидовото пространство, а съответните елементи се умножават и събират, като резултатът е скаларна величина (т.е. число). Той се отнася до двоична операция, която приема два вектора върху реалното число R и връща реален числов скалар. Това е стандартното вътрешно произведение на евклидовото пространство.
Често срещани разстояния
Минковски дистанция
Минковски дистанция е обобщено изразяване на формули за измерване на множество разстояния, когато p=1, Минковски дистанци е Манхатънското разстояние; Когато p=2, Минковски дистанция е евклидовото разстояние; Минковски дистанци приема формата на границата на разстоянието на Чебишев.
Манхатън Дистанция
Евклидово разстояние
Разстоянието Чебишев
Разстояние Хаминг
В теорията на информацията разстоянието на Хеминг между две равни струни е броят на символите на различни позиции, съответстващи на двата струна. Да предположим, че има два струна: x=[x1,x2,...,xn] и y=[y1,y2,...,yn], тогава разстоянието между тях е:
където II представлява индикативната функция, и двете са 1 за едно и също, иначе е 0.
KL Дивергенция
Дадена е случайната променлива X и двете вероятностни разпределения P и Q, KL дивергенцията може да се използва за измерване на разликата между двете разпределения чрез следната формула:
резюме
Разстоянието на произведението на пип и косинусното сходство често се използват за измерване на сходство във векторни или текстови данни。 Той се използва основно за измерване на векторно сходство, като например сходство на документи при текстово добиване и обработка на естествен език, или при търсене на информация, системи за препоръки и други области. Ако използвате модерен модел за вграждане като Sentence-BERT или други предварително обучени модели, стандартният изход обикновено е нормализиран, така че "Натрупване на точкиТова е предпочитаният вариант.
Препратка:
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим. |