Изисквания: Когато предприятията изграждат база знания по RAG, е важно да се избере подходящият модел за вграждане, тъй като производителността на вграждането определя точността на извличането и косвено определя надеждността на изхода на големи модели. Често използвани модели: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Защо трябва да се вгражда модел?
Компютрите могат да обработват само числови операции и не могат директно да разбират нечислови форми на данни като естествен език, текст, изображения и аудио. Затова трябва да "векторизираме", за да превърнем тези данни в числови форми, които компютрите могат да разбират и обработват, тоест да ги картографират в математически векторни представяния. Този процес обикновено се постига с помощта на вграждани модели, които могат ефективно да улавят семантична информация и вътрешни структури в данните.
Ролята на моделите за вграждане е не само да преобразуват дискретни данни (като думи, фрагменти от изображения или аудио фрагменти) в непрекъснати нискоразмерни вектори, но и да запазват семантичните връзки между данните във векторното пространство. Например, в обработката на естествен език, моделите за вграждане могат да генерират вектори на думи, правейки семантично сходни думи по-близки една до друга във векторното пространство. Това ефективно представяне позволява на компютрите да извършват сложни изчисления и анализи, базирани на тези вектори, като по този начин по-добре разбират и обработват сложни данни като текст, изображения или звуци.
Чрез вграждане на векторизацията на модела, компютрите не само могат ефективно да обработват мащабни данни, но и да демонстрират по-силни възможности за производителност и генерализация в различни задачи (като класификация, извличане, генериране и др.).
Оценка на вграден модел
За да се оцени качеството на вграден модел, трябва да има ясен набор от критерии. MTEB и C-MTEB често се използват за бенчмаркинг.
MTEB
Huggingface има стандарт за оценка MTEB (Massive Multilingual Text Embedding Benchmark), който е относително признат стандарт в индустрията и може да се използва като референтен ориентир. Той обхваща 8 задачи за вграждане, общо 58 набора от данни и 112 езика, което го прави най-пълния бенчмарк за вграждане на текст до момента.
Списък:Входът към хиперлинк е видим. GitHub адрес:Входът към хиперлинк е видим.
C-MTEB
C-MTEB е най-обширният китайски бенчмарк за оценка на семантични вектори, обхващащ 6 категории задачи за оценка (търсене, сортиране, сходство на изречения, разсъждение, класификация, клъстериране) и 35 набора от данни.
Доклади на C-MTEB:Входът към хиперлинк е видим. Кодове и класации:Входът към хиперлинк е видим.(Много адреси в интернет са стари)
|