Косинусное сходство

TL;DR

  • Показывает, насколько два вектора “смотрят в одну сторону”.
  • Игнорирует длину (норму) векторов, поэтому подходит для сравнения эмбеддингов.

Core idea

Косинусное сходство — базовая мера семантической близости в векторном пространстве: чем ближе значение к (1), тем ближе смыслы; около (0) — связи почти нет.

When to use / When not to use

  • Use: поиск похожих текстов/документов по эмбеддингам (retrieval для RAG), сравнение смысловой близости.
  • Not: когда норма вектора несёт смысл и её нельзя “выкинуть”, либо когда доменная метрика определена иначе.

Example (1)

  • “Почти одинаковые по смыслу” фрагменты обычно дают cosine similarity близко к (1).

Косинусное сходство

Косинусное сходство - главная мера близости в этом пространстве. Оно показывает, насколько векторы направлены в одну сторону, игнорируя их длину. Два слова с косинусным сходством, близким к 1, – практически синонимы, близким к 0 – никак не связаны. Косинус принимает значение 1 нимы, близким к 0 – никак не связаны. Косинус принимает значение 1 для угла в 0 градусов и 0 для прямого угла (90 градусов), поэтому косинусное сходство так сходство так удобно.» (Душкин, 2025, p. 50) (pdf)