Фундаментальные принципы работы с векторами

  1. Принцип единообразия. Любой объект будь то короткое слово или длинный абзац текста кодируются в вектор одинаковой длины, что позволяет сравнивать между собой и искать сходство любых двух текстовых фрагментов.
  2. Принцип плотности. Векторные представления - это “плотные” векторы, в которых каждая координата может быть любым вещественным числом. В отличие от разреженных представлений, когда большинство координат равны нулю, здесь каждое измерение несёт информацию о смысле.
    • Прямая цитата. Пока сам не очень понимаю.
  3. Принцип контекстуальности. Модели эмбеддеры умеют понимать контекст вокруг фрагмента. Таким образом “ключ” когда он от замка и “ключ” когда он родник получат совсем разные векторы.
  4. Принцип композиционности. Векторы можно комбинировать для создания представлений более сложных конструкций. Вектор предложения может быть получен усреднением векторов слов или более сложными способами, учитывающими синтаксис и семантику.
  5. Принцип стабильности. Векторные представления должны быть устойчивыми - небольшие изменения в тексте не должны кардинально менять вектор. Опечатки, синонимы, перефразирование должны давать похожие векторы для сохранения смысловой целостности.