- Принцип единообразия. Любой объект будь то короткое слово или длинный абзац текста кодируются в вектор одинаковой длины, что позволяет сравнивать между собой и искать сходство любых двух текстовых фрагментов.
- Принцип плотности. Векторные представления - это “плотные” векторы, в которых каждая координата может быть любым вещественным числом. В отличие от разреженных представлений, когда большинство координат равны нулю, здесь каждое измерение несёт информацию о смысле.
- Прямая цитата. Пока сам не очень понимаю.
- Принцип контекстуальности. Модели эмбеддеры умеют понимать контекст вокруг фрагмента. Таким образом “ключ” когда он от замка и “ключ” когда он родник получат совсем разные векторы.
- Принцип композиционности. Векторы можно комбинировать для создания представлений более сложных конструкций. Вектор предложения может быть получен усреднением векторов слов или более сложными способами, учитывающими синтаксис и семантику.
- Принцип стабильности. Векторные представления должны быть устойчивыми - небольшие изменения в тексте не должны кардинально менять вектор. Опечатки, синонимы, перефразирование должны давать похожие векторы для сохранения смысловой целостности.