一句话定义：Embedding 是把万物放进同一个坐标系

你可以将 Embedding 理解为一种语义定位服务。无论是词汇、句子、图片还是音视频，经过 Embedding Model 处理后，都会被映射到高维空间中的一个特定点。

这个点的坐标，即表现为一串数字，称为向量 (Vector)。

其核心逻辑在于：Embedding 将万物映射到坐标系中，空间距离越近，语义含义越相似。

这种机制将模糊的“语义”转化为了精确的空间几何关系。

为什么需要 Embedding：计算机不认识“猫”，但认识坐标

人类识别“猫”是通过联想，而计算机原生只识别：

这些形式并不包含语义。Embedding 的作用是将“形式”转化为可计算的“位置”。 一旦内容拥有了坐标，计算机就可以通过纯数学手段实现以下功能：

Embedding 让“理解”变成了“计算”，让语义变成了距离。

Embedding 的输出是一组浮点数序列，例如。它不是人类可读的答案，而是系统用于相似度计算的底层底座。

向量中数字的个数即为维度。常见的维度包括 768、1024、1536 或 3072。

常见的做法是将向量长度缩放到 1（即 范数归一化）。归一化后的向量在计算时，系统将不再关注向量的“绝对长度”，而只关注其在空间中的指向方向。这对余弦相似度计算至关重要。

在工程实践中，你会遇到三种主要的度量方式：

• 欧氏距离 (L2 Distance)：衡量两点间的直线距离。数值越小，内容越接近。
• 余弦相似度 (Cosine Similarity)：衡量两个向量的夹角。夹角越小，相似度越高。它对长度不敏感，只关注方向，是目前最通用的方案。
• 点积 (Dot Product)：同时受方向和长度影响。注意：如果向量已经过归一化，点积在数学上等同于余弦相似度。 许多高性能检索模型在训练时使用点积。

关键原则：相似度算法必须与模型训练时的目标函数保持一致。如果模型基于 Cosine 训练，而你在线上使用 L2 检索，效果会大幅下降。

语义空间不是单一的。根据训练目标的不同，Embedding 的“偏好”也不同：

在 RAG（检索增强生成） 场景下，我们通常更追求事实/答案相关性。因此，Embedding 空间不是天然形成的，而是被训练数据和目标函数塑形而成的。

虽然我们无法想象 1024 维的空间，但可以通过 t-SNE 或 UMAP 等降维工具将其投影到二维平面。你会看到：

语义星系的特征是：同类内容聚集，异类内容疏离。这种结构是语义搜索能够成立的物理基础。

• 误区 1：把 Embedding 当成存储事实的“知识库”
Embedding 只是一张地图索引。真正的知识必须存储在原始文本或数据库中。向量库只是帮你找到了那张地图上的坐标。
• 误区 2：盲目追求高维度
1536 维的模型未必比 768 维的模型更适合你的业务。维度的增加会带来维度灾难，导致检索效率呈指数级下降。应通过 Benchmark（基准测试） 选择最适合的维度。
• 误区 3：忽视切片（Chunking）策略
Embedding 的效果极大程度上取决于你如何“切分”文档。如果一段文本太长，其语义会变得稀释且模糊，导致向量漂移，从而检索不到准确内容。