终于看见了一个ChatGPT之后的新物种，如果你还没听说过元宝是什么，赶紧点击链接：https://yb.tencent.com/gp/i/hSAqMR8lCkra，下载元宝App，加入我的元宝派中，和我一起体验未来生活吧。

在Embedding Model 是什么？中我们建立了一个核心直觉：Embedding 是把内容映射到向量空间里的一个点，距离越近含义越像。这章我们要探讨更深层的逻辑：模型凭什么知道谁该靠近、谁该远离？

答案是：Embedding 不是“天然懂语义”，而是通过对比学习（Contrastive Learning）训练出来的。训练过程在不断通过数据告诉模型：

理解这套机制，你就能从“API 调用工程师”升级为“向量模型诊断专家”。

NLP 的大变革：Word Embedding 把“词”变成了坐标

在深度学习普及之前，计算机处理语言的方式是离散且孤立的：每个词对应一个独立的 ID，词与词之间在数学上没有距离概念（例如独热编码 One-hot Encoding）。

Word2Vec 等技术的革命性意义在于：它第一次让词语拥有了空间几何结构。

你可以这样理解：

这并非因为模型理解了生物学，而是因为它从海量语料库中观察到：“猫”和“狗”经常出现在相似的上下文中（例如周围常出现“宠物”、“喂食”、“毛发”等词）。

这一步意义巨大：语言不再只是枯燥的符号，而是变成了可以计算、可以度量的几何对象。

但早期词向量有一个天然限制：它无法直接处理变长的句子或段落，且无法解决多义词（如“苹果”在不同语境下的含义）的问题。

从词向量到句向量：为什么需要 Sentence/Passage Embedding

在 RAG 或语义搜索中，我们直接使用词向量会遇到两个致命问题：

问题 A：语义并非词汇的简单堆砌

“苹果总部在哪里？”和“Apple 的总部在什么地方？”。两句话词汇重合度不高，但查询意图（Intent） 完全一致。简单的词袋模型或词向量加权很容易被表面词汇的差异误导。

问题 B：无法处理上下文偏移（Context Shift）

“苹果发布会”中的“苹果”是科技公司；“我吃了一个苹果”中的“苹果”是水果。静态词向量（Static Embedding） 无法区分这种差异，而现代的 Sentence Embedding 能够根据上下文动态调整整句话的表示。

因此，现代检索模型的目标是：

在实际生产环境中，为了实现毫秒级检索，我们通常采用 Bi-encoder（双编码器） 架构。

Bi-encoder 的设计原则非常高效：

1. 解耦编码： 用编码器将 Query 映射为向量，用（通常是同一个）编码器将 Passage 映射为向量。
2. 向量匹配： 使用简单的数学函数（如余弦相似度）计算相关性。
3. 大规模检索： 利用向量数据库（如 Milvus, Pinecone）和 ANN（近似最近邻） 算法（如 HNSW, IVF），在数亿条数据中瞬间找到最接近的点。