1. Embedding技術演進全景解析
1.1 稀疏向量:關鍵詞匹配的基石
1.1.1 問:請說明稀疏向量的適用場景及技術特點
答:稀疏向量適用于關鍵詞精確匹配場景,典型實現包括TF-IDF、BM25和SPLADE。其技術特征表現為50,000+高維向量且95%以上位置為零值,通過余弦或點積計算相似度時僅激活維度參與運算。核心優勢在于關鍵詞命中時精度極高且具備強可解釋性,能直接追溯具體詞匯的得分貢獻。典型案例包括新聞版權去重場景,編輯使用5個核心實體詞作為查詢條件,通過BM25檢索可在10毫秒內返回疑似抄襲文章,準確率達到98%。
1.1.2 指導意見
面試考察重點在于對技術原理與場景匹配的深度理解。建議采用"技術特征-適用場景-局限性"三維應答框架:首先明確稀疏向量基于詞頻統計的本質特征,強調其依賴精確詞匯匹配的特性;接著列舉新聞去重、專利檢索等需要精確術語匹配的場景;最后必須指出對同義詞和句式變化的適應性缺陷。可補充說明現代系統常采用稀疏與稠密向量結合的混合方案,既保證召回率又維持精度。
1.2 稠密向量:語義理解的核心突破
1.2.1 問:稠密向量如何解決語義匹配問題?請結合實例說明
答:稠密向量通過神經網絡將文本映射到256-1536維連續向量空間,全部維度均為非零值,使用余弦距離計算相似度。其突破性在于捕捉語義層面的關聯性,包括同義詞替換("手機"與"移動電話")、