theme: orange
本文正在參加「金石計劃」
Embedding模型在許多應(yīng)用場景中都有廣泛的應(yīng)用。在OpenAI中,文本嵌入技術(shù)主要用于衡量文本字符串之間的相關(guān)性。
什么是Embedding
嵌入(Embeddings)是一種將離散變量表示為連續(xù)向量的方法。它在機(jī)器學(xué)習(xí)中起到了不可或缺的作用。例如,在機(jī)器翻譯中的詞嵌入和分類變量中的實體嵌入都是嵌入的成功應(yīng)用。
嵌入的本質(zhì)是“壓縮”,用較低維度的k維特征去描述有冗余信息的較高維度的n維特征,也可以叫用較低維度的k維空間去描述較高維度的n維空間。在思想上,與線性代數(shù)的主成分分析PCA,奇異值分解SVD異曲同工,事實上,PCA和SVD也可以叫做Embedding方法。
OpenAI 早先提供了第一代模型(在模型ID中用-001表示),包括text-similarity-davinci-001和davinci-001嵌入等等,而后在2022年12月將嵌入模型更新為text-embedding-ada-002(在模型ID中用-002表示)。新模型擁有較小的嵌入大小,新嵌入只有1536維,并且提供:
- 價格降低了90%-99.8%
- 嵌入維度大小減少了1/8,降低了向量數(shù)據(jù)庫成本
- 端點統(tǒng)一,便于使用
- 在文本搜索、代碼搜索和句子相似性方面具有最先進(jìn)的性能
- 上下文窗口從2048增加到8192
總的來說,建議對幾乎所有用例使用text-embedding-ada-002。它更好,更便宜,更簡單使用。
Embedding 應(yīng)用場景
Embedding模型在許多應(yīng)用場景中都有廣泛的應(yīng)用。在OpenAI中,文本嵌入技術(shù)主要用于衡量文本字符串之間的相關(guān)性。以下是一些常見的應(yīng)用場景:?
- 搜索(Search):根據(jù)與查詢字符串的相關(guān)性對搜索結(jié)果進(jìn)行排序。
- 聚類(Clustering):將文本字符串按照相似性進(jìn)行分組。
- 推薦(Recommendations):推薦與給定文本字符串相關(guān)的項目。
- 異常檢測(Anomaly Detection):識別與其他文本字符串相關(guān)性較低的異常值。
- 多樣性測量(Diversity Measurement):分析文本字符串之間相似性的分布。
- 分類(Classification):根據(jù)文本字符串與各標(biāo)簽的相似性進(jìn)行分類。?
嵌入模型將文本字符串轉(zhuǎn)換為浮點數(shù)向量(列表),向量之間的距離衡量它們的相關(guān)性。較小的距離表示高相關(guān)性,而較大的距離表示低相關(guān)性。?
需要特別注意的是,Embedding模型是基于包含一些關(guān)于現(xiàn)實世界事件的信息的數(shù)據(jù)集進(jìn)行訓(xùn)練的,直到2020年8月為止。您需要處理涉及最近事件的任務(wù),模型可能無法表現(xiàn)出最佳效果。
下面是一種常見的應(yīng)用場景,將知識數(shù)據(jù)通過嵌入模型查詢出向量,并映射保存,然后在應(yīng)用時將問題也轉(zhuǎn)換成嵌入式,通過相似度算法(比如余弦相似度)對比前期保存的向量,找出TopN的數(shù)據(jù),即得到與問題最關(guān)聯(lián)的內(nèi)容。
文章來源:http://www.zghlxwxcb.cn/news/detail-442459.html
接下來的文章,我將通過代碼構(gòu)建一個基于OpenAI 嵌入(Embeddings)模型實現(xiàn)的應(yīng)用場景,請持續(xù)關(guān)注!文章來源地址http://www.zghlxwxcb.cn/news/detail-442459.html
到了這里,關(guān)于OpenAI Embedding:基于人工智能的搜索新篇章的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!