目錄
一、合合信息acge模型獲MTEB中文榜單第一
二、MTEB與C-MTEB
三、Embedding模型的意義
四、合合信息acge模型
(一)acge模型特點
(二)acge模型功能
(三)acge模型優(yōu)勢
五、公司介紹
一、合合信息acge模型獲MTEB中文榜單第一
現(xiàn)階段,大語言模型的飛速發(fā)展吸引著社會各界的目光,背后支撐大型語言模型應(yīng)用落地的Embedding模型也成為業(yè)內(nèi)關(guān)注的焦點。近期,合合信息發(fā)布了文本向量化模型acge_text_embedding(簡稱“acge模型”),獲得MTEB中文榜單(C-MTEB)第一的成績。
圖1:C-MTEB榜單結(jié)果
二、MTEB與C-MTEB
MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的評估指標(biāo)的合集,是目前業(yè)內(nèi)評測文本向量模型性能的重要參考。對應(yīng)的C-MTEB則是專門針對中文文本向量的評測基準(zhǔn)。
C-MTEB被公認(rèn)為是目前業(yè)界最全面、最權(quán)威的中文語義向量評測基準(zhǔn)之一,涵蓋了分類、聚類、檢索、排序、文本相似度、STS等6個經(jīng)典任務(wù),共計35個數(shù)據(jù)集,為深度測試中文語義向量的全面性和可靠性提供了可靠的實驗平臺。
三、Embedding模型的意義
互聯(lián)網(wǎng)時代中,隨著信息量急劇膨脹,人們接觸信息的渠道不斷拓展,大量無關(guān)的信息已成為信息檢索的干擾項。Embedding模型通過理解查詢的深層含義和上下文,能夠顯著提高搜索和問答的質(zhì)量、效率和準(zhǔn)確性,讓搜索和問答引擎不再只是匹配文字,而是可以真正理解人的意圖。
Embedding模型能夠?qū)卧~、句子或圖像特征等高維的離散數(shù)據(jù)轉(zhuǎn)換為低維的連續(xù)向量,捕捉到數(shù)據(jù)的語義特征和關(guān)系,被廣泛應(yīng)用于搜索、推薦、問答、檢索增強生成、數(shù)據(jù)挖掘等領(lǐng)域。
“假設(shè)你需要了解如何在家中自制咖啡,可能會在搜索引擎中輸入‘家庭咖啡制作方法’。如果沒有Embedding模型,傳統(tǒng)的引擎會簡單地匹配包含關(guān)鍵詞的文章,提供一些表面相關(guān)的內(nèi)容而非實用的指南?!眻F(tuán)隊成員提到,借助Embedding模型,引擎便能更準(zhǔn)確地理解用戶意圖,從而提供包括但不限于選擇咖啡豆、磨豆技巧、不同的沖泡方法等更專業(yè)的內(nèi)容?!?/p>
圖2:embedding模型原理示意圖
四、合合信息acge模型
Embedding模型在當(dāng)前大模型實際落地應(yīng)用過程中扮演著至關(guān)重要的角色。為了更好地發(fā)揮大模型在應(yīng)用過程中的價值,合合信息技術(shù)團(tuán)隊重點從數(shù)據(jù)集、訓(xùn)練策略等方面針對Embedding模型進(jìn)行了優(yōu)化,打造了acge模型。技術(shù)人員構(gòu)造了大量的數(shù)據(jù)集,保證訓(xùn)練的質(zhì)量與場景覆蓋面;在模型訓(xùn)練方面,團(tuán)隊也引入多種有效的模型調(diào)優(yōu)技術(shù)。
(一)acge模型特點
據(jù)合合信息技術(shù)團(tuán)隊成員介紹,相比于傳統(tǒng)的預(yù)訓(xùn)練或微調(diào)垂直領(lǐng)域模型,acge模型支持在不同場景下構(gòu)建通用分類模型、提升長文檔信息抽取精度,且應(yīng)用成本相對較低,可幫助大模型在多個行業(yè)中快速創(chuàng)造價值,推動科技創(chuàng)新和產(chǎn)業(yè)升級,為構(gòu)建新質(zhì)生產(chǎn)力提供強有力的技術(shù)支持。
(二)acge模型功能
具體實踐上,為做好不同任務(wù)的針對性學(xué)習(xí),團(tuán)隊使用策略學(xué)習(xí)訓(xùn)練方式,顯著提升了檢索、聚類、排序等任務(wù)上的性能;引入持續(xù)學(xué)習(xí)訓(xùn)練方式,克服了神經(jīng)網(wǎng)絡(luò)存在災(zāi)難性遺忘的問題,使模型訓(xùn)練迭代能夠達(dá)到相對優(yōu)秀的收斂空間;運用MRL技術(shù),實現(xiàn)一次訓(xùn)練,獲取不同維度的表征。
(三)acge模型優(yōu)勢
與目前C-MTEB榜單上排名前五的開源模型相比,合合信息本次發(fā)布的acge模型較小,占用資源少;模型輸入文本長度為1024,滿足絕大部分場景的需求。此外,acge模型還支持可變輸出維度,讓企業(yè)能夠根據(jù)具體場景去合理分配資源。
文章來源:http://www.zghlxwxcb.cn/news/detail-845076.html
五、公司介紹
合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),基于自主研發(fā)的領(lǐng)先的智能文字識別及商業(yè)大數(shù)據(jù)核心技術(shù),為全球C端用戶和多元行業(yè)B端客戶提供數(shù)字化、智能化的產(chǎn)品及服務(wù)。公開資料顯示,公司的C端產(chǎn)品覆蓋了全球百余個國家和地區(qū)的億級用戶,B端服務(wù)覆蓋了近30個行業(yè)的企業(yè)客戶?!敦敻弧冯s志2022年發(fā)布的世界500強公司名單中,公司客戶已覆蓋超過125家。文章來源地址http://www.zghlxwxcb.cn/news/detail-845076.html
到了這里,關(guān)于【合合TextIn】AI構(gòu)建新質(zhì)生產(chǎn)力,合合信息Embedding模型助力專業(yè)知識應(yīng)用的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!