国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

感知與認(rèn)知的碰撞,大模型時(shí)代的智能文檔處理范式

這篇具有很好參考價(jià)值的文章主要介紹了感知與認(rèn)知的碰撞,大模型時(shí)代的智能文檔處理范式。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

0 寫在前面

由中國圖象圖形學(xué)學(xué)會(huì)青年工作委員會(huì)發(fā)起的第十九屆中國圖象圖形學(xué)學(xué)會(huì)青年科學(xué)家會(huì)議于2023年12月28-31日在中國廣州召開。會(huì)議面向國際學(xué)術(shù)前沿與國家戰(zhàn)略需求,聚焦最新前沿技術(shù)和熱點(diǎn)領(lǐng)域,邀請(qǐng)了學(xué)術(shù)界和企業(yè)界專家與青年學(xué)者進(jìn)行深度交流,促進(jìn)圖象圖形領(lǐng)域“產(chǎn)學(xué)研”合作。

隨著信息技術(shù)的發(fā)展和應(yīng)用場(chǎng)景的不斷擴(kuò)大,人們需要處理和利用大量的文檔信息。而傳統(tǒng)的手動(dòng)處理方法效率低下,無法滿足現(xiàn)代生活和工作的需求。文檔圖像智能分析與處理就是一個(gè)重要且極具挑戰(zhàn)性的研究問題。雖然文檔圖像分析已經(jīng)有了將近一百年的歷史,但是到目前為止仍有大量的問題沒有得到很好地解決,例如文檔的多樣性和復(fù)雜性問題:文檔類型和格式繁多,包括報(bào)告、合同、發(fā)票、證明、證件等等。不同類型的文檔有不同的格式和布局,難以用統(tǒng)一的方法處理。而且智能文檔處理受到圖像質(zhì)量、文字字體、文字大小、文字顏色等噪聲因素的影響,容易出現(xiàn)誤識(shí)別。此外,圖像質(zhì)量不一、文檔獲取繁瑣等問題,依舊是行業(yè)頑疾。

合合信息作為文檔圖像處理領(lǐng)域的代表性科技企業(yè),在本次會(huì)議中分享了大模型時(shí)代下,智能文檔圖像處理研究范式的相關(guān)啟發(fā)性思考。大語言模型的快速發(fā)展,能否和傳統(tǒng)方法相結(jié)合,發(fā)揮出更強(qiáng)大的優(yōu)勢(shì),注入更鮮活的生命力呢?合合信息智能技術(shù)平臺(tái)事業(yè)部副總經(jīng)理、高級(jí)工程師丁凱博士對(duì)此進(jìn)行了進(jìn)一步的探討和分析,相信對(duì)這個(gè)領(lǐng)域感興趣的同學(xué)一定有所收獲,接下來就讓我們一起看看吧!

1 GPT4-V:拓寬文檔認(rèn)知邊界

大型語言模型(LLMs)在各種領(lǐng)域和任務(wù)中表現(xiàn)出了顯著的多功能性和能力。下一步的發(fā)展是大型多模態(tài)模型(LMMs),它們通過整合多感官技能來擴(kuò)展LLMs的能力,以實(shí)現(xiàn)更強(qiáng)的通用智能??紤]到視覺在人類感官中的主導(dǎo)地位,許多LMM研究從擴(kuò)展視覺能力開始。GPT-4V(ision)是OpenAI在2023年9月25日為ChatGPT增加的新特性,其中的V意味著GPT-4將更加注重視覺理解,GPT-4將具備更多的輸入形式,使得用戶可以通過包括文本、圖像、聲音等多種數(shù)據(jù)類型與GPT4進(jìn)行交互,并且GPT-4能夠進(jìn)行更加復(fù)雜的推理和邏輯推導(dǎo)。同時(shí),這也標(biāo)志著GPT4正式成為一個(gè)多模態(tài)模型。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

圖源網(wǎng)絡(luò),侵刪

丁凱博士首先介紹了GPT4-V強(qiáng)大的認(rèn)知能力,相對(duì)于傳統(tǒng)方法,大語言模型具備強(qiáng)大的上下文理解性能,可以根據(jù)文檔中的文字內(nèi)容和圖像信息進(jìn)行全面的語義分析。相比之下,傳統(tǒng)方法通常只能依賴預(yù)定義規(guī)則或特定模式進(jìn)行處理,難以捕捉到復(fù)雜的上下文關(guān)系。通過大量的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)和迭代,大語言模型可以從數(shù)據(jù)中學(xué)習(xí)到更豐富的特征表示和模式,從而更好地理解和處理文檔圖像。傳統(tǒng)方法往往需要手動(dòng)設(shè)計(jì)特征和規(guī)則,限制了其在復(fù)雜場(chǎng)景下的表現(xiàn)。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

在多模態(tài)融合方面,大語言模型能夠同時(shí)處理文本和圖像信息,將文檔圖像中的文字和視覺元素進(jìn)行聯(lián)合分析和處理,提供更全面、準(zhǔn)確的結(jié)果。傳統(tǒng)方法通常是分別處理文本和圖像,難以充分利用兩者之間的相關(guān)性。此外,大語言模型的架構(gòu)和訓(xùn)練方式具有較大的靈活性和可擴(kuò)展性,可以根據(jù)任務(wù)需求進(jìn)行調(diào)整和優(yōu)化。相比之下,傳統(tǒng)方法往往需要針對(duì)不同任務(wù)設(shè)計(jì)和實(shí)現(xiàn)特定的算法和流程,難以適應(yīng)不同場(chǎng)景的需求。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

丁凱博士舉了一個(gè)復(fù)雜數(shù)據(jù)折線圖的理解問題,這個(gè)問題涉及到多跳推理,因而屬于復(fù)雜任務(wù),例如,要回答

在圖中,哪一年的6月份的平均汽油價(jià)格最高?

需要至少經(jīng)過四個(gè)步驟

  1. x x x軸上找到6月份
  2. 比較6月份每條線的數(shù)據(jù)點(diǎn)
  3. 確定最高值的線條顏色
  4. 在頂部的圖例中將顏色與對(duì)應(yīng)的年份匹配。

任何一個(gè)步驟出錯(cuò)都會(huì)導(dǎo)致預(yù)測(cè)不準(zhǔn)確。GPT-4V最終得出了正確的答案并提供了解釋其推理過程的中間步驟,取得了超出傳統(tǒng)方法的巨大優(yōu)勢(shì)。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

由于大語言模型通過遷移學(xué)習(xí)和遠(yuǎn)程監(jiān)督等技術(shù),將在其他領(lǐng)域或任務(wù)上獲得的知識(shí)和經(jīng)驗(yàn)應(yīng)用于智能文檔圖像處理,大語言模型能夠更快速地適應(yīng)新的任務(wù)和場(chǎng)景,減少數(shù)據(jù)和資源的需求。

2 大語言模型的文檔感知缺陷

雖然GPT4-V在認(rèn)知方面展示出巨大的潛力,但它在處理智能文檔任務(wù)時(shí),仍然具有很多的缺陷。

首先是幻覺現(xiàn)象,即模型錯(cuò)誤地關(guān)聯(lián)了文本信息和圖像細(xì)節(jié)之間的關(guān)系,導(dǎo)致產(chǎn)生了錯(cuò)誤的推斷和判斷,或根據(jù)文本信息生成與圖像不符合的內(nèi)容,在補(bǔ)全圖像時(shí)添加錯(cuò)誤或不相關(guān)的細(xì)節(jié)。丁凱博士以手寫中文詩歌識(shí)別為例解釋了這個(gè)問題。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

丁凱博士接著介紹了一項(xiàng)全面評(píng)估GPT-4V在OCR領(lǐng)域能力的工作——對(duì)GPT-4V在廣泛任務(wù)范圍內(nèi)進(jìn)行了定量性能分析,這些任務(wù)包括場(chǎng)景文本識(shí)別、手寫文本識(shí)別、手寫數(shù)學(xué)表達(dá)式識(shí)別、表格結(jié)構(gòu)識(shí)別以及從視覺豐富的文檔中提取信息。研究顯示,雖然該模型表現(xiàn)出了精準(zhǔn)識(shí)別拉丁內(nèi)容并支持具有可變分辨率的輸入圖像的強(qiáng)大能力,但在多語言和復(fù)雜場(chǎng)景方面仍然存在明顯的困難。此外,高推理成本和與持續(xù)更新相關(guān)的挑戰(zhàn)對(duì)于GPT-4V在實(shí)際部署中構(gòu)成了重要障礙。因此,OCR領(lǐng)域的專門模型仍然具有重要的研究價(jià)值。盡管存在這些限制,GPT-4V和其他現(xiàn)有的通用LMM模型仍然可以在OCR領(lǐng)域的發(fā)展中發(fā)揮重要作用。這些作用包括提升語義理解能力、針對(duì)下游任務(wù)進(jìn)行微調(diào),并促進(jìn)自動(dòng)/半自動(dòng)數(shù)據(jù)構(gòu)建。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

目前多模態(tài)大模型在密集文本處理方面幾乎不能使用,一個(gè)很重要的原因是:多模態(tài)大模型主要基于文本進(jìn)行語義理解,對(duì)于視覺感知和圖像特征的提取能力有限。在處理密集文本時(shí),相鄰的文本可能會(huì)重疊、相互遮擋或無明顯的邊界,這需要對(duì)視覺特征進(jìn)行準(zhǔn)確地提取和分析,大語言模型的主要優(yōu)勢(shì)是在自然語言文本處理方面,而不是直接處理視覺信息。因此,在圖像文檔處理方面,由于視覺感知限制和文字識(shí)別困難,大語言模型并不適合直接應(yīng)用于該領(lǐng)域。在處理密集文本時(shí),需要借助于文本檢測(cè)、分割和OCR等專門的技術(shù)和算法來實(shí)現(xiàn)準(zhǔn)確的文本識(shí)別和提取

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

細(xì)粒度文本通常指的是文字較小、筆畫細(xì)致、字形復(fù)雜的文本,如簽名、古漢字、特殊符號(hào)等。這類文本在OCR領(lǐng)域中往往是非常具有挑戰(zhàn)性的,因?yàn)樗鼈兺婕暗阶中魏徒Y(jié)構(gòu)上的細(xì)微差異,很難直接從圖像中提取出精確的文字信息。此外,在真實(shí)場(chǎng)景下,這些細(xì)粒度文本可能會(huì)受到光照、噪聲、變形等各種干擾,這也增加了文字識(shí)別的難度。多模態(tài)大模型中的視覺編碼器通?;诰矸e神經(jīng)網(wǎng)絡(luò)或Transformer等模型,在處理圖像時(shí)會(huì)受到分辨率的限制;另一方面,由于訓(xùn)練數(shù)據(jù)集中缺少針對(duì)細(xì)粒度文本的標(biāo)注數(shù)據(jù),模型很難從數(shù)據(jù)中學(xué)到有效的細(xì)粒度文本特征表示。因此,現(xiàn)有多模態(tài)大模型對(duì)顯著文本的處理較好,但是對(duì)于細(xì)粒度文本的處理很差,要克服這些局限性,需要開展更深入的研究和探索

3 大一統(tǒng)文檔圖像處理范式

總得來說,在智能文檔處理領(lǐng)域,大語言模型支持識(shí)別和理解的文檔元素類型遠(yuǎn)超傳統(tǒng)IDP算法,大幅度提升了AI技術(shù)在文檔分析與識(shí)別領(lǐng)域的能力邊界,端到端實(shí)現(xiàn)了文檔的識(shí)別到理解的全過程,不足在于OCR精度距離SOTA有較大差距,長文檔依賴外部的OCR/文檔解析引擎。因此將傳統(tǒng)OCR感知與大語言模型認(rèn)知能力相結(jié)合的研究范式具有積極意義。

3.1 像素級(jí)OCR任務(wù)

在印刷體的文字識(shí)別領(lǐng)域,開展最早,且技術(shù)上最成熟的是國外的西方文字識(shí)別技術(shù)。早在 1929 年,德國的科學(xué)家Taushek已經(jīng)取得了一項(xiàng)光學(xué)字符識(shí)別(optical character recognition, OCR)專利。自上個(gè)世紀(jì)五十年代以來,歐美國家就開始研究關(guān)于西方各個(gè)國家的文字識(shí)別技術(shù),以便對(duì)日常生活中產(chǎn)生的大量文字材料進(jìn)行數(shù)字化處理。經(jīng)過長時(shí)間的不斷研究和完善,西文的OCR技術(shù)已經(jīng)有一套完備的識(shí)別方案,并廣泛地用在西文的各個(gè)領(lǐng)域中。而像素級(jí)OCR任務(wù)是指OCR領(lǐng)域中的一種任務(wù),其目標(biāo)是對(duì)圖像中的每個(gè)像素進(jìn)行文本識(shí)別和分割。傳統(tǒng)的OCR任務(wù)通常是將整個(gè)文本區(qū)域或文本行作為一個(gè)整體進(jìn)行識(shí)別,而像素級(jí)OCR任務(wù)則更加注重對(duì)文本邊界和細(xì)節(jié)的精細(xì)識(shí)別。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

丁凱博士介紹了目前合合信息-華南理工大學(xué)聯(lián)合實(shí)驗(yàn)室在像素級(jí)OCR任務(wù)中的研究進(jìn)展。首先是通用OCR模型UPOCR。近年來,OCR領(lǐng)域出現(xiàn)了大量前沿的方法,用于各種任務(wù)。然而這些方法是針對(duì)特定任務(wù)設(shè)計(jì)的,具有不同的范式、架構(gòu)和訓(xùn)練策略,這顯著增加了研究和維護(hù)的復(fù)雜性,并阻礙了在應(yīng)用中的快速部署。與之相對(duì),UPOCR統(tǒng)一了不同像素級(jí)OCR任務(wù)的策略,同時(shí)引入可學(xué)習(xí)的任務(wù)提示來指導(dǎo)基于ViT的編碼器-解碼器架構(gòu)。UPOCR的主干網(wǎng)絡(luò)ViTEraser聯(lián)合文本擦除、文本分割和篡改文本檢測(cè)等3個(gè)不同的任務(wù)提示詞進(jìn)行統(tǒng)一訓(xùn)練模型訓(xùn)練好后即可用于下游任務(wù),無需針對(duì)下游任務(wù)進(jìn)行專門的精調(diào)。UPOCR的通用能力在多種智能文檔處理任務(wù)上得到了廣泛驗(yàn)證,顯著優(yōu)于現(xiàn)有的專門模型

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

3.2 OCR大一統(tǒng)模型

在OCR大一統(tǒng)模型方面,已經(jīng)有相關(guān)工作進(jìn)行了積極的探索。例如無需OCR的用于文檔理解的Transformer模型Donut;通過SwinTransformer和Transformer Decoder實(shí)現(xiàn)文檔圖像到文檔序列輸出模型NOUGAT,及微軟提出的更大的模型KOSMOS2.5。

基于已有工作,丁凱博士分享了文檔圖像大模型的設(shè)計(jì)思路,主要是將文檔圖像識(shí)別分析的多種任務(wù),通過序列預(yù)測(cè)的方式進(jìn)行處理。具體來說,將每個(gè)任務(wù)所涉及的元素定義為一個(gè)序列,并設(shè)計(jì)相應(yīng)的prompt來引導(dǎo)模型完成不同的OCR任務(wù)。例如,對(duì)于文本識(shí)別任務(wù),可以使用prompt "識(shí)別文本: " 并將待處理的文本序列作為輸入;對(duì)于段落分析任務(wù),則可使用prompt "分析段落:"并將段落序列作為輸入等等。這種方式可以保持一致的輸入格式,方便模型進(jìn)行多任務(wù)的處理。

此外,這個(gè)設(shè)計(jì)思路還支持篇章級(jí)的文檔圖像識(shí)別分析,可以輸出Markdown/HTML/Text等標(biāo)準(zhǔn)格式,這樣可以更好地適應(yīng)用戶的需求。同時(shí),將文檔理解相關(guān)的工作交給大語言模型,這意味著模型可以自動(dòng)進(jìn)行篇章級(jí)的文檔理解和分析,從而提高了文檔圖像處理的效率和準(zhǔn)確性。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

總的來說,這種設(shè)計(jì)思路充分利用了序列預(yù)測(cè)的優(yōu)勢(shì),在保持輸入格式的統(tǒng)一性的同時(shí),能夠更好地解決文檔圖像處理中的多樣化任務(wù)需求,并且通過與LLM的結(jié)合,實(shí)現(xiàn)了更高層次的文檔理解和分析,為文檔圖像處理領(lǐng)域帶來了更多可能性。

3.3 長文檔理解與應(yīng)用

丁凱博士給出了大語言模型賦能文檔識(shí)別分析的技術(shù)路線:首先,文檔識(shí)別分析技術(shù)需要輸入文檔的圖像。這些圖像可以是掃描得到的紙質(zhì)文檔、拍攝得到的照片或者從電子文檔中提取的頁面圖像。接下來,文檔圖像會(huì)經(jīng)過文檔識(shí)別與版面分析處理。在這個(gè)階段,技術(shù)會(huì)識(shí)別文檔中的文字、圖片、表格等元素,并分析文檔的版面結(jié)構(gòu),包括標(biāo)題、段落、頁眉和頁腳等。這可以幫助理解文檔的整體結(jié)構(gòu)和內(nèi)容組織形式。在文檔切分和召回階段,技術(shù)會(huì)將文檔進(jìn)行切分,將不同部分的內(nèi)容分離出來,以便后續(xù)的處理和分析。同時(shí),也會(huì)實(shí)施召回策略,用于檢索和提取特定的文檔元素,比如標(biāo)題、關(guān)鍵字、段落內(nèi)容等。最后,在文檔識(shí)別分析技術(shù)的流程中,大語言模型問答可以被應(yīng)用于文檔中提取信息的問答任務(wù)。通過訓(xùn)練大語言模型來理解文檔內(nèi)容,并能夠回答用戶提出的問題,從而實(shí)現(xiàn)對(duì)文檔內(nèi)容的智能理解和交互式查詢。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

一個(gè)實(shí)例是財(cái)報(bào)/研報(bào)文檔分析,這類文檔內(nèi)容長、圖表多、版式雜、專業(yè)性強(qiáng)、數(shù)據(jù)和相似概念多,具有很高的處理難度。傳統(tǒng)方法在處理時(shí)可能面臨信息過載和處理效率低下的問題。而大語言模型具有更強(qiáng)大的處理能力,可以處理較長的文本內(nèi)容,并從中提取關(guān)鍵信息。同時(shí),大語言模型通過大規(guī)模的預(yù)訓(xùn)練和遷移學(xué)習(xí),具備較強(qiáng)的領(lǐng)域適應(yīng)能力,能夠理解相關(guān)專業(yè)術(shù)語和結(jié)構(gòu),從而更好地進(jìn)行識(shí)別和分析。

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

4 總結(jié)

GPT4-V為代表的多模態(tài)大模型技術(shù)極大的推進(jìn)了文檔識(shí)別與分析領(lǐng)域的技術(shù)進(jìn)展,也給傳統(tǒng)的圖像文檔處理技術(shù)帶來了挑戰(zhàn)。大模型并沒有完全解決圖像文檔處理領(lǐng)域面臨的問題,很多問題值得我們研究。如何結(jié)合大模型的能力,更好地解決圖像文檔處理的問題,值得我們做更多的思考和探索。我相信感知與認(rèn)知的相互碰撞將為用戶帶來更智能化、高效率和個(gè)性化的文檔處理體驗(yàn)。未來隨著技術(shù)的不斷進(jìn)步,這種結(jié)合將在商業(yè)、教育、科研等領(lǐng)域發(fā)揮越來越重要的作用。讓我們拭目以待,期待合合信息在模式識(shí)別、深度學(xué)習(xí)、圖像處理、自然語言處理等領(lǐng)域的深耕厚積薄發(fā),用技術(shù)方案惠及更多的人!

抽獎(jiǎng)福利

upocr,前沿資訊,人工智能,深度學(xué)習(xí),pytorch,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,數(shù)據(jù)挖掘

合合信息給大家送福利了!填寫問卷抽10個(gè)人送50元京東卡,1月12日開獎(jiǎng)噢~文章來源地址http://www.zghlxwxcb.cn/news/detail-800408.html

到了這里,關(guān)于感知與認(rèn)知的碰撞,大模型時(shí)代的智能文檔處理范式的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Text Intelligence - TextIn.com AI時(shí)代下的智能文檔識(shí)別、處理、轉(zhuǎn)換

    Text Intelligence - TextIn.com AI時(shí)代下的智能文檔識(shí)別、處理、轉(zhuǎn)換

    本指南將介紹Text Intelligence,AI時(shí)代下的智能文檔技術(shù)平臺(tái) Textin.com 關(guān)注TechLead,分享AI全維度知識(shí)。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)、AI產(chǎn)品研發(fā)經(jīng)驗(yàn)、團(tuán)隊(duì)管理經(jīng)驗(yàn),同濟(jì)本復(fù)旦碩,復(fù)旦機(jī)器人智能實(shí)驗(yàn)室成員,阿里云認(rèn)證的資深架構(gòu)師,項(xiàng)目管理專業(yè)人士,上億營收AI產(chǎn)品研

    2024年02月04日
    瀏覽(25)
  • 訊飛星火認(rèn)知大模型V2.0:邁向認(rèn)知計(jì)算的全新時(shí)代

    訊飛星火認(rèn)知大模型V2.0:邁向認(rèn)知計(jì)算的全新時(shí)代

    ???? 博主貓頭虎 帶您 Go to New World.??? ?? 博客首頁——貓頭虎的博客?? ??《面試題大全專欄》 文章圖文并茂??生動(dòng)形象??簡(jiǎn)單易學(xué)!歡迎大家來踩踩~?? ?? 《IDEA開發(fā)秘籍專欄》學(xué)會(huì)IDEA常用操作,工作效率翻倍~?? ?? 《100天精通Golang(基礎(chǔ)入門篇)》學(xué)會(huì)Golang語言

    2024年02月12日
    瀏覽(22)
  • 探索文檔圖像大模型,提升智能文檔處理性能

    探索文檔圖像大模型,提升智能文檔處理性能

    自 ChatGPT 于 2022 年 11 月發(fā)布以來,大模型的相關(guān)研究在全世界的學(xué)術(shù)界和工業(yè)界都引起了廣泛的關(guān)注,大模型技術(shù)也為智能文檔處理領(lǐng)域帶來了新的機(jī)遇。通過在智能文檔處理領(lǐng)域訓(xùn)練和應(yīng)用大規(guī)模深度學(xué)習(xí)模型,能夠提供更準(zhǔn)確、全面的文檔理解與分析,改善文檔圖像識(shí)別

    2024年02月03日
    瀏覽(31)
  • CCIG 2023 從視覺-語言模型到智能文檔圖像處理

    CCIG 2023 從視覺-語言模型到智能文檔圖像處理

    前言 一、視覺-語言模型是什么? 二、視覺-語言模型可以用來做什么? 三、視覺-語言?預(yù)訓(xùn)練模型 3.1、模型架構(gòu) 3.2、訓(xùn)練目標(biāo) 3.2.1、圖像-文本匹配損失(ITM) 3.2.2、掩碼語言建模損失(MLM) 3.2.3、掩碼視覺建模損失(MVM) 3.3、SOTA模型 四、視覺到語言的數(shù)字化轉(zhuǎn)型——智

    2024年02月05日
    瀏覽(35)
  • 訊飛開放平臺(tái)--星火認(rèn)知大模型--開發(fā)技術(shù)文檔--js實(shí)例代碼詳解

    訊飛開放平臺(tái)--星火認(rèn)知大模型--開發(fā)技術(shù)文檔--js實(shí)例代碼詳解

    ? ? ? ? 之前調(diào)用寫過調(diào)用百度的文心一言寫網(wǎng)站,訊飛的星火認(rèn)知模型開放了,這次嘗試一下使用流式來進(jìn)行用戶的交互。 平臺(tái)簡(jiǎn)介 | 訊飛開放平臺(tái)文檔中心 星火認(rèn)知大模型Web文檔 | 訊飛開放平臺(tái)文檔中心 ????????本文章主要開發(fā)的是一個(gè)web應(yīng)用。 值得一提的是官網(wǎng)

    2024年02月09日
    瀏覽(36)
  • 【探索人工智能】我與訊飛星火認(rèn)知大模型的對(duì)話

    【探索人工智能】我與訊飛星火認(rèn)知大模型的對(duì)話

    這是訊飛星火認(rèn)知大模型的地址: [訊飛星火認(rèn)知大模型](https://xinghuo.xfyun.cn/desk) 我們必須清晰的認(rèn)知到作為大模型其實(shí)是沒有一個(gè)確切的\\\"發(fā)展歷程\\\"。 那么它是怎么進(jìn)行技術(shù)的更新,怎么能回答你詳細(xì)的問題呢? 它的知識(shí)和能力是基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練的,這些數(shù)據(jù)來

    2024年02月16日
    瀏覽(23)
  • Streamlit項(xiàng)目:基于訊飛星火認(rèn)知大模型開發(fā)Web智能對(duì)話應(yīng)用

    Streamlit項(xiàng)目:基于訊飛星火認(rèn)知大模型開發(fā)Web智能對(duì)話應(yīng)用

    科大訊飛公司于2023年8月15日發(fā)布了訊飛認(rèn)知大模型V2.0,這是一款集跨領(lǐng)域知識(shí)和語言理解能力于一體的新一代認(rèn)知智能大模型。前日,博主對(duì)訊飛認(rèn)知大模型進(jìn)行了詳細(xì)的分析,詳情請(qǐng)至博文《星星之火:國產(chǎn)訊飛星火大模型的實(shí)際使用體驗(yàn)(與GPT對(duì)比)》了解。 總的來說

    2024年02月12日
    瀏覽(23)
  • 自然語言處理從入門到應(yīng)用——預(yù)訓(xùn)練模型總覽:詞嵌入的兩大范式

    自然語言處理從入門到應(yīng)用——預(yù)訓(xùn)練模型總覽:詞嵌入的兩大范式

    分類目錄:《自然語言處理從入門到應(yīng)用》總目錄 相關(guān)文章: · 預(yù)訓(xùn)練模型總覽:從宏觀視角了解預(yù)訓(xùn)練模型 · 預(yù)訓(xùn)練模型總覽:詞嵌入的兩大范式 · 預(yù)訓(xùn)練模型總覽:兩大任務(wù)類型 · 預(yù)訓(xùn)練模型總覽:預(yù)訓(xùn)練模型的拓展 · 預(yù)訓(xùn)練模型總覽:遷移學(xué)習(xí)與微調(diào) · 預(yù)訓(xùn)練模型

    2024年02月11日
    瀏覽(32)
  • 常見大模型對(duì)比[ChatGPT(智能聊天機(jī)器人)、Newbing(必應(yīng))、Bard(巴德)、訊飛星火認(rèn)知大模型(SparkDesk)、ChatGLM-6B]

    常見大模型對(duì)比[ChatGPT(智能聊天機(jī)器人)、Newbing(必應(yīng))、Bard(巴德)、訊飛星火認(rèn)知大模型(SparkDesk)、ChatGLM-6B]

    目錄 1 引言 2 選取常見的大模型作為對(duì)比項(xiàng) 2.1什么是大模型 2.2 常見大模型 3 相關(guān)的大模型介紹和功能 3.1 ChatGPT 3.1.1 ChatGPT的介紹 3.1.2 ChatGPT的原理 3.1.3 ChatGPT的特點(diǎn) 3.2 Newbing 3.2.1 Newbing的介紹 3.2.2 GPT-4的原理 3.2.3 Newbing的特點(diǎn) 3.3 ChatGLM-6B 3.3.1 ChatGLM的介紹 3.3.2 ChatGLM的原理 3.3

    2024年02月11日
    瀏覽(18)
  • 邁向通用聽覺人工智能!清華電子系、火山語音攜手推出認(rèn)知導(dǎo)向的聽覺大語言模型SALMONN

    邁向通用聽覺人工智能!清華電子系、火山語音攜手推出認(rèn)知導(dǎo)向的聽覺大語言模型SALMONN

    日前,清華大學(xué)電子工程系與火山語音團(tuán)隊(duì)攜手合作,推出認(rèn)知導(dǎo)向的開源聽覺大語言模型SALMONN (Speech Audio Language Music Open Neural Network)。 大語言模型 SALMONN LOGO 相較于僅僅支持語音輸入或非語音音頻輸入的其他大模型,SALMONN對(duì)語音、音頻事件、音樂等各類音頻輸入都具有感知

    2024年02月12日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包