0 校企聯(lián)合共克難題
近日,中國大學(xué)生服務(wù)外包創(chuàng)新創(chuàng)業(yè)大賽決賽在江南大學(xué)圓滿落幕。該項賽事是服務(wù)外包產(chǎn)業(yè)領(lǐng)域是唯一的創(chuàng)新、創(chuàng)業(yè)國家級賽事,緊貼現(xiàn)代服務(wù)經(jīng)濟和創(chuàng)新、創(chuàng)業(yè)、創(chuàng)富主題,強調(diào)應(yīng)用導(dǎo)向和產(chǎn)學(xué)互動,在服務(wù)外包領(lǐng)域搭建一個大學(xué)生創(chuàng)新與創(chuàng)業(yè)能力展示平臺。大賽引導(dǎo)社會公眾和青年學(xué)生關(guān)注現(xiàn)代服務(wù)產(chǎn)業(yè),吸引企業(yè)關(guān)注高校青年學(xué)生,促進高校教育改革貼合新興產(chǎn)業(yè)發(fā)展需求,逐漸成為國內(nèi)一流、具有國際影響力的服務(wù)外包行業(yè)青年創(chuàng)新創(chuàng)業(yè)展示盛典。
本次競賽內(nèi)容設(shè)計充分聚焦企業(yè)發(fā)展中所面臨的技術(shù)、管理等現(xiàn)實問題,與產(chǎn)業(yè)的結(jié)合度更緊密,智能文字識別技術(shù)是大賽重點關(guān)注的技術(shù)之一。
隨著信息技術(shù)的發(fā)展和應(yīng)用場景的不斷擴大,人們需要處理和利用大量的文檔信息。而傳統(tǒng)的手動處理方法效率低下,無法滿足現(xiàn)代生活和工作的需求。文檔圖像智能分析與處理就是一個重要且極具挑戰(zhàn)性的研究問題,智能文檔識別技術(shù)基于人工智能和機器學(xué)習(xí)等技術(shù),可以自動識別文檔中的各種信息,如文字、圖像、表格、條碼等,然后將其分類、歸檔、摘要、提取等處理。
文檔圖像智能分析與處理技術(shù)被廣泛應(yīng)用在人們生活的方方面面,比如銀行票據(jù)的自動分析處理、快遞運單的自動識別、教科書的分析與識別、古籍文稿的分析與理解、數(shù)字檔案、數(shù)字圖書館等等,極大地提高了信息的檢索、處理、傳播速率。總之,文檔圖像分析與識別技術(shù)的出現(xiàn)和發(fā)展極大地方便了人們的生活,也極大地促進了我們的社會向智能化、數(shù)字化、信息化發(fā)展。
合合信息在智能文字識別領(lǐng)域有著十余年深耕經(jīng)驗,基于自身在行業(yè)領(lǐng)域的認(rèn)知,設(shè)計了基于學(xué)生需求對掃描全能王功能創(chuàng)新及商業(yè)推廣等議題。
相關(guān)賽題吸引了全國70多所高校的近300支隊伍積極參與,也涌現(xiàn)出許多優(yōu)秀的作品。
下面我們就來看看青年學(xué)子們的“奇思妙想”吧!
1 北京林業(yè)大學(xué):文檔格式轉(zhuǎn)換
北京林業(yè)大學(xué)的盡力就行隊重點提出了對文檔格式轉(zhuǎn)換的設(shè)計方案。
在數(shù)字化時代下,越來越多的人需要將手寫文本數(shù)字化處理。尤其是學(xué)校和各個專業(yè)領(lǐng)域中存在紙質(zhì)數(shù)字化的辦公學(xué)習(xí)需求。舉例而言:
- 大學(xué)生學(xué)習(xí)筆記記錄轉(zhuǎn)換。將手寫筆記、便條、備忘錄等文本轉(zhuǎn)換為電子文本,以便更方便地管理和檢索;
- 特殊專業(yè)特殊場景。如醫(yī)學(xué)生,法學(xué)生,許多手寫病歷和法律文書等文檔需要轉(zhuǎn)換為電子文本,以便更好地管理和分享;
- 個人生活中,越來越多的人需要將手寫信件、賀卡等轉(zhuǎn)換為電子文本,以便保存和分享;
- 教育行業(yè)中,學(xué)生需要使用手寫筆記和答題,老師需要對學(xué)生手寫的試卷進行批改審閱和存檔。
盡力就行隊提出了他們的技術(shù)方案:首先需要收集大量的手寫文字圖片,并對這些圖片進行預(yù)處理,如調(diào)整大小、對比度和亮度等,以便后續(xù)訓(xùn)練和識別,接著設(shè)計一個合適深度學(xué)習(xí)模型,使用一部分手寫文字圖片進行模型測試和驗證,根據(jù)測試結(jié)果進行模型優(yōu)化和調(diào)整,以提高模型的識別準(zhǔn)確率和魯棒性。
然而,手寫文字識別的難度遠(yuǎn)遠(yuǎn)大于手寫數(shù)字識別,因此在神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計調(diào)優(yōu),以及數(shù)據(jù)集的質(zhì)量方面都存在著很大挑戰(zhàn),不過他們的思路仍然對產(chǎn)品的功能完善有很好的啟發(fā)作用。
此外,盡力就行隊還設(shè)計了許多有意思的功能:
-
CAD與PDF互轉(zhuǎn)功能
服務(wù)于專業(yè)為工科,理科,藝術(shù)類的工程設(shè)計,將可查看的PDF在工程設(shè)計輸出為CAD格式以供再編輯。將CAD圖紙轉(zhuǎn)換為PDF格式可以方便地保存和歸檔,使得文件易于管理和查閱。CAD和PDF格式均可以作為數(shù)字檔案的載體,使得文件的傳輸、共享和備份更加方便。
-
視頻掃描提取頁幀并轉(zhuǎn)換圖片功能
可供大學(xué)生視頻內(nèi)容識別與檢測。提取視頻中的頁幀并轉(zhuǎn)換為PDF格式、高清圖片。對學(xué)習(xí)視頻資料和網(wǎng)課視頻、錄屏中的PPT文字內(nèi)容識別提取。方便學(xué)生和教師進行參考和學(xué)習(xí)。制作學(xué)習(xí)視頻文檔或報告等
-
…
這些功能設(shè)計依托高校學(xué)生的實際需求,對現(xiàn)有產(chǎn)品的功能拓展具有現(xiàn)實的參考價值。
2 浙江中醫(yī)藥大學(xué):個性化題庫
浙江中醫(yī)藥大學(xué)的前兔無量隊采用文件調(diào)查的形式,分析當(dāng)前學(xué)習(xí)過程中的痛點:學(xué)生往往需要在課前、課中和課后都做好充足的準(zhǔn)備,投入大量時間進行學(xué)習(xí)。然而,這個過程存在不少困難,包括課前預(yù)習(xí)生詞難、課堂學(xué)習(xí)記筆記慢、課后復(fù)習(xí)、作業(yè)繁多、資料不能及時分享、做完試卷后復(fù)習(xí)易記答案和期末復(fù)習(xí)找題目分散等。
前兔無量隊總結(jié)出以下六個重點場景,對產(chǎn)品進行功能設(shè)計
部分場景已經(jīng)存在現(xiàn)有的解決方案,例如生詞解釋可以使用掃描全能王的生詞解釋功能,首先拍照上傳課本一頁需要預(yù)習(xí)的地方,點擊不懂的專有名詞或者英語單詞都可以輕松做出解釋??梢酝瑫r點擊多個生詞,圖片右邊空白處會出現(xiàn)解釋。提高了預(yù)習(xí)的速度和效率,可以節(jié)省時間預(yù)習(xí)其它課本,輕松提高上課的效率。
再如文字轉(zhuǎn)手寫功能,使用掃描全能王掃描可將電腦字體轉(zhuǎn)化為手寫字體。可根據(jù)自己上傳的手寫字跡模板轉(zhuǎn)換,也可以從掃描全能王手寫字模板中選取。手寫字的背景也可進行選擇,有作業(yè)本網(wǎng)線格等各種背景,讓手寫字跡更真實可信
前兔無量隊也對掃描全能王原有功能進行優(yōu)化和創(chuàng)新。例如試卷擦除功能——掃描完一張照片里的多個題目后,自動分離出一個個題目, 可用原有的試卷擦除功能 對題目進行字跡擦除。接著,利用題目亂序 、生成題庫功能,將散亂的題目輕松匯合到一起,并可以打亂順序出現(xiàn),防止我們按順序背答案最后更改題目出現(xiàn)的順序。 掃描下的題目它可以選擇保存到題庫里,等用戶需要復(fù)習(xí)加強印象時可從題庫中做題復(fù)習(xí),非常方便。
更進一步地,就是個性化題庫的設(shè)計。這樣的設(shè)計完全基于已有的功能進行組合擴展,但卻可以使用戶可以方便地進行個性化題庫的管理和學(xué)習(xí),大幅提升用戶體驗和學(xué)習(xí)效果。
除此之外,前兔無量隊也為掃描全能王設(shè)計了簡單的社交功能。例如加好友功能、聊天功能,轉(zhuǎn)發(fā)功能、傳輸文件等。對于異常情況的頁面設(shè)計,也采用了品牌形象的插畫形式,不僅增添了趣味性還起到了宣傳品牌形象的作用,提升的產(chǎn)品的技術(shù)溫度。
3 中南林業(yè)科技大學(xué):交互場景挖掘
中南林業(yè)科技大學(xué)的浙芯隊將掃描全能王已有的工具箱功能分為掃描服務(wù)、格式轉(zhuǎn)換、文檔編輯和其它四個大類,并對各個功能進行非常詳細(xì)的深入分析和擴展。同時也隨機調(diào)查了1000名大學(xué)生,來分析大學(xué)生使用掃描全能王各個功能的情況以及對掃描全能王的評價
以拍PPT為例,浙芯隊首先對比了實際需求和傳統(tǒng)方式痛點
序號 | 場景使用 | 傳統(tǒng)方式痛點 |
---|---|---|
1 | 只想拍PPT 范圍的圖像 | 不能只拍PPT 部分,會拍下其它區(qū)域 |
2 | 位置偏,不能正對PPT | 拍攝拍得的PPT 圖像是扭曲的,后期難以校正 |
3 | 連續(xù)拍攝多張PPT | 不能自動將多張PPT 合成一個文件 |
4 | 從PPT 中提取文字信息 | 不能自動識別并提取文字 |
接著從產(chǎn)品中尋找解決方案,即采用掃描全能王的拍PPT
功能,會自動捕
捉PPT,濾除非PPT 的畫面在;拍攝完后會自動將PPT 進行校正,變成正面的PPT 圖像;同時,支持連續(xù)拍攝,拍攝完成后用pdf 預(yù)覽和分享功能將所有PPT 照片形成一個pdf 文檔
另一個實例是表格識別。表格識別和處理在智能文檔中是一項挑戰(zhàn)性任務(wù),具體在于
- 多樣性的表格結(jié)構(gòu): 表格可以具有多種不同的結(jié)構(gòu),包括合并單元格、多層表頭、交叉行列等,這使得識別和解析表格變得復(fù)雜。不同的表格結(jié)構(gòu)可能需要不同的處理方法;
- 文檔質(zhì)量不一: 掃描文檔或圖像的質(zhì)量可能不一,可能存在模糊、噪音、傾斜、陰影等問題,這會影響表格識別的準(zhǔn)確性;
- 字體和排版的多樣性: 表格中的字體、字號、顏色等多樣性使得文字識別更具挑戰(zhàn)性。不同的排版方式可能導(dǎo)致識別錯誤,尤其是當(dāng)表格的結(jié)構(gòu)受到排版影響時;
- 合并單元格和跨行跨列: 表格中的合并單元格和跨行跨列現(xiàn)象可能會導(dǎo)致數(shù)據(jù)提取和解析的困難。正確地還原這些信息以保持表格結(jié)構(gòu)的準(zhǔn)確性是一個挑戰(zhàn)。
- 文本語言多樣性: 表格中的文本可能是不同的語言,甚至在同一文檔中可能存在多種語言,這增加了表格數(shù)據(jù)識別的復(fù)雜性;
- 歧義和上下文: 在一些情況下,表格中的數(shù)據(jù)可能存在歧義,需要依賴上下文信息來正確理解。缺乏上下文可能導(dǎo)致數(shù)據(jù)解析錯誤;
- 大規(guī)模數(shù)據(jù)集和培訓(xùn)困難: 表格識別的性能通常需要大量的標(biāo)注數(shù)據(jù)進行訓(xùn)練,然而,標(biāo)注準(zhǔn)確的表格數(shù)據(jù)集可能很昂貴且耗時。同時,標(biāo)注復(fù)雜表格結(jié)構(gòu)可能需要專業(yè)領(lǐng)域知識。
而對表格的處理又是日常工作的常見需求
序號 | 使用場景 | 場景描述 | 適用人群 |
---|---|---|---|
1 | 寫論文 | 寫論文,上網(wǎng)搜尋到相關(guān)數(shù)據(jù),數(shù)據(jù)以圖的形式呈現(xiàn),需要匯總到一個表格中 | 科研族 |
2 | 日常辦公 | 相關(guān)的紙質(zhì)的圖表資料,需要形成電子檔的表格 | 學(xué)生干部族 |
3 | 撰寫數(shù)據(jù)分析報告 | 在做各種數(shù)據(jù)分析報告時,搜集的數(shù)據(jù)以圖片呈現(xiàn)、無法整理編輯數(shù)據(jù),尋求數(shù)據(jù)的規(guī)律 | 統(tǒng)計族 |
同樣,浙芯隊結(jié)合掃描全能王給出了解決方案,利用表格識別功能,導(dǎo)入一張圖片或者拍攝一張圖片,一鍵轉(zhuǎn)換成Excel 表格,若要導(dǎo)出多張,則在導(dǎo)出Excel 的界面,選擇添加頁面,再導(dǎo)入圖片,再點擊該圖片,最后再點擊“導(dǎo)出Excel 表格”,多張表格的數(shù)據(jù)就自動匯總到一個Excel表格中。
除此之外,浙芯隊還給出了拍證件照、文本轉(zhuǎn)換、添加水印等非常豐富的交互場景分析,完善了產(chǎn)品使用的方案。
4 重慶郵電大學(xué):大模型賦能智能文檔
重慶郵電大學(xué)的傅里葉變換隊結(jié)合更具體的技術(shù),給出了各個功能場景下的創(chuàng)意
以學(xué)習(xí)研究場景為例,傅里葉變換隊首先分析了思維導(dǎo)圖的識別創(chuàng)意。思維導(dǎo)圖簡單卻又很高效,可以應(yīng)用在學(xué)習(xí)、生活、工作的任何領(lǐng)域當(dāng)中,可以將大篇幅內(nèi)容進行拆分,找到從屬關(guān)系,縮減文字?jǐn)?shù)量,便于理解與記憶。其中,括號思維導(dǎo)圖是對一個事物的整體進行拆分分析,從而揭示整體和部分的關(guān)系,并能夠?qū)φw事物的微觀構(gòu)成形成比較清晰的認(rèn)知。
傅里葉變換隊指出,目前制作括號思維導(dǎo)圖的方式有兩種:
- 通過軟件制作電子版的導(dǎo)圖,其優(yōu)點是便于編輯和共享,但設(shè)備限制性大,當(dāng)設(shè)備連接鍵盤時才更方便輸入;
- 手繪在紙質(zhì)上,其優(yōu)點是在理解知識內(nèi)部邏輯的同時加深記憶,但可編輯性差(寫錯字不能直接擦除)、便攜性差、不易美化、交互性差
目前已有方法實現(xiàn)了電子導(dǎo)圖的識別和電子導(dǎo)圖的手繪化,但缺少將手繪括號思維導(dǎo)圖電子化的方法,但是該項功能的實現(xiàn)存在仍存在許多挑戰(zhàn),比如:識別準(zhǔn)確性、再生成的限制、共享的安全性等
傅里葉變換隊結(jié)合傳統(tǒng)圖像處理、計數(shù)、括號識別、文字識別、層次邏輯生成等技術(shù),設(shè)計了以下的思維導(dǎo)圖識別流程,整體架構(gòu)清晰,具有可行性
其中,傅里葉變換隊還自主設(shè)計了基于邊界信息的層次邏輯生成算法,分別對文字塊集合和左大括號集合進行聚合。
此外,傅里葉變換隊還設(shè)計了擴展業(yè)務(wù)
在開發(fā)出相應(yīng)的思維導(dǎo)圖制作軟件或軟件界面的基礎(chǔ)上,加入?yún)f(xié)同編輯功能,一是可以使得教師可以實時方便地查看學(xué)生制作的思維導(dǎo)圖,提高智慧課堂的效率;二是可以讓多人同時查看優(yōu)質(zhì)的思維導(dǎo)圖,提高分享學(xué)習(xí)的效率。在得到掃描結(jié)果的基礎(chǔ)上,也可以對導(dǎo)圖內(nèi)容進行分析,建立多媒體檢索推薦系統(tǒng),滿足學(xué)生在用思維導(dǎo)圖學(xué)習(xí)時,想同時學(xué)習(xí)該思維導(dǎo)圖所代表的全部知識的需求,一是通過檢索相關(guān)的學(xué)習(xí)視頻,二是檢索相關(guān)的教材,三是進行知識補充。
總之,從技術(shù)到業(yè)務(wù)給出了非常詳細(xì)且可行的設(shè)計方案。
在信息時代的浪潮中,大語言模型正以驚人的速度和無限的創(chuàng)造力引領(lǐng)著人工智能的新紀(jì)元。大語言模型不僅能夠理解和分析人類語言,還能夠生成高質(zhì)量、富有創(chuàng)意的文本。從寫作助手到內(nèi)容創(chuàng)作,從自動化客服到醫(yī)療診斷,它們正在推動各行各業(yè)的創(chuàng)新。 這些模型不斷通過海量數(shù)據(jù)進行自我學(xué)習(xí),不斷提升自己的表現(xiàn)。它們能夠從多個領(lǐng)域的知識中吸取靈感,生成創(chuàng)新性的想法和解決方案。
傅里葉變換隊抓住時代熱點,設(shè)計了基于語言大模型的智能掃描問答AI的功能創(chuàng)意
總體流程是:
-
用戶掃描題目: 用戶通過拍照或輸入問題的方式提交待解答的題目。
-
知識庫匹配: AI系統(tǒng)在預(yù)先構(gòu)建的知識庫中進行信息檢索,找到與問題相關(guān)的知識點原文。
-
設(shè)計豐富提示詞Prompt: 系統(tǒng)使用問題相關(guān)的信息,設(shè)計出幾個豐富的提示詞(Prompt),這個提示詞將作為后續(xù)輸入大語言模型的初始文本。
-
輸入大語言模型: 利用強大的大語言模型,如GPT-4或文心一言,將豐富的提示詞作為輸入,以便生成更具上下文和語義的答案。
接下來,定義兩種AI系統(tǒng)的輸出模式:
-
學(xué)霸版:在學(xué)霸版中,它可以根據(jù)問題直接給出解答,這個答案會被大語言模型生成,基于問題和相關(guān)信息。
-
導(dǎo)師版:在導(dǎo)師版中,可以給出題目涉及的知識點出處及講解。這可以幫助用戶更好地理解問題的背景和相關(guān)知識。
智能掃描問答AI結(jié)合了信息檢索、大語言模型的生成能力以及輸出定制化的答案。它能夠為用戶提供更全面的答案,不僅回答問題,還能提供相關(guān)的知識背景和解釋。這種技術(shù)有助于提高用戶學(xué)習(xí)效率,加深對知識的理解,并為用戶提供了一個便捷的自主學(xué)習(xí)支持工具。
5 總結(jié)
隨著信息技術(shù)的發(fā)展和應(yīng)用場景的不斷擴大,人們需要處理和利用大量的文檔信息。而傳統(tǒng)的手動處理方法效率低下,無法滿足現(xiàn)代生活和工作的需求。因此文檔圖像智能分析與處理就成為一個重要且極具挑戰(zhàn)性的研究問題。從各個參賽隊伍的創(chuàng)意中,我們可以看到,基于人工智能和機器學(xué)習(xí)的智能文檔處理技術(shù),可以自動識別文檔中的各種信息,如文字、圖像、表格等,然后將其分類、歸檔、摘要、提取等處理,極大地提高了信息的檢索、處理、傳播速率。這個應(yīng)用不僅僅局限于學(xué)生需求,而是可以擴展到更多的應(yīng)用領(lǐng)域,例如物流行業(yè)中快遞運單的自動識別、金融行業(yè)中銀行票據(jù)的自動分析處理等,具有廣闊的應(yīng)用前景。
在智能文檔處理的實際應(yīng)用中,合合信息的產(chǎn)品掃描全能王表現(xiàn)出了強大的功能,舉例而言
- 辦公文檔處理:無論是在辦公室還是在家庭辦公環(huán)境中,用戶都可以利用掃描全能王進行各類文檔的掃描和處理,包括但不限于文件、表格、圖表、手寫筆記等。不僅如此,無論光照條件、背景復(fù)雜度如何,掃描全能王都能通過AI智掃引擎進行圖像優(yōu)化,提供高清晰度、高質(zhì)量的掃描結(jié)果。
- 教育資料處理:對于教師和學(xué)生,掃描全能王可以用于掃描、共享和保存教材、試卷、筆記等教育資料。特別是在當(dāng)前遠(yuǎn)程教育越來越普及的環(huán)境下,掃描全能王可以方便地將紙質(zhì)資料轉(zhuǎn)化為數(shù)字格式,便于教學(xué)共享和資料存儲。
- 商務(wù)文檔處理:在商業(yè)場景中,掃描全能王可以被用于處理各類商務(wù)文檔,如發(fā)票、合同、訂單等。其智能高清濾鏡功能可以清晰識別和提取文檔中的文字和圖表信息,滿足各種商務(wù)需求
- …
掃描全能王集成了智能文檔處理中的多種先進技術(shù),例如彎曲矯正、去反光、去摩爾紋等,具備高度精準(zhǔn)的識別能力。更進一步,掃描全能王的多語種識別技術(shù)不僅局限于主流的幾種語言,而是覆蓋了全球的眾多語種。這使得掃描全能王可以為全球的用戶提供服務(wù),不論用戶使用的是何種語言,掃描全能王都能夠準(zhǔn)確地識別和處理。同時也使得文檔的處理更為流暢。用戶無需進行復(fù)雜的設(shè)置或手動選擇語種,掃描全能王能夠自動識別文檔的語言,并進行精準(zhǔn)的處理。文章來源:http://www.zghlxwxcb.cn/news/detail-660289.html
總之,掃描全能王作為文檔高效處理的辦公產(chǎn)品,極大地提升了用戶的使用體驗,滿足了全球化辦公的需求。這使得掃描全能王在全球范圍內(nèi)得到了廣泛的應(yīng)用和好評。文章來源地址http://www.zghlxwxcb.cn/news/detail-660289.html
到了這里,關(guān)于這場大學(xué)生競賽中,上百支隊伍與合合信息用AI共克難題的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!