大家好,我是微學(xué)AI,今天給大家介紹一下人工智能124種任務(wù)大集合,任務(wù)集合主要包括4大類:自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音識(shí)別、多模態(tài)任務(wù)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-646090.html
我這里整理了124種應(yīng)用場(chǎng)景任務(wù)大集合,每個(gè)任務(wù)目錄如下:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-646090.html
- 句子嵌入(Sentence Embedding):將句子映射到固定維度的向量表示形式。
- 文本排序(Text Ranking):對(duì)一組文本進(jìn)行排序,以確定它們與給定查詢的相關(guān)性。
- 分詞(Word Segmentation):將連續(xù)的文本切分成單詞或詞塊的過(guò)程。
- 詞性標(biāo)注(Part-of-Speech):對(duì)句子中的每個(gè)詞匯標(biāo)注其相應(yīng)的詞性。
- 標(biāo)記分類(Token Classification):將輸入的文本序列中的每個(gè)標(biāo)記分類為預(yù)定義的類別。
- 命名實(shí)體識(shí)別(Named Entity Recognition):識(shí)別文本中具有特定意義的命名實(shí)體,如人名、地點(diǎn)、組織等。
- 關(guān)系抽取(Relation Extraction):從文本中抽取出實(shí)體之間的關(guān)系或聯(lián)系。
- 信息抽?。↖nformation Extraction):從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化的信息,如實(shí)體、關(guān)系和屬性等。
- 句子相似度(Sentence Similarity):衡量?jī)蓚€(gè)句子之間的語(yǔ)義相似度或相關(guān)性。
- 文本翻譯(Translation):將一種語(yǔ)言的文本轉(zhuǎn)換為另一種語(yǔ)言的過(guò)程。
- 自然語(yǔ)言推理(NLI:Natural Language Inference):判斷給定的前提和假設(shè)之間的邏輯關(guān)系,包括蘊(yùn)含、矛盾和中立等。
- 情感分類(Sentiment Classification):將文本分為積極、消極或中性等情感類別。
- 人像摳圖(Portrait Matting):從圖像中準(zhǔn)確地分離人物主體與背景。
- 通用摳圖(Universal Matting):從圖像中準(zhǔn)確地分離目標(biāo)物體與背景,不限于人像。
- 人體檢測(cè)(Human Detection):檢測(cè)圖像或視頻中的人體位置。
- 圖像目標(biāo)檢測(cè)(Image Object Detection):在圖像中檢測(cè)和定位多個(gè)目標(biāo)對(duì)象。
- 圖像去噪(Image Denoising):降低圖像中的噪聲水平,改善圖像質(zhì)量。
- 圖像去模糊(Image Deblurring):恢復(fù)模糊圖像的清晰度和細(xì)節(jié)。
- 視頻穩(wěn)定化(Video Stabilization):對(duì)視頻進(jìn)行抖動(dòng)校正,使其穩(wěn)定且平滑。
- 視頻超分辨率(Video Super-Resolution):通過(guò)增加視頻的像素級(jí)別細(xì)節(jié)來(lái)提高其分辨率。
- 文本分類(Text Classification):將文本分類為預(yù)定義的類別或標(biāo)簽。
- 文本生成(Text Generation):根據(jù)給定輸入生成連續(xù)文本的過(guò)程。
- 零樣本分類(Zero-Shot Classification):將數(shù)據(jù)分類為模型從未在訓(xùn)練階段見(jiàn)過(guò)的類別。
- 任務(wù)導(dǎo)向?qū)υ挘═ask-Oriented Conversation):進(jìn)行與特定任務(wù)相關(guān)的對(duì)話和問(wèn)答。
- 對(duì)話狀態(tài)跟蹤(Dialog State Tracking):跟蹤多輪對(duì)話中的用戶意圖和系統(tǒng)狀態(tài)的變化。
- 表格問(wèn)答(Table Question Answering):根據(jù)表格數(shù)據(jù)回答相關(guān)問(wèn)題。
- 文檔導(dǎo)向?qū)υ捝桑―ocument-Grounded Dialog Generation):基于文檔內(nèi)容生成相關(guān)對(duì)話回復(fù)。
- 文檔導(dǎo)向?qū)υ捴匦屡判颍―ocument-Grounded Dialog Rerank):對(duì)生成的對(duì)話回復(fù)進(jìn)行排序,以選擇最佳回復(fù)。
- 文檔導(dǎo)向?qū)υ挋z索(Document-Grounded Dialog Retrieval):從候選對(duì)話中檢索與文檔相關(guān)的最佳對(duì)話。
- 文本糾錯(cuò)(Text Error Correction):自動(dòng)糾正文本中的拼寫(xiě)錯(cuò)誤或語(yǔ)法錯(cuò)誤。
- 圖像字幕生成(Image Captioning):根據(jù)圖像內(nèi)容生成對(duì)圖像的描述性文字。
- 視頻字幕生成(Video Captioning):根據(jù)視頻內(nèi)容生成對(duì)視頻的描述性文字。
- 圖像人像風(fēng)格化(Image Portrait Stylization):將圖像中的人物主體應(yīng)用藝術(shù)風(fēng)格轉(zhuǎn)換。
- 光學(xué)字符識(shí)別(OCR Detection):從圖像中檢測(cè)和識(shí)別文字。
- 表格識(shí)別(Table Recognition):從圖像中自動(dòng)識(shí)別表格結(jié)構(gòu)和內(nèi)容。
- 無(wú)線表格識(shí)別(Lineless Table Recognition):從無(wú)線表格圖像中自動(dòng)識(shí)別表格結(jié)構(gòu)和內(nèi)容。
- 文檔視覺(jué)語(yǔ)義嵌入(Document-VL Embedding):將文檔映射到視覺(jué)語(yǔ)義空間的向量表示形式。
- 車(chē)牌檢測(cè)(License Plate Detection):在圖像中檢測(cè)和定位車(chē)輛的車(chē)牌區(qū)域。
- 填充掩碼(Fill-Mask):根據(jù)上下文和部分信息填充給定的掩碼。
- 特征提?。‵eature Extraction):從輸入數(shù)據(jù)中提取有意義的特征表示。
- 動(dòng)作識(shí)別(Action Recognition):識(shí)別視頻中的動(dòng)作或行為。
- 動(dòng)作檢測(cè)(Action Detection):在視頻中檢測(cè)和定位特定動(dòng)作或行為。
- 直播分類(Live Category):對(duì)直播視頻進(jìn)行分類,如體育、新聞、游戲等。
- 視頻分類(Video Category):對(duì)視頻進(jìn)行分類,如電影、音樂(lè)、體育等。
- 多模態(tài)嵌入(Multi-Modal Embedding):將多種不同模態(tài)的數(shù)據(jù)映射到共享的向量空間。
- 生成式多模態(tài)嵌入(Generative Multi-Modal Embedding):將多模態(tài)數(shù)據(jù)映射到向量表示,并且能夠生成與之相關(guān)的數(shù)據(jù)。
- 多模態(tài)相似度(Multi-Modal Similarity):衡量多模態(tài)數(shù)據(jù)(例如圖像和文本)之間的相似性或相關(guān)性。
- 視覺(jué)問(wèn)答(Visual Question Answering):根據(jù)給定的圖像和問(wèn)題回答相關(guān)問(wèn)題。
- 視頻問(wèn)答(Video Question Answering):根據(jù)給定的視頻和問(wèn)題回答相關(guān)問(wèn)題。
- 視頻嵌入(Video Embedding):將視頻序列映射到固定維度的向量表示形式。
- 文本到圖像合成(Text-to-Image Synthesis):根據(jù)給定的文本描述合成相應(yīng)的圖像。
- 文本到視頻合成(Text-to-Video Synthesis):根據(jù)給定的文本描述合成相應(yīng)的視頻。
- 人體二維關(guān)鍵點(diǎn)(Body 2D Keypoints):檢測(cè)和跟蹤圖像中的人體關(guān)鍵點(diǎn)。
- 人體三維關(guān)鍵點(diǎn)(Body 3D Keypoints):在三維空間中檢測(cè)和跟蹤人體關(guān)鍵點(diǎn)。
- 手部二維關(guān)鍵點(diǎn)(Hand 2D Keypoints):檢測(cè)和跟蹤圖像中的手部關(guān)鍵點(diǎn)。
- 卡片檢測(cè)(Card Detection):在圖像中檢測(cè)和定位特定類型的卡片。
- 內(nèi)容檢查(Content Check):檢查文本或圖像中是否存在不良、敏感或違法內(nèi)容。
- 人臉檢測(cè)(Face Detection):檢測(cè)圖像或視頻中的人臉位置。
- 人臉活體檢測(cè)(Face Liveness):判斷圖像或視頻中的人臉是否為真實(shí)的活體,而非照片或視頻。
- 人臉識(shí)別(Face Recognition):識(shí)別圖像或視頻中的人臉,并將其與已知的身份進(jìn)行匹配。
- 面部表情識(shí)別(Facial Expression Recognition):識(shí)別圖像或視頻中人臉的表情狀態(tài),如快樂(lè)、悲傷、憤怒等。
- 面部屬性識(shí)別(Face Attribute Recognition):識(shí)別圖像或視頻中人臉的屬性,如年齡、性別、種族等。
- 面部二維關(guān)鍵點(diǎn)(Face 2D Keypoints):檢測(cè)和跟蹤圖像中的面部關(guān)鍵點(diǎn)。
- 面部質(zhì)量評(píng)估(Face Quality Assessment):評(píng)估圖像或視頻中人臉圖像的質(zhì)量。
- 視頻多模態(tài)嵌入(Video Multi-Modal Embedding):將多模態(tài)數(shù)據(jù)(如圖像和文本)映射到共享的向量空間。
- 圖像色彩增強(qiáng)(Image Color Enhancement):增強(qiáng)圖像的色彩飽和度、對(duì)比度和亮度等。
- 虛擬試衣(Virtual Try-On):通過(guò)計(jì)算機(jī)生成的技術(shù),將虛擬服裝應(yīng)用到真實(shí)人體圖像上,以實(shí)現(xiàn)在線試穿效果。
- 圖像上色(Image Colorization):將灰度圖像恢復(fù)為彩色圖像的過(guò)程。
- 視頻上色(Video Colorization):將黑白視頻恢復(fù)為彩色視頻的過(guò)程。
- 圖像分割(Image Segmentation):將圖像分成多個(gè)不同的區(qū)域或?qū)ο蟆?/li>
- 圖像駕駛感知(Image Driving Perception):利用計(jì)算機(jī)視覺(jué)技術(shù)提取圖像中與駕駛相關(guān)的信息,如車(chē)道線、交通標(biāo)志等。
- 圖像深度估計(jì)(Image Depth Estimation):根據(jù)單目或雙目圖像估計(jì)場(chǎng)景中物體的深度或距離。
- 室內(nèi)布局估計(jì)(Indoor Layout Estimation):根據(jù)室內(nèi)圖像估計(jì)房間的布局結(jié)構(gòu)。
- 視頻深度估計(jì)(Video Depth Estimation):根據(jù)視頻中的幀間信息估計(jì)場(chǎng)景中物體的深度或距離。
- 全景深度估計(jì)(Panorama Depth Estimation):在全景圖像中估計(jì)場(chǎng)景中物體的深度或距離。
- 圖像風(fēng)格遷移(Image Style Transfer):將一個(gè)圖像的風(fēng)格應(yīng)用到另一個(gè)圖像上,以生成具有新風(fēng)格的圖像。
- 面部圖像生成(Face Image Generation):生成逼真的面部圖像,可以用于人臉數(shù)據(jù)增強(qiáng)、數(shù)據(jù)生成等應(yīng)用。
- 圖像超分辨率(Image Super-Resolution):通過(guò)增加圖像的像素級(jí)細(xì)節(jié)來(lái)提高其分辨率。
- 圖像去塊效應(yīng)(Image Debanding):減少圖像中由壓縮引起的塊狀偽影或條紋噪聲。
- 圖像人像增強(qiáng)(Image Portrait Enhancement):改善圖像中人物主體的外觀、膚色等特征。
- 商品檢索嵌入(Product Retrieval Embedding):將商品映射到向量表示形式,以支持商品相關(guān)性檢索。
- 圖像到圖像生成(Image-to-Image Generation):根據(jù)給定的輸入圖像生成相應(yīng)的輸出圖像。
- 圖像分類(Image Classification):將圖像分類為預(yù)定義的類別或標(biāo)簽。
- 光學(xué)字符識(shí)別(OCR Recognition):從圖像中檢測(cè)和識(shí)別印刷體或手寫(xiě)體的文字。
- 美膚(Skin Retouching):對(duì)人臉圖像進(jìn)行美化處理,去除皮膚瑕疵、磨皮等。
- 常見(jiàn)問(wèn)題解答(FAQ Question Answering):根據(jù)常見(jiàn)問(wèn)題回答用戶的提問(wèn)。
- 人群計(jì)數(shù)(Crowd Counting):根據(jù)圖像或視頻中的人群密度估計(jì)人數(shù)。
- 視頻單目標(biāo)跟蹤(Video Single Object Tracking):在視頻序列中跟蹤單個(gè)目標(biāo)對(duì)象。
- 圖像人物再識(shí)別(Image ReID - Person):根據(jù)圖像中的人物外觀特征進(jìn)行身份再識(shí)別。
- 文本驅(qū)動(dòng)分割(Text-Driven Segmentation):根據(jù)給定的文本描述,對(duì)圖像或視頻中的對(duì)象進(jìn)行分割。
- 電影場(chǎng)景分割(Movie Scene Segmentation):將電影或視頻分割為不同的場(chǎng)景,每個(gè)場(chǎng)景代表一個(gè)獨(dú)立的情節(jié)或事件。
- 商店分割(Shop Segmentation):將商店內(nèi)的物體或區(qū)域從圖像或視頻中分割出來(lái),用于商品展示、智能監(jiān)控等應(yīng)用。
- 圖像修復(fù)(Image Inpainting):根據(jù)已有的圖像內(nèi)容,填補(bǔ)缺失或損壞的部分,恢復(fù)原始圖像的完整性。
- 圖像按范例繪制(Image Paint-By-Example):根據(jù)給定的范例圖像,將其他圖像修改為具有相似繪畫(huà)風(fēng)格或效果的圖像。
- 可控圖像生成(Controllable Image Generation):通過(guò)控制輸入?yún)?shù)或向量,生成具有特定屬性、風(fēng)格或特征的圖像。
- 視頻修復(fù)(Video Inpainting):根據(jù)已有的視頻內(nèi)容,填補(bǔ)缺失或損壞的幀或區(qū)域,恢復(fù)原始視頻的完整性。
- 視頻人像摳像(Video Human Matting):將視頻中的人物從背景中分割出來(lái),以便進(jìn)行后續(xù)的編輯或特效處理。
- 人體重建(Human Reconstruction):基于給定的圖像、視頻或傳感器數(shù)據(jù),重建人體的三維模型或姿態(tài)信息。
- 視頻幀插值(Video Frame Interpolation):對(duì)給定的兩個(gè)視頻幀之間的幀進(jìn)行生成,以增加視頻的幀率或平滑過(guò)渡。
- 視頻去隔行(Video Deinterlace):將隔行掃描的視頻轉(zhuǎn)換為逐行掃描,提高視頻播放的質(zhì)量和流暢度。
- 全身人體關(guān)鍵點(diǎn)檢測(cè)(Human Wholebody Keypoint Detection):在圖像或視頻中檢測(cè)和定位人體的關(guān)鍵點(diǎn),例如頭部、手、腳等。
- 靜態(tài)手勢(shì)識(shí)別(Hand Static):通過(guò)分析手掌形狀、手指姿勢(shì)等信息,識(shí)別圖像或視頻中的靜態(tài)手勢(shì)。
- 人臉、人體和手部檢測(cè)(Face-Human-Hand Detection):檢測(cè)和定位圖像或視頻中的人臉、人體和手部區(qū)域。
- 人臉情緒分析(Face Emotion):通過(guò)分析人臉表情,判斷圖像或視頻中人臉?biāo)磉_(dá)的情緒狀態(tài)。
- 商品分割(Product Segmentation):將圖像或視頻中的商品或產(chǎn)品從背景中分割出來(lái),用于商品識(shí)別、廣告推薦等應(yīng)用。
- 參考視頻對(duì)象分割(Referring Video Object Segmentation):根據(jù)給定的參考圖像或視頻,對(duì)圖像或視頻中的對(duì)象進(jìn)行分割。
- 視頻摘要(Video Summarization):根據(jù)視頻的內(nèi)容和特征,生成視頻的摘要或概覽,提供視頻瀏覽和檢索的便利性。
- 圖像天空變換(Image Sky Change):將圖像中的天空部分替換為不同的天空背景,改變圖像的氛圍和環(huán)境。
- 翻譯評(píng)估(Translation Evaluation):根據(jù)給定的翻譯結(jié)果,評(píng)估其質(zhì)量、準(zhǔn)確性以及與原文的一致性。
- 視頻對(duì)象分割(Video Object Segmentation):將視頻中的對(duì)象從背景中分割出來(lái),以便進(jìn)行后續(xù)的編輯或特效處理。
- 視頻多目標(biāo)跟蹤(Video Multi-Object Tracking):在視頻中同時(shí)跟蹤多個(gè)移動(dòng)目標(biāo),實(shí)時(shí)定位和追蹤目標(biāo)的位置。
- 多視角深度估計(jì)(Multi-View Depth Estimation):通過(guò)多個(gè)視圖或圖像,估計(jì)場(chǎng)景中物體的三維深度信息。
- 少樣本檢測(cè)(Few-Shot Detection):在只有少量標(biāo)注樣本的情況下,進(jìn)行目標(biāo)檢測(cè)任務(wù),提高模型的泛化能力。
- 人體形狀重塑(Body Reshaping):根據(jù)圖像或視頻中的人體區(qū)域,調(diào)整人體的形狀、姿態(tài)或比例,改變?nèi)梭w外貌。
- 人臉融合(Face Fusion):將一個(gè)人的面部特征或表情融合到另一個(gè)人的頭像上,生成具有兩者特點(diǎn)的合成圖像。
- 圖像匹配(Image Matching):在圖像庫(kù)或數(shù)據(jù)庫(kù)中,找到與給定圖像最相似或匹配的圖像。
- 圖像質(zhì)量評(píng)估 - 主觀評(píng)分(Image Quality Assessment - MOS):通過(guò)主觀評(píng)分的方法,評(píng)估圖像的質(zhì)量,反映人眼對(duì)圖像的感知。
- 圖像質(zhì)量評(píng)估 - 降質(zhì)度量(Image Quality Assessment - Degradation):通過(guò)客觀度量的方法,評(píng)估圖像在不同變換或壓縮條件下的質(zhì)量。
- 視覺(jué)高效調(diào)優(yōu)(Vision Efficient Tuning):通過(guò)自動(dòng)化的方法,快速調(diào)優(yōu)和優(yōu)化視覺(jué)模型和算法,提升計(jì)算效率和準(zhǔn)確性。
- 三維目標(biāo)檢測(cè)(Object Detection 3D):在三維空間中,檢測(cè)和定位目標(biāo)物體的位置、尺寸和姿態(tài)。
- 壞圖像檢測(cè)(Bad Image Detecting):識(shí)別和檢測(cè)出圖像中存在的噪點(diǎn)、模糊、失真等不良或低質(zhì)量的圖像。
- Nerf重建精度評(píng)估(NeRF Reconstruction Accuracy):評(píng)估神經(jīng)輻射場(chǎng)(NeRF)模型在建立3D場(chǎng)景重建時(shí)的準(zhǔn)確性和質(zhì)量。
- Siamese UIE:Siamese網(wǎng)絡(luò)用于UIE任務(wù),即輸入用戶界面元素識(shí)別或生成的相關(guān)問(wèn)題。
- 數(shù)學(xué)公式識(shí)別(LatexOCR):圖片中數(shù)學(xué)公式的latex識(shí)別。
到了這里,關(guān)于【人工智能124種任務(wù)大集合】-集齊了自然語(yǔ)言處理(NLP),計(jì)算機(jī)視覺(jué)(CV),語(yǔ)音識(shí)別,多模態(tài)等任務(wù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!