基礎(chǔ)
自然語言處理(NLP)
自然語言處理PaddleNLP-詞向量應(yīng)用展示
自然語言處理(NLP)-前預(yù)訓(xùn)練時代的自監(jiān)督學(xué)習(xí)
自然語言處理PaddleNLP-預(yù)訓(xùn)練語言模型及應(yīng)用
自然語言處理PaddleNLP-文本語義相似度計算(ERNIE-Gram)
自然語言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用
自然語言處理PaddleNLP-快遞單信息抽取
理解
自然語言處理PaddleNLP-信息抽取技術(shù)及應(yīng)用
自然語言處理PaddleNLP-基于預(yù)訓(xùn)練模型完成實體關(guān)系抽取--實踐
自然語言處理PaddleNLP-情感分析技術(shù)及應(yīng)用-理論
自然語言處理PaddleNLP-情感分析技術(shù)及應(yīng)用SKEP-實踐
問答
自然語言處理PaddleNLP-檢索式文本問答-理論
自然語言處理PaddleNLP-結(jié)構(gòu)化數(shù)據(jù)問答-理論
翻譯
自然語言處理PaddleNLP-文本翻譯技術(shù)及應(yīng)用-理論
自然語言處理PaddleNLP-機器同傳技術(shù)及應(yīng)用-理論
對話
自然語言處理PaddleNLP-任務(wù)式對話系統(tǒng)-理論
自然語言處理PaddleNLP-開放域?qū)υ捪到y(tǒng)-理論
產(chǎn)業(yè)實踐
自然語言處理 Paddle NLP - 預(yù)訓(xùn)練模型產(chǎn)業(yè)實踐課-理論
1.什么是信息抽取
即自動從無結(jié)構(gòu)或半結(jié)構(gòu)的文本中抽取出結(jié)構(gòu)化信息的任務(wù)(病歷抽取)
2.實體抽取
3.關(guān)系抽取
4.事件抽取
信息抽取和知識圖譜是一個上下游的關(guān)系。抽取的結(jié)果,可以組裝成知識圖譜(一種存儲知識的結(jié)構(gòu))
醫(yī)療、金融、法律,三大行業(yè)用得比較多
從問診中抽取信息
貸款審核,大量的紙質(zhì)、DPF文件,需要將里面的信息進行匹配審核
根據(jù)抽取結(jié)果在不在原文中對信息抽取分類
這次我們只關(guān)注抽取式,不在原文中的情況需要參考生成方法
- 抽取式:結(jié)果在原文中
- 生成式:結(jié)果不在原文中,如果生成的結(jié)果需要一個知識做為輔助,就需要知識圖譜,很多時候不需要知識圖譜
抽取式分類
- 實體抽取
- 關(guān)系抽取
- 事件抽取
信息抽取的通用評測指標,所有的信息抽取都可以用它評
Precision:抽取出來的結(jié)果,抽出來10個,5個對的,就是 50%
Recall:關(guān)注模型漏了哪些東西,指標0~1,數(shù)值越高,模型越好
F1:Precision和Recall的綜合平均,是兩個的綜合反映
抽取模型的關(guān)鍵要素:解碼設(shè)計
實體抽取
從一段文本中抽取出文本內(nèi)容,并識別為預(yù)定義的類別
一般是 BIO 解碼方式 + CRF 模型結(jié)構(gòu)
復(fù)雜的實體抽取,無法用 BIO 直接解決(用到關(guān)系抽?。?br>
復(fù)雜實體抽取中的問題1:重疊嵌套
復(fù)雜實體抽取中的問題2:不連續(xù)
關(guān)系抽取
從文本中抽取出一對實體和預(yù)定義的關(guān)系類型,得到包含語義信息的實體關(guān)系三元組關(guān)系是有方向的,抽取的兩個實體一般稱作頭實體(HeadEntity)和尾實體(TailEntity)
關(guān)系分類是關(guān)系抽取的第二步
解碼設(shè)計
訓(xùn)練集需要人工標注或其它標注
簡單關(guān)系抽取
復(fù)雜關(guān)系抽取,將 CRF 升級成 Sigmoid,判斷大于 0.5 是一個類別,小于則不是
實體對組合
效果最好的模型,可以預(yù)測很多個類別
SPO 主謂賓
事件抽取
從一段文本中抽取出預(yù)定義的事件觸發(fā)詞和事件要素,組合為相應(yīng)的結(jié)構(gòu)化信息除了事件,實際應(yīng)用中信息抽取的結(jié)果可能更加復(fù)雜,但都可以拆成關(guān)系抽取
視頻:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461929&sharedType=2&sharedUserId=2631487&ts=1687255180562
課件:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1567901&sharedType=2&sharedUserId=2631487&ts=1687255251418
實踐視頻:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461933&sharedType=2&sharedUserId=2631487&ts=1687255270609
實踐代碼:https://aistudio.baidu.com/aistudio/projectdetail/1978303?sUid=2631487&shared=1&ts=1687255348900文章來源:http://www.zghlxwxcb.cn/news/detail-491563.html
『基于深度學(xué)習(xí)的自然語言處理』:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedType=1&sharedUserId=2631487&ts=1687255213292文章來源地址http://www.zghlxwxcb.cn/news/detail-491563.html
到了這里,關(guān)于自然語言處理 Paddle NLP - 信息抽取技術(shù)及應(yīng)用的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!