本文學(xué)習(xí)目標(biāo)
- 了解什么是命名實(shí)體識(shí)別
- 了解命名實(shí)體識(shí)別的作用
- 了解命名實(shí)體識(shí)別常用方法
- 了解醫(yī)學(xué)文本特征
一. NER
1.1 什么是命名實(shí)體識(shí)別:
命名實(shí)體識(shí)別(Named Entity Recognition,NER)就是從一段自然語(yǔ)言文本中找出相關(guān)實(shí)體,并標(biāo)注出其位置以及類型。是信息提取, 問(wèn)答系統(tǒng), 句法分析, 機(jī)器翻譯等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具, 在自然語(yǔ)言處理技術(shù)走向?qū)嵱没倪^(guò)程中占有重要地位. 包含行業(yè), 領(lǐng)域?qū)S忻~, 如人名, 地名, 公司名, 機(jī)構(gòu)名, 日期, 時(shí)間, 疾病名, 癥狀名, 手術(shù)名稱, 軟件名稱等。具體可參看如下示例圖:
1.2 命名實(shí)體識(shí)別的作用:
-
識(shí)別專有名詞, 為文本結(jié)構(gòu)化提供支持.
-
主體識(shí)別, 輔助句法分析.
-
實(shí)體關(guān)系抽取, 有利于知識(shí)推理.
1.3 命名實(shí)體識(shí)別常用方法:
- 基于規(guī)則: 針對(duì)有特殊上下文的實(shí)體, 或?qū)嶓w本身有很多特征的文本, 使用規(guī)則的方法簡(jiǎn)單且有效. 比如抽取文本中物品價(jià)格, 如果文本中所有商品價(jià)格都是“數(shù)字+元”的形式, 則可以通過(guò)正則表達(dá)式”\d*.?\d+元”進(jìn)行抽取. 但如果待抽取文本中價(jià)格的表達(dá)方式多種多樣, 例如“一千八百萬(wàn)”, “伍佰貳拾圓”, “2000萬(wàn)元”, 遇到這些情況就要修改規(guī)則來(lái)滿足所有可能的情況. 隨著語(yǔ)料數(shù)量的增加, 面對(duì)的情況也越來(lái)越復(fù)雜, 規(guī)則之間也可能發(fā)生沖突, 整個(gè)系統(tǒng)也可能變得不可維護(hù). 因此基于規(guī)則的方式比較適合半結(jié)構(gòu)化或比較規(guī)范的文本中的進(jìn)行抽取任務(wù), 結(jié)合業(yè)務(wù)需求能夠達(dá)到一定的效果.
-
缺點(diǎn): 適用性差, 維護(hù)成本高后期甚至不能維護(hù).
-
優(yōu)點(diǎn): 簡(jiǎn)單, 快速.
- 基于模型: 從模型的角度來(lái)看, 命名實(shí)體識(shí)別問(wèn)題實(shí)際上是序列標(biāo)注問(wèn)題. 序列標(biāo)注問(wèn)題指的是模型的輸入是一個(gè)序列, 包括文字, 時(shí)間等, 輸出也是一個(gè)序列. 針對(duì)輸入序列的每一個(gè)單元, 輸出一個(gè)特定的標(biāo)簽. 以中文分詞任務(wù)進(jìn)行舉例, 例如輸入序列是一串文字: “我是中國(guó)人”, 輸出序列是一串標(biāo)簽: “OOBII”, 其中"BIO"組成了一種中文分詞的標(biāo)簽體系: B表示這個(gè)字是詞的開(kāi)始, I表示詞的中間到結(jié)尾, O表示其他類型詞. 因此我們可以根據(jù)輸出序列"OOBII"進(jìn)行解碼, 得到分詞結(jié)果"我\是\中國(guó)人".
-
序列標(biāo)注問(wèn)題涵蓋了自然語(yǔ)言處理中的很多任務(wù), 包括語(yǔ)音識(shí)別, 中文分詞, 機(jī)器翻譯, 命名實(shí)體識(shí)別等, 而常見(jiàn)的序列標(biāo)注模型包括HMM, CRF, RNN, LSTM, GRU等模型.
-
其中在命名實(shí)體識(shí)別技術(shù)上, 目前主流的技術(shù)是通過(guò)BiLSTM+CRF模型進(jìn)行序列標(biāo)注, 也是項(xiàng)目中要用到的模型.
1.4 醫(yī)學(xué)文本特征:
-
簡(jiǎn)短精煉
-
形容詞相對(duì)較少
-
泛化性相對(duì)較小
-
醫(yī)學(xué)名詞錯(cuò)字率比較高
-
同義詞、簡(jiǎn)稱比較多
二、 BiLSTM
2.1 學(xué)習(xí)目標(biāo):
-
了解BiLSTM網(wǎng)絡(luò)結(jié)構(gòu).
-
掌握BiLSTM模型實(shí)現(xiàn).
2.2 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu):
-
所謂的BiLSTM,就是(Bidirectional LSTM)雙向LSTM. 單向的LSTM模型只能捕捉到從前向后傳遞的信息, 而雙向的網(wǎng)絡(luò)可以同時(shí)捕捉正向信息和反向信息, 使得對(duì)文本信息的利用更全面, 效果也更好.
-
在BiLSTM網(wǎng)絡(luò)最終的輸出層后面增加了一個(gè)線性層, 用來(lái)將BiLSTM產(chǎn)生的隱藏層輸出結(jié)果投射到具有某種表達(dá)標(biāo)簽特征意義的區(qū)間, 具體如下圖所示:
2.3 BiLSTM模型實(shí)現(xiàn):
-
第一步: 實(shí)現(xiàn)類的初始化和網(wǎng)絡(luò)結(jié)構(gòu)的搭建.
-
第二步: 實(shí)現(xiàn)文本向量化的函數(shù).
-
第三步: 實(shí)現(xiàn)網(wǎng)絡(luò)的前向計(jì)算.
2.3.1 第一步: 實(shí)現(xiàn)類的初始化和網(wǎng)絡(luò)結(jié)構(gòu)的搭建.
# 本段代碼構(gòu)建類BiLSTM, 完成初始化和網(wǎng)絡(luò)結(jié)構(gòu)的搭建
# 總共3層: 詞嵌入層, 雙向LSTM層, 全連接線性層
import torch
import torch.nn as nn
class BiLSTM(nn.Module):
"""
description: BiLSTM 模型定義
"""
def __init__(self, vocab_size, tag_to_id, input_feature_size, hidden_size,
batch_size, sentence_length, num_layers=1, batch_first=True):
"""
description: 模型初始化
:param vocab_size: 所有句子包含字符大小
:param tag_to_id: 標(biāo)簽與 id 對(duì)照
:param input_feature_size: 字嵌入維度( 即LSTM輸入層維度 input_size )
:param hidden_size: 隱藏層向量維度
:param batch_size: 批訓(xùn)練大小
:param sentence_length 句子長(zhǎng)度
:param num_layers: 堆疊 LSTM 層數(shù)
:param batch_first: 是否將batch_size放置到矩陣的第一維度
"""
# 類繼承初始化函數(shù)
super(BiLSTM, self).__init__()
# 設(shè)置標(biāo)簽與id對(duì)照
self.tag_to_id = tag_to_id
# 設(shè)置標(biāo)簽大小, 對(duì)應(yīng)BiLSTM最終輸出分?jǐn)?shù)矩陣寬度
self.tag_size = len(tag_to_id)
# 設(shè)定LSTM輸入特征大小, 對(duì)應(yīng)詞嵌入的維度大小
self.embedding_size = input_feature_size
# 設(shè)置隱藏層維度, 若為雙向時(shí)想要得到同樣大小的向量, 需要除以2
self.hidden_size = hidden_size // 2
# 設(shè)置批次大小, 對(duì)應(yīng)每個(gè)批次的樣本條數(shù), 可以理解為輸入張量的第一個(gè)維度
self.batch_size = batch_size
# 設(shè)定句子長(zhǎng)度
self.sentence_length = sentence_length
# 設(shè)定是否將batch_size放置到矩陣的第一維度, 取值True, 或False
self.batch_first = batch_first
# 設(shè)置網(wǎng)絡(luò)的LSTM層數(shù)
self.num_layers = num_layers
# 構(gòu)建詞嵌入層: 字向量, 維度為總單詞數(shù)量與詞嵌入維度
# 參數(shù): 總體字庫(kù)的單詞數(shù)量, 每個(gè)字被嵌入的維度
self.embedding = nn.Embedding(vocab_size, self.embedding_size)
# 構(gòu)建雙向LSTM層: BiLSTM (參數(shù): input_size 字向量維度(即輸入層大小),
# hidden_size 隱藏層維度,
# num_layers 層數(shù),
# bidirectional 是否為雙向,
# batch_first 是否批次大小在第一位)
self.bilstm = nn.LSTM(input_size=input_feature_size,
hidden_size=self.hidden_size,
num_layers=num_layers,
bidirectional=True,
batch_first=batch_first)
# 構(gòu)建全連接線性層: 將BiLSTM的輸出層進(jìn)行線性變換
self.linear = nn.Linear(hidden_size, self.tag_size)
輸入?yún)?shù):
# 參數(shù)1:碼表與id對(duì)照
char_to_id = {"雙": 0, "肺": 1, "見(jiàn)": 2, "多": 3, "發(fā)": 4, "斑": 5, "片": 6,
"狀": 7, "稍": 8, "高": 9, "密": 10, "度": 11, "影": 12, "。": 13}
# 參數(shù)2:標(biāo)簽碼表對(duì)照
tag_to_id = {"O": 0, "B-dis": 1, "I-dis": 2, "B-sym": 3, "I-sym": 4}
# 參數(shù)3:字向量維度
EMBEDDING_DIM = 200
# 參數(shù)4:隱層維度
HIDDEN_DIM = 100
# 參數(shù)5:批次大小
BATCH_SIZE = 8
# 參數(shù)6:句子長(zhǎng)度
SENTENCE_LENGTH = 20
# 參數(shù)7:堆疊 LSTM 層數(shù)
NUM_LAYERS = 1
調(diào)用:
# 初始化模型
model = BiLSTM(vocab_size=len(char_to_id),
tag_to_id=tag_to_id,
input_feature_size=EMBEDDING_DIM,
hidden_size=HIDDEN_DIM,
batch_size=BATCH_SIZE,
sentence_length=SENTENCE_LENGTH,
num_layers=NUM_LAYERS)
print(model)
輸出效果:
BiLSTM(
(embedding): Embedding(14, 200)
(bilstm): LSTM(200, 50, batch_first=True, bidirectional=True)
(linear): Linear(in_features=100, out_features=5, bias=True)
)
2.3.2 第二步:實(shí)現(xiàn)文本向量化的函數(shù)
# 本函數(shù)實(shí)現(xiàn)將中文文本映射為數(shù)字化的張量
def sentence_map(sentence_list, char_to_id, max_length):
"""
description: 將句子中的每一個(gè)字符映射到碼表中
:param sentence: 待映射句子, 類型為字符串或列表
:param char_to_id: 碼表, 類型為字典, 格式為{"字1": 1, "字2": 2}
:return: 每一個(gè)字對(duì)應(yīng)的編碼, 類型為tensor
"""
# 字符串按照逆序進(jìn)行排序, 不是必須操作
sentence_list.sort(key=lambda c:len(c), reverse=True)
# 定義句子映射列表
sentence_map_list = []
for sentence in sentence_list:
# 生成句子中每個(gè)字對(duì)應(yīng)的 id 列表
sentence_id_list = [char_to_id[c] for c in sentence]
# 計(jì)算所要填充 0 的長(zhǎng)度
padding_list = [0] * (max_length-len(sentence))
# 組合
sentence_id_list.extend(padding_list)
# 將填充后的列表加入句子映射總表中
sentence_map_list.append(sentence_id_list)
# 返回句子映射集合, 轉(zhuǎn)為標(biāo)量
return torch.tensor(sentence_map_list, dtype=torch.long)
輸入?yún)?shù):
# 參數(shù)1:句子集合
sentence_list = [
"確診彌漫大b細(xì)胞淋巴瘤1年",
"反復(fù)咳嗽、咳痰40年,再發(fā)伴氣促5天。",
"生長(zhǎng)發(fā)育遲緩9年。",
"右側(cè)小細(xì)胞肺癌第三次化療入院",
"反復(fù)氣促、心悸10年,加重伴胸痛3天。",
"反復(fù)胸悶、心悸、氣促2多月,加重3天",
"咳嗽、胸悶1月余, 加重1周",
"右上肢無(wú)力3年, 加重伴肌肉萎縮半年"]
# 參數(shù)2:碼表與id對(duì)照
char_to_id = {"<PAD>":0}
# 參數(shù)3:句子長(zhǎng)度
SENTENCE_LENGTH = 20
調(diào)用:
if __name__ == '__main__':
for sentence in sentence_list:
# 獲取句子中的每一個(gè)字
for _char in sentence:
# 判斷是否在碼表 id 對(duì)照字典中存在
if _char not in char_to_id:
# 加入字符id對(duì)照字典
char_to_id[_char] = len(char_to_id)
# 將句子轉(zhuǎn)為 id 并用 tensor 包裝
sentences_sequence = sentence_map(sentence_list, char_to_id, SENTENCE_LENGTH)
print("sentences_sequence:\n", sentences_sequence)
輸出效果:
sentences_sequence:
tensor([[14, 15, 16, 17, 18, 16, 19, 20, 21, 13, 22, 23, 24, 25, 26, 27, 28, 29, 30, 0],
[14, 15, 26, 27, 18, 49, 50, 12, 21, 13, 22, 51, 52, 25, 53, 54, 55, 29, 30, 0],
[14, 15, 53, 56, 18, 49, 50, 18, 26, 27, 57, 58, 59, 22, 51, 52, 55, 29, 0, 0],
[37, 63, 64, 65, 66, 55, 13, 22, 61, 51, 52, 25, 67, 68, 69, 70, 71, 13, 0, 0],
[37, 38, 39, 7, 8, 40, 41, 42, 43, 44, 45, 46, 47, 48, 0, 0, 0, 0, 0, 0],
[16, 17, 18, 53, 56, 12, 59, 60, 22, 61, 51, 52, 12, 62, 0, 0, 0, 0, 0, 0],
[ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 0, 0, 0, 0, 0, 0, 0],
[31, 32, 24, 33, 34, 35, 36, 13, 30, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
2.3.3 第三步: 實(shí)現(xiàn)網(wǎng)絡(luò)的前向計(jì)算
# 本函數(shù)實(shí)現(xiàn)類BiLSTM中的前向計(jì)算函數(shù)forward()
def forward(self, sentences_sequence):
"""
description: 將句子利用BiLSTM進(jìn)行特征計(jì)算,分別經(jīng)過(guò)Embedding->BiLSTM->Linear,
獲得發(fā)射矩陣(emission scores)
:param sentences_sequence: 句子序列對(duì)應(yīng)的編碼,
若設(shè)定 batch_first 為 True,
則批量輸入的 sequence 的 shape 為(batch_size, sequence_length)
:return: 返回當(dāng)前句子特征,轉(zhuǎn)化為 tag_size 的維度的特征
"""
# 初始化隱藏狀態(tài)值
h0 = torch.randn(self.num_layers * 2, self.batch_size, self.hidden_size)
# 初始化單元狀態(tài)值
c0 = torch.randn(self.num_layers * 2, self.batch_size, self.hidden_size)
# 生成字向量, shape 為(batch, sequence_length, input_feature_size)
# 注:embedding cuda 優(yōu)化僅支持 SGD 、 SparseAdam
input_features = self.embedding(sentences_sequence)
# 將字向量與初始值(隱藏狀態(tài) h0 , 單元狀態(tài) c0 )傳入 LSTM 結(jié)構(gòu)中
# 輸出包含如下內(nèi)容:
# 1, 計(jì)算的輸出特征,shape 為(batch, sentence_length, hidden_size)
# 順序?yàn)樵O(shè)定 batch_first 為 True 情況, 若未設(shè)定則 batch 在第二位
# 2, 最后得到的隱藏狀態(tài) hn , shape 為(num_layers * num_directions, batch, hidden_size)
# 3, 最后得到的單元狀態(tài) cn , shape 為(num_layers * num_directions, batch, hidden_size)
output, (hn, cn) = self.bilstm(input_features, (h0, c0))
# 將輸出特征進(jìn)行線性變換,轉(zhuǎn)為 shape 為 (batch, sequence_length, tag_size) 大小的特征
sequence_features = self.linear(output)
# 輸出線性變換為 tag 映射長(zhǎng)度的特征
return sequence_features
輸入?yún)?shù):
# 參數(shù)1:標(biāo)簽碼表對(duì)照
tag_to_id = {"O": 0, "B-dis": 1, "I-dis": 2, "B-sym": 3, "I-sym": 4}
# 參數(shù)2:字向量維度
EMBEDDING_DIM = 200
# 參數(shù)3:隱層維度
HIDDEN_DIM = 100
# 參數(shù)4:批次大小
BATCH_SIZE = 8
# 參數(shù)5:句子長(zhǎng)度
SENTENCE_LENGTH = 20
# 參數(shù)6:堆疊 LSTM 層數(shù)
NUM_LAYERS = 1
char_to_id = {"<PAD>":0}
SENTENCE_LENGTH = 20
調(diào)用:
if __name__ == '__main__':
for sentence in sentence_list:
for _char in sentence:
if _char not in char_to_id:
char_to_id[_char] = len(char_to_id)
sentence_sequence = sentence_map(sentence_list, char_to_id, SENTENCE_LENGTH)
model = BiLSTM(vocab_size=len(char_to_id), tag_to_id=tag_to_id, input_feature_size=EMBEDDING_DIM, \
hidden_size=HIDDEN_DIM, batch_size=BATCH_SIZE, sentence_length=SENTENCE_LENGTH, num_layers=NUM_LAYERS)
sentence_features = model(sentence_sequence)
print("sequence_features:\n", sentence_features)
輸出效果:
sequence_features:
tensor([[[ 4.0880e-02, -5.8926e-02, -9.3971e-02, 8.4794e-03, -2.9872e-01],
[ 2.9434e-02, -2.5901e-01, -2.0811e-01, 1.3794e-02, -1.8743e-01],
[-2.7899e-02, -3.4636e-01, 1.3382e-02, 2.2684e-02, -1.2067e-01],
[-1.9069e-01, -2.6668e-01, -5.7182e-02, 2.1566e-01, 1.1443e-01],
...
[-1.6844e-01, -4.0699e-02, 2.6328e-02, 1.3513e-01, -2.4445e-01],
[-7.3070e-02, 1.2032e-01, 2.2346e-01, 1.8993e-01, 8.3171e-02],
[-1.6808e-01, 2.1454e-02, 3.2424e-01, 8.0905e-03, -1.5961e-01],
[-1.9504e-01, -4.9296e-02, 1.7219e-01, 8.9345e-02, -1.4214e-01]],
...
[[-3.4836e-03, 2.6217e-01, 1.9355e-01, 1.8084e-01, -1.6086e-01],
[-9.1231e-02, -8.4838e-04, 1.0575e-01, 2.2864e-01, 1.6104e-02],
[-8.7726e-02, -7.6956e-02, -7.0301e-02, 1.7199e-01, -6.5375e-02],
[-5.9306e-02, -5.4701e-02, -9.3267e-02, 3.2478e-01, -4.0474e-02],
[-1.1326e-01, 4.8365e-02, -1.7994e-01, 8.1722e-02, 1.8604e-01],
...
[-5.8271e-02, -6.5781e-02, 9.9232e-02, 4.8524e-02, -8.2799e-02],
[-6.8400e-02, -9.1515e-02, 1.1352e-01, 1.0674e-02, -8.2739e-02],
[-9.1461e-02, -1.2304e-01, 1.2540e-01, -4.2065e-02, -8.3091e-02],
[-1.5834e-01, -8.7316e-02, 7.0567e-02, -8.8845e-02, -7.0867e-02]],
[[-1.4069e-01, 4.9171e-02, 1.4314e-01, -1.5284e-02, -1.4395e-01],
[ 6.5296e-02, 9.3255e-03, -2.8411e-02, 1.5143e-01, 7.8252e-02],
[ 4.1765e-03, -1.4635e-01, -4.9798e-02, 2.7597e-01, -1.0256e-01],
...
[-3.9810e-02, -7.6746e-03, 1.2418e-01, 4.9897e-02, -8.4538e-02],
[-3.4474e-02, -1.0586e-02, 1.3861e-01, 4.0395e-02, -8.3676e-02],
[-3.4092e-02, -2.3208e-02, 1.6097e-01, 2.3498e-02, -8.3332e-02],
[-4.6900e-02, -5.0335e-02, 1.8982e-01, 3.6287e-03, -7.8078e-02],
[-6.4105e-02, -4.2628e-02, 1.8999e-01, -2.9888e-02, -1.1875e-01]]],
grad_fn=<AddBackward0>)
輸出結(jié)果說(shuō)明: 該輸出結(jié)果為輸入批次中句子的特征, 利用線性變換分別對(duì)應(yīng)到每個(gè)tag的得分. 例如上述標(biāo)量第一個(gè)值:[ 4.0880e-02, -5.8926e-02, -9.3971e-02, 8.4794e-03, -2.9872e-01]表示的意思為第一個(gè)句子第一個(gè)字分別被標(biāo)記為[“O”, “B-dis”, “I-dis”, “B-sym”, “I-sym”]的分?jǐn)?shù), 由此可以判斷, 在這個(gè)例子中, 第一個(gè)字被標(biāo)注為"O"的分?jǐn)?shù)最高.
總結(jié):
-
添加文本向量化的輔助函數(shù), 注意padding填充為相同長(zhǎng)度的Tensor
-
要注意forward函數(shù)中不同張量的形狀約定
-
設(shè)置隱藏層維度的時(shí)候, 需要將hidden_size // 2
-
總共有3層需要構(gòu)建, 分別是詞嵌入層, 雙向LSTM層, 全連接線性層
-
在代碼層面, 雙向LSTM就是將nn.LSTM()中的參數(shù)bidirectional設(shè)置為True文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-410973.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-410973.html
到了這里,關(guān)于【NLP屠夫系列】- NER之實(shí)戰(zhàn)BILSTM的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!