基礎(chǔ)
自然語(yǔ)言處理(NLP)
自然語(yǔ)言處理PaddleNLP-詞向量應(yīng)用展示
自然語(yǔ)言處理(NLP)-前預(yù)訓(xùn)練時(shí)代的自監(jiān)督學(xué)習(xí)
自然語(yǔ)言處理PaddleNLP-預(yù)訓(xùn)練語(yǔ)言模型及應(yīng)用
自然語(yǔ)言處理PaddleNLP-文本語(yǔ)義相似度計(jì)算(ERNIE-Gram)
自然語(yǔ)言處理PaddleNLP-詞法分析技術(shù)及其應(yīng)用
自然語(yǔ)言處理PaddleNLP-快遞單信息抽取
理解
自然語(yǔ)言處理PaddleNLP-信息抽取技術(shù)及應(yīng)用
自然語(yǔ)言處理PaddleNLP-基于預(yù)訓(xùn)練模型完成實(shí)體關(guān)系抽取--實(shí)踐
自然語(yǔ)言處理PaddleNLP-情感分析技術(shù)及應(yīng)用-理論
自然語(yǔ)言處理PaddleNLP-情感分析技術(shù)及應(yīng)用SKEP-實(shí)踐
問(wèn)答
自然語(yǔ)言處理PaddleNLP-檢索式文本問(wèn)答-理論
自然語(yǔ)言處理PaddleNLP-結(jié)構(gòu)化數(shù)據(jù)問(wèn)答-理論
翻譯
自然語(yǔ)言處理PaddleNLP-文本翻譯技術(shù)及應(yīng)用-理論
自然語(yǔ)言處理PaddleNLP-機(jī)器同傳技術(shù)及應(yīng)用-理論
對(duì)話
自然語(yǔ)言處理PaddleNLP-任務(wù)式對(duì)話系統(tǒng)-理論
自然語(yǔ)言處理PaddleNLP-開(kāi)放域?qū)υ捪到y(tǒng)-理論
產(chǎn)業(yè)實(shí)踐
自然語(yǔ)言處理 Paddle NLP - 預(yù)訓(xùn)練模型產(chǎn)業(yè)實(shí)踐課-理論
詞向量(Word embedding),即把詞語(yǔ)表示成實(shí)數(shù)向量。“好”的詞向量能體現(xiàn)詞語(yǔ)直接的相近關(guān)系。詞向量已經(jīng)被證明可以提高NLP任務(wù)的性能,例如語(yǔ)法分析和情感分析。
PaddleNLP已預(yù)置多個(gè)公開(kāi)的預(yù)訓(xùn)練Embedding,您可以通過(guò)使用paddlenlp.embeddings.TokenEmbedding接口加載各種預(yù)訓(xùn)練Embedding。本篇教程將介紹paddlenlp.embeddings.TokenEmbedding的使用方法,計(jì)算詞與詞之間的語(yǔ)義距離,并結(jié)合詞袋模型獲取句子的語(yǔ)義表示。
字典:有字,有索引(位置編碼),就構(gòu)成了一個(gè)字典,如下表
調(diào)詞向量,是通過(guò)編碼,去查詞向量矩陣,通過(guò) 0 查到 人們
字 | 位置編碼 |
---|---|
人們 | 0 |
二 | 1 |
3 | 2 |
預(yù)訓(xùn)練模型中的字典,會(huì)和這邊介紹的有所不同,分詞后可能會(huì)變成拆開(kāi)的 | |
字 | 位置編碼 |
------------ | ------------ |
人 | 0 |
們 | 1 |
二 | 2 |
3 | 3 |
加載TokenEmbedding
TokenEmbedding()
參數(shù)
-
embedding_name
將模型名稱以參數(shù)形式傳入TokenEmbedding,加載對(duì)應(yīng)的模型。默認(rèn)為w2v.baidu_encyclopedia.target.word-word.dim300
的詞向量。 -
unknown_token
未知token的表示,默認(rèn)為[UNK]。 -
unknown_token_vector
未知token的向量表示,默認(rèn)生成和embedding維數(shù)一致,數(shù)值均值為0的正態(tài)分布向量。 -
extended_vocab_path
擴(kuò)展詞匯列表文件路徑,詞表格式為一行一個(gè)詞。如引入擴(kuò)展詞匯列表,trainable=True。 -
trainable
Embedding層是否可被訓(xùn)練。True表示Embedding可以更新參數(shù),F(xiàn)alse為不可更新。默認(rèn)為True。
https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/embeddings/token_embedding.py
def __init__(
self,
embedding_name=EMBEDDING_NAME_LIST[0], # 詞向量名字
unknown_token=UNK_TOKEN,
unknown_token_vector=None,
extended_vocab_path=None,
trainable=True,
keep_extended_vocab_only=False,
):
...
# 是否要進(jìn)行梯度更新,默認(rèn)不做
def set_trainable(self, trainable):
# 查找詞向量
def search(self, words):
# 通過(guò)詞,找對(duì)應(yīng)的ID
def get_idx_from_word(self, word):
# 余弦相似度
def cosine_sim(self, word_a, word_b):
w2v.baidu_encyclopedia.target.word-word.dim300 左右方向 300,上下方向:3萬(wàn)個(gè)
300維,每個(gè)詞對(duì)應(yīng)的詞向量,訓(xùn)練詞向量時(shí),設(shè)置好的參數(shù),如果設(shè)置200維,訓(xùn)練出來(lái)的所有詞的詞向量都是200維,將詞壓縮到300維空間做Embedding嵌入方式表征得到的結(jié)果。
300維這個(gè)數(shù)字是經(jīng)驗(yàn)得來(lái)的,比較大,相對(duì)準(zhǔn)一些,如果追求速度,就用100維的
Token: 比如打一句話,把它拆成中文能理解的一個(gè)個(gè)詞,這個(gè)詞就是一個(gè)Token,如果拆成一個(gè)字一個(gè)字,字就是 Token,NLP里就是這么叫的。專業(yè)詞匯
常用的分詞工具:jieba、IAC(百度)
醫(yī)療、法律,不建議使用訓(xùn)練好的通用詞向量,需要自己去訓(xùn)練,會(huì)達(dá)到意想不到的效果
# TokenEmbedding => 向量矩陣 Skip-gram 中的 訓(xùn)練好的 W
from paddlenlp.embeddings import TokenEmbedding
# 初始化TokenEmbedding, 預(yù)訓(xùn)練embedding未下載時(shí)會(huì)自動(dòng)下載并加載數(shù)據(jù)
# 中英文混雜比較厲害時(shí)不建議使用 訓(xùn)練好的詞向量 `w2v.baidu_encyclopedia.target.word-word.dim300`,如果有就能調(diào)到如果沒(méi)有就UNK,所以需要自己去訓(xùn)練
# https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/embeddings/constant.py
token_embedding = TokenEmbedding(embedding_name="w2v.baidu_encyclopedia.target.word-word.dim300")
# 查看token_embedding詳情
print(token_embedding)
認(rèn)識(shí)一下Embedding
TokenEmbedding.search()
獲得指定詞匯的詞向量。
test_token_embedding = token_embedding.search("中國(guó)")
print(test_token_embedding)
# 300維向量
[[ 0.260801 0.1047 0.129453 -0.257317 -0.16152 0.19567 -0.074868
0.361168 0.245882 -0.219141 -0.388083 0.235189 0.029316 0.154215
-0.354343 0.017746 0.009028 0.01197 -0.121429 0.096542 0.009255
0.039721 0.363704 -0.239497 -0.41168 0.16958 0.261758 0.022383
...
0.123634 0.282932 0.140399 -0.076253 -0.087103 0.07262 ]]
TokenEmbedding.cosine_sim()
計(jì)算詞向量間余弦相似度,語(yǔ)義相近的詞語(yǔ)余弦相似度更高,說(shuō)明預(yù)訓(xùn)練好的詞向量空間有很好的語(yǔ)義表示能力。
# 查找兩個(gè)詞之間的相似距離,向量的余弦?jiàn)A角
score1 = token_embedding.cosine_sim("女孩", "女人")
score2 = token_embedding.cosine_sim("女孩", "書籍")
print('score1:', score1)
print('score2:', score2)
# 應(yīng)用場(chǎng)景:輸入法,
# (搜索、論文查重,是通過(guò)現(xiàn)有詞向量,再做句子的表征,這樣才能做句子和句子之間的匹配)
score1: 0.7017183
score2: 0.19189896
詞向量映射到低維空間
使用深度學(xué)習(xí)可視化工具VisualDL的High Dimensional組件可以對(duì)embedding結(jié)果進(jìn)行可視化展示,便于對(duì)其直觀分析,步驟如下:
- 升級(jí) VisualDL 最新版本。
pip install --upgrade visualdl
-
創(chuàng)建LogWriter并將記錄詞向量。
-
點(diǎn)擊左側(cè)面板中的可視化tab,選擇‘token_hidi’作為文件并啟動(dòng)VisualDL可視化
# 獲取詞表中前1000個(gè)單詞
labels = token_embedding.vocab.to_tokens(list(range(0, 1000)))
# 取出這1000個(gè)單詞對(duì)應(yīng)的Embedding
test_token_embedding = token_embedding.search(labels)
# 引入VisualDL的LogWriter記錄日志
from visualdl import LogWriter
with LogWriter(logdir='./token_hidi') as writer:
writer.add_embeddings(tag='test', mat=[i for i in test_token_embedding], metadata=labels)
啟動(dòng)VisualDL查看詞向量降維效果
啟動(dòng)步驟:
- 1、切換到「可視化」指定可視化日志
- 2、日志文件選擇 'token_hidi'
- 3、點(diǎn)擊「啟動(dòng)VisualDL」后點(diǎn)擊「打開(kāi)VisualDL」,選擇「高維數(shù)據(jù)映射」,即可查看詞表中前1000詞UMAP方法下映射到三維空間的可視化結(jié)果:
可以看出,語(yǔ)義相近的詞在詞向量空間中聚集(如數(shù)字、章節(jié)等),說(shuō)明預(yù)訓(xùn)練好的詞向量有很好的文本表示能力。
使用VisualDL除可視化embedding結(jié)果外,還可以對(duì)標(biāo)量、圖片、音頻等進(jìn)行可視化,有效提升訓(xùn)練調(diào)參效率。關(guān)于VisualDL更多功能和詳細(xì)介紹,可參考VisualDL使用文檔。
基于TokenEmbedding衡量句子語(yǔ)義相似度
在許多實(shí)際應(yīng)用場(chǎng)景(如文檔檢索系統(tǒng))中, 需要衡量?jī)蓚€(gè)句子的語(yǔ)義相似程度。此時(shí)我們可以使用詞袋模型(Bag of Words,簡(jiǎn)稱BoW)計(jì)算句子的語(yǔ)義向量。
首先,將兩個(gè)句子分別進(jìn)行切詞,并在TokenEmbedding中查找相應(yīng)的單詞詞向量(word embdding)。
然后,根據(jù)詞袋模型,將句子的word embedding疊加作為句子向量(sentence embedding)。
最后,計(jì)算兩個(gè)句子向量的余弦相似度。
相對(duì)于RNN,CNN,用詞向量構(gòu)造的句子表征有哪些優(yōu)點(diǎn):
- 快、簡(jiǎn)單
- 最重要的一點(diǎn),詞向量是預(yù)訓(xùn)練好的,是一種無(wú)監(jiān)督的表達(dá),并沒(méi)有經(jīng)過(guò)任何訓(xùn)練,很快就能做一個(gè)無(wú)監(jiān)督的表征。用RNN、CNN,需要做標(biāo)注,需要去訓(xùn)練,才能讓一個(gè)模型穩(wěn)定
在做一些相似度問(wèn)題的時(shí)候,不管是檢索還是其它搜索等等應(yīng)用場(chǎng)景,做句子和句子匹配的一些相似度問(wèn)題時(shí),都可以分成兩步
- 做一個(gè)粗召回,用無(wú)監(jiān)督的方式,快速排個(gè)前100
- 再用一些訓(xùn)練好的匹配模型RNN等,再精排前10名
基于TokenEmbedding的詞袋模型
使用BoWEncoder
搭建一個(gè)BoW模型用于計(jì)算句子語(yǔ)義。
-
paddlenlp.TokenEmbedding
組建word-embedding層 -
paddlenlp.seq2vec.BoWEncoder
組建句子建模層,最簡(jiǎn)單,最快速的構(gòu)建方式,常見(jiàn)的建模方式
PaddleNLP 已封裝了下列模型
https://gitee.com/paddlepaddle/PaddleNLP/blob/develop/paddlenlp/seq2vec/encoder.py
__all__ = ["BoWEncoder", "CNNEncoder", "GRUEncoder", "LSTMEncoder", "RNNEncoder", "TCNEncoder"]
源碼解讀:
import paddle
import paddle.nn as nn
import paddlenlp
class BoWModel(nn.Layer):
def __init__(self, embedder):
super().__init__()
self.embedder = embedder # TokenEmbedding 300的詞向量
emb_dim = self.embedder.embedding_dim
self.encoder = paddlenlp.seq2vec.BoWEncoder(emb_dim) # 把 300 維度傳進(jìn)去,進(jìn)行初始化,詞帶模型就搭好了。
self.cos_sim_func = nn.CosineSimilarity(axis=-1) # 余弦相似度的計(jì)算公式
# 判斷兩個(gè)句子的相似度
def get_cos_sim(self, text_a, text_b):
text_a_embedding = self.forward(text_a) #句子A的向量
text_b_embedding = self.forward(text_b) #句子B的向量
cos_sim = self.cos_sim_func(text_a_embedding, text_b_embedding) # 余弦相似度計(jì)算
return cos_sim
# 模型數(shù)據(jù)扭轉(zhuǎn)方式
def forward(self, text):
# 南哥來(lái)聽(tīng)課,南哥:1、來(lái):3、聽(tīng)課:7、冒號(hào):0 => text = 1 3 7 0
# batch_size = N 句話
# Shape: (batch_size, num_tokens, embedding_dim)
# 數(shù)據(jù)進(jìn)來(lái)先過(guò)哪個(gè)層(上面定義好的 embedding 層
embedded_text = self.embedder(text)
# embedded_text 張量 => [[1對(duì)應(yīng)300維的向量] [3對(duì)應(yīng)300維的向量] [7對(duì)應(yīng)300維的向量] [0對(duì)應(yīng)300維的向量]]
# Shape: (batch_size, embedding_dim)
summed = self.encoder(embedded_text)
# 最終形成句子表征
return summed
# 模型的初始化(實(shí)類化)
model = BoWModel(embedder=token_embedding)
def forward(self, inputs, mask=None):
....
# Shape: (batch_size, embedding_dim)
# 沿著axis = 1 軸方向求和 ,就是將 1的位置相加、2的位置相加....、300的位置相加,得到整個(gè)句子的句向量
# 用詞帶的方式得到句子向量的表征,表達(dá)的句子簡(jiǎn)單些,想更準(zhǔn)確些,可以加一下 tfidf 權(quán)重因子
summed = inputs.sum(axis=1)
return summed
class RNNEncoder(nn.Layer):
...
encoded_text, last_hidden = self.rnn_layer(inputs, sequence_length=sequence_length)
if not self._pooling_type:
# We exploit the `last_hidden` (the hidden state at the last time step for every layer)
# to create a single vector.
# If rnn is not bidirection, then output is the hidden state of the last time step
# at last layer. Output is shape of `(batch_size, hidden_size)`.
# If rnn is bidirection, then output is concatenation of the forward and backward hidden state
# of the last time step at last layer. Output is shape of `(batch_size, hidden_size * 2)`.
if self._direction != "bidirect":
output = last_hidden[-1, :, :]
else:
output = paddle.concat((last_hidden[-2, :, :], last_hidden[-1, :, :]), axis=1)
else:
# We exploit the `encoded_text` (the hidden state at the every time step for last layer)
# to create a single vector. We perform pooling on the encoded text.
# The output shape is `(batch_size, hidden_size * 2)` if use bidirectional RNN,
# otherwise the output shape is `(batch_size, hidden_size * 2)`.
# 池化層的操作
if self._pooling_type == "sum": # 求和池化
output = paddle.sum(encoded_text, axis=1)
elif self._pooling_type == "max": # 最大池化
output = paddle.max(encoded_text, axis=1)
elif self._pooling_type == "mean": # 平均池化
output = paddle.mean(encoded_text, axis=1)
else:
raise RuntimeError(
"Unexpected pooling type %s ."
"Pooling type must be one of sum, max and mean." % self._pooling_type
)
return output
構(gòu)造Tokenizer
data.py
import numpy as np
import jieba
import paddle
from collections import defaultdict
from paddlenlp.data import JiebaTokenizer, Pad, Stack, Tuple, Vocab
class Tokenizer(object):
def __init__(self):
self.vocab = {}
self.tokenizer = jieba
self.vocab_path = 'vocab.txt'
self.UNK_TOKEN = '[UNK]'
self.PAD_TOKEN = '[PAD]'
def set_vocab(self, vocab):
self.vocab = vocab
self.tokenizer = JiebaTokenizer(vocab)
def build_vocab(self, sentences):
word_count = defaultdict(lambda: 0)
for text in sentences:
words = jieba.lcut(text)
for word in words:
word = word.strip()
if word.strip() !='':
word_count[word] += 1
word_id = 0
for word, num in word_count.items():
if num < 5:
continue
self.vocab[word] = word_id
word_id += 1
self.vocab[self.UNK_TOKEN] = word_id
self.vocab[self.PAD_TOKEN] = word_id + 1
self.vocab = Vocab.from_dict(self.vocab,
unk_token=self.UNK_TOKEN, pad_token=self.PAD_TOKEN)
# dump vocab to file
self.dump_vocab(self.UNK_TOKEN, self.PAD_TOKEN)
self.tokenizer = JiebaTokenizer(self.vocab)
return self.vocab
def dump_vocab(self, unk_token, pad_token):
with open(self.vocab_path, "w", encoding="utf8") as f:
for word in self.vocab._token_to_idx:
f.write(word + "\n")
def text_to_ids(self, text):
input_ids = []
unk_token_id = self.vocab[self.UNK_TOKEN]
for token in self.tokenizer.cut(text):
token_id = self.vocab.token_to_idx.get(token, unk_token_id)
input_ids.append(token_id)
return input_ids
def convert_example(self, example, is_test=False):
input_ids = self.text_to_ids(example['text'])
if not is_test:
label = np.array(example['label'], dtype="int64")
return input_ids, label
else:
return input_ids
def create_dataloader(dataset,
trans_fn=None,
mode='train',
batch_size=1,
pad_token_id=0):
"""
Creats dataloader.
Args:
dataset(obj:`paddle.io.Dataset`): Dataset instance.
mode(obj:`str`, optional, defaults to obj:`train`): If mode is 'train', it will shuffle the dataset randomly.
batch_size(obj:`int`, optional, defaults to 1): The sample number of a mini-batch.
pad_token_id(obj:`int`, optional, defaults to 0): The pad token index.
Returns:
dataloader(obj:`paddle.io.DataLoader`): The dataloader which generates batches.
"""
if trans_fn:
dataset = dataset.map(trans_fn, lazy=True)
shuffle = True if mode == 'train' else False
sampler = paddle.io.BatchSampler(
dataset=dataset, batch_size=batch_size, shuffle=shuffle)
batchify_fn = lambda samples, fn=Tuple(
Pad(axis=0, pad_val=pad_token_id), # input_ids
Stack(dtype="int64") # label
): [data for data in fn(samples)]
dataloader = paddle.io.DataLoader(
dataset,
batch_sampler=sampler,
return_list=True,
collate_fn=batchify_fn)
return dataloader
使用TokenEmbedding詞表構(gòu)造Tokenizer。
from data import Tokenizer
tokenizer = Tokenizer() # 分詞
tokenizer.set_vocab(vocab=token_embedding.vocab) # 加載字典
相似句對(duì)數(shù)據(jù)讀取
以提供的樣例數(shù)據(jù)text_pair.txt為例,該數(shù)據(jù)文件每行包含兩個(gè)句子。
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 多項(xiàng)式矩陣的左共軛積及其應(yīng)用
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 退化阻尼對(duì)高維可壓縮歐拉方程組經(jīng)典解的影響
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 Burgers方程基于特征正交分解方法的數(shù)值解法研究
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 有界對(duì)稱域上解析函數(shù)空間的若干性質(zhì)
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像復(fù)雜度研究與應(yīng)用
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 Cartesian發(fā)射機(jī)中線性功率放大器的研究
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 CFRP加固WF型梁側(cè)扭屈曲的幾何非線性有限元分析
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 基于線性CCD自適應(yīng)成像的光刻機(jī)平臺(tái)調(diào)平方法研究
多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解 基于變分貝葉斯理論的圖像復(fù)原方法研究
text_pairs = {}
with open("text_pair.txt", "r", encoding="utf8") as f:
for line in f:
text_a, text_b = line.strip().split("\t")
if text_a not in text_pairs:
text_pairs[text_a] = []
text_pairs[text_a].append(text_b)
查看相似語(yǔ)句相關(guān)度
for text_a, text_b_list in text_pairs.items():
text_a_ids = paddle.to_tensor([tokenizer.text_to_ids(text_a)])
for text_b in text_b_list:
text_b_ids = paddle.to_tensor([tokenizer.text_to_ids(text_b)])
print("text_a: {}".format(text_a))
print("text_b: {}".format(text_b))
print("cosine_sim: {}".format(model.get_cos_sim(text_a_ids, text_b_ids).numpy()[0]))
print()
text_a: 多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解
text_b: 多項(xiàng)式矩陣的左共軛積及其應(yīng)用
cosine_sim: 0.8861938714981079
text_a: 多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解
text_b: 退化阻尼對(duì)高維可壓縮歐拉方程組經(jīng)典解的影響
cosine_sim: 0.7975839972496033
text_a: 多項(xiàng)式矩陣左共軛積對(duì)偶Sylvester共軛和數(shù)學(xué)算子完備參數(shù)解
text_b: Burgers方程基于特征正交分解方法的數(shù)值解法研究
cosine_sim: 0.8188782930374146
使用VisualDL查看句子向量
# 引入VisualDL的LogWriter記錄日志
import numpy as np
from visualdl import LogWriter
# 獲取句子以及其對(duì)應(yīng)的向量
label_list = []
embedding_list = []
for text_a, text_b_list in text_pairs.items():
text_a_ids = paddle.to_tensor([tokenizer.text_to_ids(text_a)])
embedding_list.append(model(text_a_ids).flatten().numpy())
label_list.append(text_a)
for text_b in text_b_list:
text_b_ids = paddle.to_tensor([tokenizer.text_to_ids(text_b)])
embedding_list.append(model(text_b_ids).flatten().numpy())
label_list.append(text_b)
with LogWriter(logdir='./sentence_hidi') as writer:
writer.add_embeddings(tag='test', mat=embedding_list, metadata=label_list)
啟動(dòng)VisualDL觀察句子向量降維效果
步驟如上述觀察詞向量降維效果一模一樣。
可以看出,語(yǔ)義相近的句子在句子向量空間中聚集(如有關(guān)課堂的句子、有關(guān)化學(xué)描述句子等)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-479737.html
源文:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1449880&sharedType=2&sharedUserId=2631487&ts=1685691772342文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-479737.html
到了這里,關(guān)于自然語(yǔ)言處理 Paddle NLP - 詞向量應(yīng)用展示的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!