国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別

2年前作者：GD_Wang1206分類：Toy博客閱讀(11)違法舉報

這篇具有很好參考價值的文章主要介紹了tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

測試代碼

from transformers import BertTokenizer
# BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')  # bert分詞器

sentence = "i am overheat"
encode_ids = tokenizer.encode(sentence) # encode 默認為True 加[CLS][SEP]
encode_words = tokenizer.convert_ids_to_tokens(tokenizer.encode(sentence))   # encode 默認為True 加[CLS][SEP]


print(f"word_list   : {sentence.split()}")                 # 單詞列表 (不進行分詞)
print(f"tokenize    : {tokenizer.tokenize(sentence) }")    # 單詞列表 (進行分詞)
print(f"encode_words: {encode_words}")                     # 單詞列表 (進行分詞) [CLS]+sentence+[SEP]
print(f"encode_ids  : {tokenizer.encode(sentence)}")       # 詞id列表 進行分詞   101 + ids + 102
print(f"encode_plus : {tokenizer.encode_plus(sentence)}")  # dict 類型 三個key:value, {input_ids:詞id列表(進行分詞) token_type_ids:分句列表0(分句) attention_mask:掩碼列表1(掩碼)}
print("=" * 100)

encode_words_true =  tokenizer.encode(sentence, add_special_tokens=True)    # encode 默認為True 加[CLS][SEP]
encode_words_false = tokenizer.encode(sentence, add_special_tokens=False)  # encode False    不加[CLS][SEP]
print(f"encode_words_true : {encode_words_true}")
print(f"encode_words_false: {encode_words_false}")

運行結(jié)果:
tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別

1. 總結(jié)

三個方法的輸入都是字符串: "i am overheat"

1.1 tokenizer.tokenize() 方法

輸入: str 字符串
輸出: str_list 詞列表(進行了wordpiece分詞的)

['i', 'am', 'over', '##hea', '##t']

1.2 tokenizer.encode() 方法

輸入: str 字符串
輸出: int_list id列表開始和末尾分別添加了[CLS] [SEP]的詞id 101, 102

[101, 1045, 2572, 2058, 20192, 2102, 102]

可以通過tokenizer.convert_ids_to_tokens轉(zhuǎn)化為token列表 str_list

['[CLS]', 'i', 'am', 'over', '##hea', '##t', '[SEP]']

add_special_tokens=True 默認為True 表示加不加[CLS][SEP]這兩個詞id

1.3 tokenizer.encode_plus() 方法

輸入: str 字符串
輸出: 字典 input_ids就是encode的返回值, token_type_ids用于分句, attention_mask 用于掩碼

{'input_ids': [101, 1045, 2572, 2058, 20192, 2102, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1]}

’input_ids: 是單詞在詞典中的編碼
‘token_type_ids’:區(qū)分兩個句子的編碼（上句全為0，下句全為1）
‘a(chǎn)ttention_mask’:指定對哪些詞進行self-Attention操作
offset_mapping:記錄了每個拆分出來的內(nèi)容(token)都對應(yīng)著原來的句子的位置

2.區(qū)別

2.1 tokenizer.tokenize() 和 tokenizer.encode() 區(qū)別

tokenizer.tokenize() 返回詞列表默認首尾不加 [CLS] [SEP]
okenizer.encode() 返回詞id列表默認首尾加 [CLS] [SEP]對應(yīng)的詞id

2.2 tokenizer.encode() 和 tokenizer.encode_plus() 區(qū)別

返回類型不同
tokenizer.encode() 返回詞id列表
tokenizer.encode_plus() 返回 dict類型其中input_ids 就是 tokenizer.encode() 的返回值, 還有用于分句和掩碼的其他兩個id

參考博客: https://blog.csdn.net/qq_25850819/article/details/115355858文章來源地址http://www.zghlxwxcb.cn/news/detail-423911.html

到了這里，關(guān)于tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

拼多多TOKEN安卓登錄方法
提示：文章寫完后，目錄可以自動生成，如何生成可參考右邊的幫助文檔提示：拼多多TOKEN登錄到安卓模擬器或者安卓真機：相信很多朋友有這樣的需求，需要把手頭的拼多多TOKEN登錄到網(wǎng)頁、安卓模擬器、甚至安卓真機中去。提示：以下是本篇文章正文內(nèi)容，下面案例可供
2024年02月05日
瀏覽(8)
Jwt（Json web token）——使用token的權(quán)限驗證方法 & 用戶+角色+權(quán)限表設(shè)計 & SpringBoot項目應(yīng)用
1.認證鑒權(quán)服務(wù)，注冊中心，認證中心，鑒權(quán)中心； 2.用戶，角色，權(quán)限表設(shè)計，數(shù)據(jù)庫視圖的使用； 3.項目中的應(yīng)用，使用自定義注解+攔截器； 4.枚舉類型的json化， @JsonFormat(shape = JsonFormat.Shape.OBJECT) @Getter https://gitee.com/pet365/springboot-privs-token 用戶和權(quán)限之間關(guān)系（多對多
2024年02月14日
瀏覽(29)
python中應(yīng)用requests庫模擬postman請求攜帶token，使用get和post方法請求頭攜帶token
實際開發(fā)中， Python程序中需要調(diào)用后臺接口，充當(dāng)前端，后端規(guī)定請求頭需要攜帶token postman中 form-data、x-www-form-urlencoded的區(qū)別_叫我峰兄的博客-CSDN博客 python requests 帶請求頭Token發(fā)起http請求_python request token_軟件測試李同學(xué)的博客-CSDN博客 python發(fā)送requests請求時，使用登錄的
2024年02月16日
瀏覽(29)
HttpURLConnection中請求頭中攜帶Token的使用方法
一般會在頭部添加認證信息，如token值或BasicAuth認證的 Authorization值
2024年02月05日
瀏覽(23)
【SpringSecurity】十一、SpringSecurity集成JWT實現(xiàn)token的方法與校驗
添加JWT的maven依賴： application.yaml中配置密鑰的值，方便代碼中引用和后續(xù)更改：這里的命名改為JWTService好點，Utils命名似乎偏靜態(tài)方法一點。再貼一下下統(tǒng)一結(jié)果類的定義：下面是安全用戶類，用于在數(shù)據(jù)庫的用戶對象類SysUser和返給框架的官方對象類UserDetails之間做過渡轉(zhuǎn)
2024年02月10日
瀏覽(22)
視頻推拉流平臺EasyDSS點播文件播放請求添加token驗證的實現(xiàn)方法
EasyDSS視頻直播點播平臺可提供一站式的視頻推拉流、轉(zhuǎn)碼、點播、直播、播放H.265編碼視頻等服務(wù)，搭配RTMP高清攝像頭使用，可將設(shè)備的實時流推送到平臺上，實現(xiàn)無人機視頻推流直播等應(yīng)用。今天我們來介紹下EasyDSS系統(tǒng)點播文件播放請求添加token驗證的實現(xiàn)方法。 1）首先
2024年02月04日
瀏覽(15)
微信小程序二維碼生成及access_token獲取方法詳解
本文介紹了微信小程序如何生成二維碼（wxacode.get接口）以及如何通過auth.getAccessToken接口獲取全局唯一的后臺接口調(diào)用憑據(jù)（access_token），為開發(fā)者提供了詳細的API調(diào)用指南和代碼示例。 Keywords (關(guān)鍵詞):
2024年02月07日
瀏覽(34)
K8S集群Token過期處理方法以及Kubectl命令無法使用的問題解決
使用Kubeadm方式部署的K8S集群，在初始化的時候生成的Token的有效期為1天，當(dāng)過期之后Token就無法使用了，也就意味著，在Node節(jié)點執(zhí)行 kubeadm join 命令加入K8S集群時就會失敗，可以通過下面的方法重新生成Token。 1）創(chuàng)建Token
2024年02月16日
瀏覽(37)
nested exception is com.fasterxml.jackson.core.JsonParseException: Unrecognized token ‘xxx‘錯誤的詳細解決方法
今天寫好導(dǎo)入hive表的接口，如下代碼所示：同時，使用 Ajax 調(diào)用導(dǎo)入hive表的接口，如下代碼所示：啟動項目后，使用 chrome 瀏覽器測試，卻報出如下錯誤：即 nested exception is com.fasterxml.jackson.core.JsonParseException: Unrecognized token \\\'hiveTableName\\\': was expecting (\\\'true\\\', \\\'false\\\' or \\\'null\\\')
2024年02月04日
瀏覽(24)
若依前后端分離版：增加新的登錄接口，用于小程序或者APP獲取token，并使用若依的驗證方法
登錄校驗 ——AppLoginService類 ?具體代碼 ?具體代碼 ?具體代碼此時運行時，會有沖突?。?！需要在 xxx-framework/src/main/java/....../SecurityConfig中條件如圖： ?此時啟動項目不會報沖突的錯千萬千萬要添加?。?！下圖中的LongUser類要添加?xùn)|西 ?要在public String getPassword（）{}中添加
2024年02月07日
瀏覽(92)