国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別

這篇具有很好參考價值的文章主要介紹了tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

測試代碼

from transformers import BertTokenizer
# BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')  # bert分詞器

sentence = "i am overheat"
encode_ids = tokenizer.encode(sentence) # encode 默認為True 加[CLS][SEP]
encode_words = tokenizer.convert_ids_to_tokens(tokenizer.encode(sentence))   # encode 默認為True 加[CLS][SEP]


print(f"word_list   : {sentence.split()}")                 # 單詞列表 (不進行分詞)
print(f"tokenize    : {tokenizer.tokenize(sentence) }")    # 單詞列表 (進行分詞)
print(f"encode_words: {encode_words}")                     # 單詞列表 (進行分詞) [CLS]+sentence+[SEP]
print(f"encode_ids  : {tokenizer.encode(sentence)}")       # 詞id列表 進行分詞   101 + ids + 102
print(f"encode_plus : {tokenizer.encode_plus(sentence)}")  # dict 類型 三個key:value, {input_ids:詞id列表(進行分詞) token_type_ids:分句列表0(分句) attention_mask:掩碼列表1(掩碼)}
print("=" * 100)

encode_words_true =  tokenizer.encode(sentence, add_special_tokens=True)    # encode 默認為True 加[CLS][SEP]
encode_words_false = tokenizer.encode(sentence, add_special_tokens=False)  # encode False    不加[CLS][SEP]
print(f"encode_words_true : {encode_words_true}")
print(f"encode_words_false: {encode_words_false}")

運行結(jié)果:
tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別

1. 總結(jié)

三個方法的輸入都是字符串: "i am overheat"

1.1 tokenizer.tokenize() 方法

輸入: str 字符串
輸出: str_list 詞列表(進行了wordpiece分詞的)

['i', 'am', 'over', '##hea', '##t']  

1.2 tokenizer.encode() 方法

輸入: str 字符串
輸出: int_list id列表 開始和末尾分別添加了[CLS] [SEP]的詞id 101, 102

[101, 1045, 2572, 2058, 20192, 2102, 102]

可以通過tokenizer.convert_ids_to_tokens轉(zhuǎn)化為token列表 str_list

['[CLS]', 'i', 'am', 'over', '##hea', '##t', '[SEP]']

add_special_tokens=True 默認為True 表示加不加[CLS][SEP]這兩個詞id

1.3 tokenizer.encode_plus() 方法

輸入: str 字符串
輸出: 字典 input_ids就是encode的返回值, token_type_ids用于分句, attention_mask 用于掩碼

{'input_ids': [101, 1045, 2572, 2058, 20192, 2102, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1]}

’input_ids: 是單詞在詞典中的編碼
‘token_type_ids’:區(qū)分兩個句子的編碼(上句全為0,下句全為1)
‘a(chǎn)ttention_mask’:指定對哪些詞進行self-Attention操作
offset_mapping:記錄了 每個拆分出來 的內(nèi)容(token)都 對應(yīng)著原來的句子的位置

2.區(qū)別

2.1 tokenizer.tokenize() 和 tokenizer.encode() 區(qū)別

tokenizer.tokenize() 返回詞列表 默認首尾不加 [CLS] [SEP]
okenizer.encode() 返回詞id列表 默認首尾加 [CLS] [SEP]對應(yīng)的詞id

2.2 tokenizer.encode() 和 tokenizer.encode_plus() 區(qū)別

返回類型不同
tokenizer.encode() 返回 詞id列表
tokenizer.encode_plus() 返回 dict類型 其中input_ids 就是 tokenizer.encode() 的返回值, 還有用于分句和掩碼的其他兩個id

參考博客: https://blog.csdn.net/qq_25850819/article/details/115355858文章來源地址http://www.zghlxwxcb.cn/news/detail-423911.html

到了這里,關(guān)于tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介紹及其區(qū)別的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 拼多多TOKEN安卓登錄方法

    提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 提示:拼多多TOKEN登錄到安卓模擬器或者安卓真機: 相信很多朋友有這樣的需求,需要把手頭的拼多多TOKEN登錄到網(wǎng)頁、安卓模擬器、甚至安卓真機中去。 提示:以下是本篇文章正文內(nèi)容,下面案例可供

    2024年02月05日
    瀏覽(8)
  • Jwt(Json web token)——使用token的權(quán)限驗證方法 & 用戶+角色+權(quán)限表設(shè)計 & SpringBoot項目應(yīng)用

    Jwt(Json web token)——使用token的權(quán)限驗證方法 & 用戶+角色+權(quán)限表設(shè)計 & SpringBoot項目應(yīng)用

    1.認證鑒權(quán)服務(wù),注冊中心,認證中心,鑒權(quán)中心; 2.用戶,角色,權(quán)限表設(shè)計,數(shù)據(jù)庫視圖的使用; 3.項目中的應(yīng)用,使用自定義注解+攔截器; 4.枚舉類型的json化, @JsonFormat(shape = JsonFormat.Shape.OBJECT) @Getter https://gitee.com/pet365/springboot-privs-token 用戶和權(quán)限之間關(guān)系(多對多

    2024年02月14日
    瀏覽(29)
  • python中應(yīng)用requests庫模擬postman請求攜帶token,使用get和post方法請求頭攜帶token

    python中應(yīng)用requests庫模擬postman請求攜帶token,使用get和post方法請求頭攜帶token

    實際開發(fā)中, Python程序中需要調(diào)用后臺接口 ,充當(dāng)前端, 后端規(guī)定請求頭需要攜帶token postman中 form-data、x-www-form-urlencoded的區(qū)別_叫我峰兄的博客-CSDN博客 python requests 帶請求頭Token發(fā)起http請求_python request token_軟件測試李同學(xué)的博客-CSDN博客 python發(fā)送requests請求時,使用登錄的

    2024年02月16日
    瀏覽(29)
  • HttpURLConnection中請求頭中攜帶Token的使用方法

    一般會在頭部添加認證信息,如token值或BasicAuth認證的 Authorization值

    2024年02月05日
    瀏覽(23)
  • 【SpringSecurity】十一、SpringSecurity集成JWT實現(xiàn)token的方法與校驗

    【SpringSecurity】十一、SpringSecurity集成JWT實現(xiàn)token的方法與校驗

    添加JWT的maven依賴: application.yaml中配置密鑰的值,方便代碼中引用和后續(xù)更改: 這里的命名改為JWTService好點,Utils命名似乎偏靜態(tài)方法一點。 再貼一下下統(tǒng)一結(jié)果類的定義: 下面是安全用戶類,用于在數(shù)據(jù)庫的用戶對象類SysUser和返給框架的官方對象類UserDetails之間做過渡轉(zhuǎn)

    2024年02月10日
    瀏覽(22)
  • 視頻推拉流平臺EasyDSS點播文件播放請求添加token驗證的實現(xiàn)方法

    視頻推拉流平臺EasyDSS點播文件播放請求添加token驗證的實現(xiàn)方法

    EasyDSS視頻直播點播平臺可提供一站式的視頻推拉流、轉(zhuǎn)碼、點播、直播、播放H.265編碼視頻等服務(wù),搭配RTMP高清攝像頭使用,可將設(shè)備的實時流推送到平臺上,實現(xiàn)無人機視頻推流直播等應(yīng)用。今天我們來介紹下EasyDSS系統(tǒng)點播文件播放請求添加token驗證的實現(xiàn)方法。 1)首先

    2024年02月04日
    瀏覽(15)
  • 微信小程序二維碼生成及access_token獲取方法詳解

    本文介紹了微信小程序如何生成二維碼(wxacode.get接口)以及如何通過auth.getAccessToken接口獲取全局唯一的后臺接口調(diào)用憑據(jù)(access_token),為開發(fā)者提供了詳細的API調(diào)用指南和代碼示例。 Keywords (關(guān)鍵詞):

    2024年02月07日
    瀏覽(34)
  • K8S集群Token過期處理方法以及Kubectl命令無法使用的問題解決

    使用Kubeadm方式部署的K8S集群,在初始化的時候生成的Token的有效期為1天,當(dāng)過期之后Token就無法使用了,也就意味著,在Node節(jié)點執(zhí)行 kubeadm join 命令加入K8S集群時就會失敗,可以通過下面的方法重新生成Token。 1)創(chuàng)建Token

    2024年02月16日
    瀏覽(37)
  • nested exception is com.fasterxml.jackson.core.JsonParseException: Unrecognized token ‘xxx‘錯誤的詳細解決方法

    nested exception is com.fasterxml.jackson.core.JsonParseException: Unrecognized token ‘xxx‘錯誤的詳細解決方法

    今天寫好 導(dǎo)入hive表 的接口,如下代碼所示: 同時,使用 Ajax 調(diào)用 導(dǎo)入hive表 的接口,如下代碼所示: 啟動項目后,使用 chrome 瀏覽器測試,卻報出如下錯誤: 即 nested exception is com.fasterxml.jackson.core.JsonParseException: Unrecognized token \\\'hiveTableName\\\': was expecting (\\\'true\\\', \\\'false\\\' or \\\'null\\\')

    2024年02月04日
    瀏覽(24)
  • 若依前后端分離版:增加新的登錄接口,用于小程序或者APP獲取token,并使用若依的驗證方法

    若依前后端分離版:增加新的登錄接口,用于小程序或者APP獲取token,并使用若依的驗證方法

    登錄校驗 ——AppLoginService類 ?具體代碼 ?具體代碼 ?具體代碼 此時運行時,會有沖突?。?! 需要在 xxx-framework/src/main/java/....../SecurityConfig中條件 如圖: ?此時啟動項目不會報沖突的錯 千萬千萬要添加?。?! 下圖中的LongUser類要添加?xùn)|西 ?要在public String getPassword(){}中添加

    2024年02月07日
    瀏覽(92)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包