“token”是當(dāng)前語言類模型的數(shù)據(jù)單位。當(dāng)前的自回歸語言模型是根據(jù) token 來作為單位進(jìn)行數(shù)據(jù)處理和計算,分詞(tokenization)就是將句子、段落、文章這類型的長文本分解為以 token 為單位的數(shù)據(jù)結(jié)構(gòu),把文本分詞后每個詞表示成向量進(jìn)行模型計算。例如在英文語境下,“happy”可能被分解為“hap”、“-py”兩個 token,中文語境下,“我很開心”可以分成“我”,“很”,“開心”三個 token。
轉(zhuǎn)載:ChatGPT算力計算更正——更準(zhǔn)確的參數(shù)和計算方法
?在與GPT-3參數(shù)相當(dāng)?shù)拈_源LLM——1760億參數(shù)的BLOOM上,4張墨芯S30計算卡在僅采用中低倍稀疏率的情況下,就能實現(xiàn)25 tokens/s的內(nèi)容生成速度,超過8張A100。
?
轉(zhuǎn)載:?MLPref放榜!大模型時代算力領(lǐng)域“潛力股”浮出水面:梅開二度拿下世界第一,今年獲雙料冠軍文章來源:http://www.zghlxwxcb.cn/news/detail-721830.html
ps:?tokens/s表征了大模型內(nèi)容生成速度。文章來源地址http://www.zghlxwxcb.cn/news/detail-721830.html
到了這里,關(guān)于人工智能大模型中token的理解的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!