一系列工具與文章的匯編,直觀易懂地解讀復(fù)雜的 AI 概念
圖片由作者利用 unDraw.co 的免費插圖制作
在當(dāng)今世界,大語言模型(LLM)成為了熱門話題。幾乎每天都有新的語言模型問世,讓人們在 AI 領(lǐng)域懷有一種“不容錯過”的緊迫感。盡管如此,許多人仍對大語言模型的基礎(chǔ)概念一知半解,難以跟上技術(shù)的快速發(fā)展。本文致力于為那些想深入了解這些 AI 模型內(nèi)部原理的讀者提供幫助,以便他們能夠牢固掌握這些知識。在此,我為您介紹幾種工具和文章,以期簡化并闡明大語言模型的概念,使之容易被理解。
1. 杰伊·阿拉馬爾的《圖解 Transformer》
這張由作者創(chuàng)作的 GIF 是基于杰伊·阿拉馬爾的《圖解 Transformer》。
我敢肯定,你們中的許多人已經(jīng)對這篇具有標志性意義的文章不陌生。杰伊是最早在技術(shù)文章中融入生動視覺效果的先驅(qū)之一。只需簡單瀏覽他的博客,你就能領(lǐng)會我的意思。多年來,他引領(lǐng)了眾多作者追隨其步伐,教程的形式也從單純的文本和代碼轉(zhuǎn)變?yōu)楦挥谐两械囊曈X展示。言歸正傳,讓我們回到《圖解 Transformer》。Transformer 架構(gòu)是構(gòu)成所有基于 Transformer 的大語言模型(LLMs)的核心。因此,理解其基礎(chǔ)知識至關(guān)重要,而杰伊的博客正是對此進行了精彩闡述。博客內(nèi)容涵蓋了以下重要概念:
Transformer 模型的高層視角 探索 Transformer 的編碼和解碼組件 自我關(guān)注機制 自我關(guān)注的矩陣運算 多頭關(guān)注的原理 位置編碼 Transformer 架構(gòu)中的殘差連接 解碼器的最終線性層和 Softmax 層 模型訓(xùn)練中的損失函數(shù) 杰伊還制作了一個名為“敘事式 Transformer”的視頻,為初學(xué)者提供了一種更易懂的學(xué)習(xí)方式。在閱讀完這篇博文后,再結(jié)合閱讀“注意力就是一切所需”論文和官方的 Transformer 博客文章,將對主題有更全面的理解。
鏈接:https://jalammar.github.io/illustrated-transformer/
2. 杰伊·阿拉馬爾的《圖解 GPT-2》
這張由作者創(chuàng)作的 GIF 基于杰伊·阿拉馬爾的 《圖解 GPT-2》。
杰伊·阿拉馬爾的又一力作——《圖解 GPT-2》。作為《圖解 Transformer》的補充,這篇文章通過更多的視覺元素深入解析了 Transformer 的內(nèi)部機制及其自初始論文發(fā)布以來的演進。文章中還特別介紹了 Transformer 在語言模型之外的應(yīng)用場景。
鏈接:https://jalammar.github.io/illustrated-gpt2/
3. Brendan Bycroft 的大語言模型可視化
這張 GIF 是由作者基于 Brendan Bycroft 的大語言模型可視化創(chuàng)作的。
大語言模型可視化項目為我們提供了一種逐步了解 OpenAI ChatGPT 背后大語言模型算法的方式。它是深入探索算法的每一個步驟、實時觀察整個過程的絕佳資源。
該項目的一大特色是一個包含 3D 效果的網(wǎng)頁,展示了類似于 ChatGPT 所采用的小型大語言模型。這個工具通過交互式元素,為用戶提供了對單個 token 推理過程的逐步指南。目前,項目已包含以下架構(gòu)的可視化:
GPT-2(小型) Nano GPT GPT-2(超大型) GPT-3 鏈接:https://bbycroft.net/llm
4. 《金融時報》:生成式 AI 的誕生,離不開 Transformer 技術(shù)
此 GIF 由作者根據(jù)《金融時報》關(guān)于生成式 AI 和 Transformer 技術(shù)的報道(FT) 制作 | 本作品遵循 FT 的共享政策。
感謝《金融時報》的視覺故事團隊和Madhumita Murgia使用生動的視覺材料深入淺出地解釋了大型語言模型(LLM)的核心原理,尤其突出了自我關(guān)注機制和Transformer 架構(gòu)的重要性。
?? https://ig.ft.com/generative-ai/
5.OpenAI 的分詞工具體驗
截圖作者 | 來源: OpenAI 的分詞工具文檔
大型語言模型 (Large language models) 通過一種稱為令牌 (tokens) 的數(shù)字序列來處理文本。分詞器把文本轉(zhuǎn)換為這些令牌。OpenAI 提供的分詞工具可以讓我們實際操作,看看特定文本是如何被轉(zhuǎn)換為令牌的,還能了解到文本中令牌的總數(shù)。
鏈接: https://platform.openai.com/tokenizer
6. Simon Willison 分析 GPT 分詞器的獨到見解
GIF 由作者根據(jù)Simon Willison 對 GPT 分詞器的分析制作
盡管我們已經(jīng)提到 OpenAI 提供了一個用于探索令牌工作原理的分詞工具,但 Simon Willison 創(chuàng)造了他自己的分詞工具,它更有趣,更具啟發(fā)性。這個工具存在于Observable 筆記本中,能夠?qū)⑽谋巨D(zhuǎn)換為令牌,再將令牌轉(zhuǎn)換回文本,并對完整的令牌表進行搜索。
Simon 的分析提供了一些關(guān)鍵洞見:? 大多數(shù)英文常用詞只對應(yīng)一個令牌。? 有些詞的令牌前會帶有空格,這有助于更高效地編碼完整句子。? 非英語文本的分詞可能不太高效。? 異常令牌可能導(dǎo)致一些出乎意料的行為。
?? https://lnkd.in/eXTcia8Z
7. Greg Kamradt 的 Chunkviz:文本分塊可視化工具
GIF 由作者基于Chunkviz 應(yīng)用制作,遵循 MIT 許可證協(xié)議。
在構(gòu)建大型語言模型 (LLM) 應(yīng)用時,一種常用的方法是將大段文本分解成小塊,這被稱為“分塊”。這一過程對于確保你的文檔能夠適應(yīng)模型的處理能力范圍至關(guān)重要。所謂“上下文窗口”指的是模型一次能夠處理的最大文本長度。不過,分塊有多種不同的策略,而這正是 Chunkviz 工具的亮點所在。它允許用戶從四種不同的LangChainAI分割器中選擇分塊策略,并展示這些策略如何影響文本的處理。目前,你可以通過這個工具直觀地了解不同的文本分割和分塊策略。
?? https://chunkviz.up.railway.app/
8. 機器學(xué)習(xí)模型:記憶還是泛化?- PAIR 團隊的互動探索
這個 GIF 是作者基于 機器學(xué)習(xí)模型是記憶還是泛化?這一互動探索內(nèi)容創(chuàng)作的,遵循 MIT 許可共享。
Google PAIR 團隊的互動探索內(nèi)容是一系列交互式文章,它們用互動媒介來簡化復(fù)雜的 AI 主題。這篇特別的文章深入探討了泛化與記憶的問題,著重探究一個關(guān)鍵議題:大型語言模型 (LLMs) 是否真的理解了這個世界,還是僅僅在重復(fù)它們大量訓(xùn)練數(shù)據(jù)中的信息?
作者通過對一個小型模型的訓(xùn)練過程進行詳細研究,帶領(lǐng)讀者進行一次富有洞察力的探險之旅。他們對找到的解決方案進行逆向工程分析,生動地展示了機制解釋性(Mechanistic Interpretability)這一令人興奮的新興領(lǐng)域。
?? https://pair.withgoogle.com/explorables/grokking/
結(jié)論 我們審視了一些極有價值的工具和文章,它們努力把復(fù)雜的技術(shù)術(shù)語轉(zhuǎn)換成容易理解的形式。我一直是互動視覺格式呈現(xiàn)技術(shù)概念的堅定支持者。這讓我想起了我以前的一篇文章,那篇文章聚焦于用直觀的方式解釋標準機器學(xué)習(xí)概念的工具。
互動方式學(xué)習(xí)機器學(xué)習(xí)概念文章來源:http://www.zghlxwxcb.cn/news/detail-806042.html
本文強調(diào)的工具和文章旨在降低對初學(xué)者和愛好者的學(xué)習(xí)門檻,使學(xué)習(xí)過程更加引人入勝和易于接觸。我打算不斷更新這篇文章,加入更多我發(fā)現(xiàn)的類似資源。同時,我也歡迎并期待讀者的寶貴建議。文章來源地址http://www.zghlxwxcb.cn/news/detail-806042.html
到了這里,關(guān)于深入淺出:大語言模型的視覺解析的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!