在Covid疫情爆發(fā)之前,谷歌發(fā)布了MEENA模型,短時間內(nèi)成為世界上最好的大型語言模型。谷歌發(fā)布的博客和論文非常可愛,因為它特別與OpenAI進行了比較。
相比于現(xiàn)有的最先進生成模型OpenAI GPT-2,MEENA的模型容量增加了1.7倍,并且訓(xùn)練數(shù)據(jù)增加了8.5倍。
這個模型的訓(xùn)練所需的浮點運算量(FLOPS)超過了GPT-2的14倍,但這在很大程度上是無關(guān)緊要的,因為僅僅幾個月后,OpenAI推出了GPT-3,它的參數(shù)是GPT-2的65倍多,令牌數(shù)量是GPT-2的60倍多,F(xiàn)LOPS更是增加了超過4,000倍。這兩個模型之間的性能差異巨大。
MEENA模型引發(fā)了Noam Shazeer撰寫的名為“MEENA吞噬世界”的內(nèi)部備忘錄。在這個備忘錄中,他預(yù)測了在ChatGPT發(fā)布之后世界上其他人在意識到的事情。主要觀點是語言模型會在各種方式下越來越多地融入我們的生活,并且它們會主導(dǎo)全球部署的FLOPS。當(dāng)他寫這篇備忘錄時,他的觀點超前于時代,但大多數(shù)關(guān)鍵決策者當(dāng)時都忽視了或甚至嘲笑了這些觀點。
讓我們稍微偏離一下,看看Noam真的有多先見之明。他曾是撰寫原始的Transformer論文“Attention is All You Need”的團隊成員。他還參與了第一篇現(xiàn)代Mixture of Experts論文、Switch Transformer、Image Transformer,以及LaMDA和PaLM的各個方面。他尚未在更廣泛的范圍內(nèi)獲得廣泛認(rèn)可的一個想法是2018年的,即我們在關(guān)于GPT-4的獨家披露中詳細介紹的“推測解碼”。推測解碼可以將推理成本降低多倍。
這里的重點是,谷歌擁有所有成功的因素,但他們卻錯誤地處理了。這是大家都明顯看到的情況。
可能不太明顯的是,沉睡的巨人谷歌已經(jīng)醒來,他們正在以超越GPT-4的總預(yù)訓(xùn)練FLOPS速度5倍的步伐迭代,預(yù)計在年底之前。根據(jù)他們目前的基礎(chǔ)設(shè)施建設(shè),到明年年底他們的路徑清晰可見,可能達到100倍。至于谷歌是否有膽量在不削弱其創(chuàng)造力或現(xiàn)有商業(yè)模式的情況下公開發(fā)布這些模型,這是一個不同的討論。
今天,我們想要討論谷歌的雙子座訓(xùn)練系統(tǒng),雙子座模型的迭代速度,谷歌的Viperfish(TPUv5)推出,谷歌與其他前沿實驗室在未來的競爭力,以及一個我們稱之為“顯卡窮人”的群體。
GPU-Rich顯卡富人
計算資源的獲取是一個雙峰分布。只有少數(shù)幾家公司擁有20,000個以上的A/H100顯卡,個人研究人員可以為小項目獲得數(shù)百或數(shù)千個顯卡。其中主要的公司包括OpenAI、谷歌、Anthropic、Inflection、X和Meta,它們的計算資源與研究人員的比例最高。上述一些公司以及多家中國公司,到明年底將擁有10萬個以上的顯卡,盡管我們不確定中國的研究人員比例,只知道顯卡數(shù)量。
在灣區(qū),我們看到的最有趣的趨勢之一是頂尖機器學(xué)習(xí)研究人員吹噓他們有多少顯卡,或者即將擁有多少顯卡的機會。事實上,在過去的大約4個月里,這種現(xiàn)象變得如此普遍,以至于它已經(jīng)成為一個直接影響頂尖研究人員決定去哪里的競爭。Meta,將擁有世界上第二多的H100顯卡的公司,正在將這一點作為一種招聘策略。
GPU-Poor顯卡窮人
然后,還有許多初創(chuàng)公司和開源研究人員,他們面臨著更少顯卡的困境。他們在試圖做一些根本沒有幫助或?qū)嶋H上無關(guān)緊要的事情上花費了大量的時間和精力。例如,許多研究人員花費了無數(shù)個小時在使用沒有足夠VRAM的顯卡上對模型進行微調(diào),這是對他們的技能和時間的極其低效的利用。
這些初創(chuàng)公司和開源研究人員正在使用更大的語言模型對較小的模型進行微調(diào),用于排行榜樣式的基準(zhǔn)測試,而這些基準(zhǔn)測試使用了有缺陷的評估方法,更強調(diào)樣式而不是準(zhǔn)確性或有用性。他們通常并不知道,為了使較小的開放模型在實際工作負載中改進,預(yù)訓(xùn)練數(shù)據(jù)集和IFT數(shù)據(jù)需要更大/更高質(zhì)量。
是的,高效使用顯卡是非常重要的,但在很多方面,顯卡窮人們卻忽略了這一點。他們不關(guān)心規(guī)模效率,他們的時間沒有得到有效利用。對于即將在明年底之前擁有超過350萬個H100顯卡的世界來說,在他們的顯卡窮人環(huán)境中商業(yè)上可以做的事情在很大程度上是無關(guān)緊要的。對于學(xué)習(xí)、嘗試,更小、更弱的游戲顯卡完全足夠。
顯卡窮人們?nèi)匀恢饕褂贸砻苣P?,因為這就是Meta優(yōu)雅地放在他們手上的LLAMA系列模型。如果沒有上帝扎克的恩惠,大多數(shù)開源項目可能會更糟。如果他們真的關(guān)心效率,特別是在客戶端方面,他們會運行像MoE這樣的稀疏模型架構(gòu),在這些更大的數(shù)據(jù)集上進行訓(xùn)練,并像前沿的LLM實驗室(OpenAI、Anthropic、Google Deepmind)那樣實現(xiàn)推測解碼。
這些處于劣勢地位的人應(yīng)該關(guān)注通過提高計算和內(nèi)存容量要求以改善模型性能或令牌到令牌的延遲來平衡,以換取較低的內(nèi)存帶寬,因為這是邊緣需要的。他們應(yīng)該專注于在共享基礎(chǔ)設(shè)施上高效地提供多個微調(diào)模型,而不用支付小批量大小的可怕成本。然而,他們一直關(guān)注內(nèi)存容量限制或過度量化,而對真實質(zhì)量下降視而不見。
稍微偏離一下,總體上,模型評估是有問題的。盡管在封閉的世界中有很多努力來改進這一點,但開放基準(zhǔn)測試領(lǐng)域幾乎沒有意義,幾乎沒有衡量任何有用的東西。由于某種原因,對于LLM的排行榜化存在一種不健康的癡迷,以及對于無用模型的愚蠢名稱的模因化。希望開源努力能夠重新引導(dǎo)到評估、推測解碼、MoE、開放的IFT數(shù)據(jù)和具有超過1萬億標(biāo)記的干凈預(yù)訓(xùn)練數(shù)據(jù)集,否則,開源將無法與商業(yè)巨頭競爭。
雖然美國和中國將能夠繼續(xù)領(lǐng)先,但歐洲的初創(chuàng)公司和政府支持的超級計算機(如朱爾斯·凡爾納)也完全無法競爭。由于缺乏進行大規(guī)模投資的能力,并選擇保持顯卡窮人的狀態(tài),歐洲在這場比賽中將落后。甚至多個中東國家也在為推動AI的大規(guī)?;A(chǔ)設(shè)施投資更多資金。
然而,顯卡窮人并不僅限于初創(chuàng)公司。一些最知名的人工智能公司,如HuggingFace、Databricks(MosaicML)和Together,也是顯卡窮人的一部分。實際上,從每個GPU的世界級研究人員數(shù)量,到GPU數(shù)量與雄心/潛在客戶需求之間的關(guān)系,他們可能是最窮的一群。這些公司擁有世界級的研究人員,但由于他們使用的系統(tǒng)的能力相對較低,他們的發(fā)展受到了限制。這些公司在培訓(xùn)實際模型方面受到了企業(yè)的巨大需求,成千上萬個H100顯卡已經(jīng)陸續(xù)到來,但這并不足以占據(jù)大部分市場份額。
Nvidia憑借其在DGX Cloud服務(wù)和各種內(nèi)部超級計算機中擁有的多倍顯卡數(shù)量正在蠶食它們的市場份額。Nvidia的DGX Cloud提供了預(yù)訓(xùn)練模型、數(shù)據(jù)處理框架、矢量數(shù)據(jù)庫和個性化、優(yōu)化的推理引擎、API以及來自NVIDIA專家的支持,以幫助企業(yè)調(diào)整模型以適應(yīng)其自定義用途。該服務(wù)還已經(jīng)為來自SaaS、保險、制造業(yè)、制藥、生產(chǎn)軟件和汽車等行業(yè)的多個大型企業(yè)提供了支持。雖然并非所有客戶都已宣布,但即使是Amgen、Adobe、CCC、ServiceNow、Accenture、AstraZeneca、Getty Images、Shutterstock、Morningstar、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、Oxford Nanopore、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway這樣的公開客戶列表也相當(dāng)令人印象深刻。
這是一個比其他玩家更長的列表,Nvidia還有許多其他未公開的合作伙伴關(guān)系。需要明確的是,來自Nvidia的DGX云服務(wù)這些宣布客戶的收入是未知的,但考慮到Nvidia的云計算支出和內(nèi)部超級計算機建設(shè)的規(guī)模,似乎更多的服務(wù)可以/將從Nvidia的云中購買,而不僅僅是HuggingFace、Together和Databricks所能提供的。
HuggingFace和Together共籌集的幾億資金意味著他們將保持顯卡窮人的狀態(tài),他們將無法培訓(xùn)N-1個LLM,這些LLM可以作為基礎(chǔ)模型供客戶微調(diào)。這意味著他們最終將無法在今天就可以訪問Nvidia的服務(wù)的企業(yè)中占據(jù)很高的份額。
特別是HuggingFace在行業(yè)中有著最大的聲譽,他們需要利用這一點來投資大量資金,并構(gòu)建更多的模型、定制和推理能力。他們最近的融資輪次在估值過高,無法獲得他們需要的投資來競爭。HuggingFace的排行榜表明他們有多么盲目,因為他們正在誤導(dǎo)開源運動,讓其創(chuàng)造出一堆在實際使用中毫無用處的模型。
Databricks(MosaicML)可能至少可以通過其數(shù)據(jù)和企業(yè)連接趕上,問題是如果他們想有希望為超過7,000名客戶提供服務(wù),他們需要加快支出的速度。對MosaicML的13億美元收購是對這一垂直領(lǐng)域的重大賭注,但他們還需要在基礎(chǔ)設(shè)施上投入類似的資金。不幸的是,對于Databricks來說,他們不能用股票支付顯卡的費用。他們需要通過即將進行的私募輪/首次公開募股來進行大規(guī)模的發(fā)行,并使用那些冷硬現(xiàn)金來大幅度增加硬件投入。
經(jīng)濟論點在這里不成立,因為他們必須在客戶到來之前建設(shè),因為Nvidia正在向他們的服務(wù)投入資金。需要明確的是,許多人購買了大量計算資源,但并沒有賺回他們的錢(Cohere、沙特阿拉伯、阿聯(lián)酋),但這是競爭的先決條件。
訓(xùn)練和推理運營公司(Databricks、HuggingFace和Together)在其主要競爭對手之后,而這些競爭對手同時也是他們的計算資源的主要來源。下一個最大的定制模型運營商只是來自O(shè)penAI的微調(diào)API。
關(guān)鍵在于,從Meta到Microsoft再到初創(chuàng)公司,他們只是作為向Nvidia的銀行賬戶輸送資金的通道。
有沒有人能夠拯救我們免于Nvidia的奴役?
是的,有一個潛在的救星。
谷歌 - 全球最富有計算資源的公司文章來源:http://www.zghlxwxcb.cn/news/detail-679198.html
雖然谷歌在內(nèi)部使用顯卡,同時也通過GCP銷售了大量顯卡,但他們還有一些王牌。其中包括Gemini和已經(jīng)開始訓(xùn)練的下一代模型。他們最重要的優(yōu)勢是無與倫比的高效基礎(chǔ)設(shè)施。谷歌將會擁有比OpenAI、Meta、CoreWeave、Oracle和亞馬遜的顯卡總數(shù)加起來還要多的TPUv5。文章來源地址http://www.zghlxwxcb.cn/news/detail-679198.html
到了這里,關(guān)于谷歌發(fā)布Gemini以5倍速擊敗GPT-4的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!