作者|張潇雪
來源|矽星人Pro
在矽谷叫一輛Uber,極大概率司機會和你聊到AI。
如今鋪天蓋地的信息轟炸,營造出一種生成式人工智能步入全盛時代的氛圍。而對于真正身處其中、手搓大模型的開發者們來說,他們思考的卻是現實世界裡仍待解決的技術挑戰與邊界。
GenAI 舊金山峰會第一天,xAI聯合創始人Tony Wu,Llama 2和Llama 3聯合作者Sharan Narang,以及Mistral AI研究科學家Devendra Chaplot同場的小組讨論異常火爆,吸引了衆多矽谷AI開發者。
三位都是資深技術專家,也都是業内頂尖模型的締造者,各自帶領一支炙手可熱的AI團隊:馬斯克旗下xAI剛剛宣布完成史上最大的60億美元B輪融資,估值180億美元風頭正盛;Llama獨自頂起開源模型半邊天,蓄勢待發的Llama3-400B被視為“可能改寫人工智能生态版圖”;而歐洲最火AI公司Mistral憑實力獲得微軟垂青,在較小尺寸模型的開發上馬不停蹄、一路狂奔。
在這場時長40分鐘、主題為「A Deep Dive into the State-of-Art LLMs」的分享中,Tony、Sharan和Devendra透露了各自公司的最新動向,深入讨論了模型預訓練、數據質量及合成數據、多模态模型挑戰和Transformer創新替代架構,預測2025年的人工智能突破,也對觀衆關于小模型企業用例、杜絕幻覺與偏見和Mamba架構的提問進行了解答。
各家動向:xAI将把融資用于建設擁有10萬個H100芯片的數據工廠;Mistral AI最新推出掌握80種編程語言的新模型Codestral;Llama3很快會發布400B參數版本和研究論文以供社區學習。
數據收集與質量:預訓練數據需考慮數量、質量和多樣性,評估和反饋機制是關鍵。合成數據有助于提升數據質量,有助通向AGI,但生成時需防止傳播偏見和錯誤。
Transformer架構及替代方案:Mistral AI一直努力研究新架構,Transformer目前最适合擴展,替代方案需證明其在大規模上能與Transformer競争,Mamba架構有前途但仍需優化。
模型規劃和推理能力:強化學習可用于提高性能,多模态模型的計算量是主要挑戰,需提高數據效率。
偏見和道德标準:使用基準測試能減少模型偏見,預訓練和後期訓練階段可加入緩解措施。
未來預測:2025年數字代理和具身智能将會日趨成熟,合成數據将發揮關鍵作用,希望模型的持續改進和新技術超越當前擴展法則。
Sharan Narang:我是 Llama團隊的研究經理,領導Llama預訓練工作,并參與了Llama 2、Llama 3及後續項目的開發。非常高興能在這裡和大家讨論。
Devendra Chaplot:我是Mistral AI的研究員,參與了Mistral AI發布的所有模型。最近一直在研究多模态模型。
Tony Wu:我來自xAI。加入xAI之前從事數學推理工作,現在xAI也是如此,但更多是在基礎方面。
Minfa Wang(主持人,CTO of 1Gen Labs):太棒了。我想先從一些個人故事和成就開始。首先是Tony。最近xAI剛剛宣布了60億美元的B輪融資,祝賀你們。你能談談這次融資将如何推動xAI的下一步發展嗎?
Tony Wu:是的,我們非常幸運地獲得了這次融資,這是很大一筆錢,所以我們想要非常明智地使用它。我想現在唯一明智的花錢方式就是把錢給NVIDIA對吧?所以我們将建設一個數據中心,這是公開信息,我們将在未來幾個月内建設這個數據中心,它将擁有大約10萬個H100芯片。這将是迄今為止最大的單個數據中心,由包含10萬個芯片的單一集群組成。這将使我們能夠訓練出我認為是最強的模型。
Minfa Wang:謝謝分享。Devendra,上個月Mistral AI發布了Mixture 8x22B,這是Mistral AI迄今為止發布的最大和最新的模型。你能簡單介紹一下這個新模型的關鍵特性和亮點,以及你和Mistral AI接下來的重點工作嗎?
Devendra Chaplot:上個月我們發布了基于稀疏混合專家架構的Mixture 8x22B模型。我們設計這個模型的主要目的是優化每個參數的性能。因此,我認為我們的模型在性價比方面是最優的。其實我們今早還發布了一個新模型,叫Codestral,這是一個專門為編程訓練的模型,掌握了80種編程語言。它可以用于指令或人類聊天提示,也可以進行代碼補全。這意味着你可以在編輯器中将其作為編碼助手使用。它與VS Code和JetBrains集成,并且在發布當天可以在我們的API上免費使用八周。
Minfa Wang:這很酷。那麼這個模型會進化成某種垂直基礎模型嗎?比如,它是否會作為基礎設施層為從事AI軟件工程的公司服務?
Devendra Chaplot:是的,我們希望為開發人員和AI構建者提供最好的體驗,以便他們能開發出下一代AI應用程序。這是我們創建一個強大的代碼模型的動機,不僅在編程時幫助開發人員,還可以使用這個模型構建新的代理技術應用。
Minfa Wang: 接下來是Sharan,現在Llama3已經成為新聞焦點,感謝你和團隊為開源社區的傑出貢獻。你能簡要介紹一下Llama3的關鍵特性和用例嗎?還有關于神秘的400B參數模型,有什麼可以分享的嗎?
Sharan Narang: Llama3是一個非常出色的團隊合作成果。我們希望在許多方面推動邊界。從小模型開始,我們希望看看能将它們訓練到多遠,能提高多少。8B和70B參數的模型現在向所有人開放,我認為它們在計算規模上非常強大。所有三個模型都是非常好的通用模型。我們的目标是構建最好的基礎模型,所以希望它們在所有方面都表現出色。我們正在開發400B 參數的模型,這是一段冒險之旅,團隊做得非常棒,我們很快會有更多的消息分享。我們希望發布一篇研究論文,詳細介紹它,以便社區從中學習。所有這些都即将發布,我希望它能給所有在這個領域工作的人帶來啟發。
Minfa Wang:我們期待這篇研究報告。接下來我想深入探讨一些技術主題。在模型構建工作流程中,數據是所有模型研究的基石,也是發現擴展法則的前提。談到數據收集,既要考慮質量,也要考慮數量。在預訓練中,我們顯然需要大量的數據。在後訓練中,質量也是關鍵。各位有沒有關于如何獲取高質量和大規模數據的技術可以分享?你們使用哪些技術,如何做到?
Sharan Narang:我可以先談談預訓練。在預訓練中,我們考慮數據的數量、質量和多樣性。我認為這三者都很重要。用大量低質量的數據訓練出一個糟糕的模型其實很容易。因此,考慮這些因素非常重要。這裡的挑戰在于數量是一個可以量化的指标,很容易報告出來,大家也會關注這個指标。而多樣性和質量則複雜得多。在Meta,我們非常重視後兩者。我們依賴擴展法則和數據消融來确保我們數據集的質量和多樣性都達到标準。數據是任何模型的基礎,我們希望構建最佳的數據集來訓練這些大型語言模型。
Devendra Chaplot:我認為人們往往低估了數據質量,尤其是在預訓練期間。人們認為隻要向模型投入更多數據,它就會變得更好,但我們發現數據質量在預訓練中也起着非常重要的作用。如果你想讓一個特定規模的模型表現最佳,質量是最重要的。如果你以更好的形式整理數據,你可以從一個非常小的模型中提升性能。
Tony Wu:是的,補充一下前兩位的分享,我認為有兩點需要注意。首先,評估在确保數據質量方面非常重要。你需要有某種反饋機制,以疊代地提高數據質量,這對預訓練和後訓練都适用。定義評估标準是一個非同尋常的問題。特别是對預訓練來說,這是一個更普遍的任務,人們看重學術基準,但這些基準可能會受到污染。因此,這些都需要認真考慮。第二點是,一旦你有了一些初始模型,你也可以用它來改進數據質量。這也是一個疊代過程,你可以使用較舊、性能較差的模型來整理數據集,從而獲得更高質量的數據,然後訓練出更好的模型。這是一種自我改進的循環。
Minfa Wang:謝謝分享。作為一個曾經從事微調工作的人,我理所當然地認為預訓練模型會有很好的質量,覺得預訓練隻需要數量,但顯然多樣性和質量也非常重要。這非常有見地,還有評估過程。接下來我想問關于專有數據和特定應用數據的問題。這可能更與Tony相關,考慮到xAI與x.com的特殊關系,xAI可能有某種推特數據的訪問權限。這種專門數據會帶來優勢嗎?
Tony Wu:這是個好問題。我不負責法律方面的問題,所以在法律方面可能有更合适的人來回答。但就這些數據帶來的好處而言,我認為有兩點。首先最大的優勢是這些數據可以讓我們的模型訪問最新、最鮮活的X平台信息。我們與X公司合作,建立了Grok,能夠檢索相關的推文或帖子,為用戶提供最新的信息。第二點是,在推理期間,你可以讓模型檢索和總結信息,但也有可能是你想将某些特定功能内置到模型權重中,比如讓模型理解X上的特定内容。所有這些知識可以通過微調甚至預訓練過程來獲取,以便模型更好地理解平台上的動态。所以,總結來說,我認為我們有特權訪問的數據使我們能夠向用戶提供更新鮮的結果。
Sharan Narang: 我同意Tony的觀點,将專有數據添加到預訓練中很棘手,除非數據已經經過審核且質量保證。預訓練非常昂貴,相比之下,在後期訓練中添加特定應用數據更容易。
Minfa Wang:有個相關的問題是,如果有特定應用數據并在後期訓練中微調,會不會損害模型的通用知識,比如通用推理能力?如何權衡模型能力的不同方面?
Tony Wu:這取決于你是否需要模型仍然具有通用能力。如果有非常具體的應用,有時不需要模型具有那麼廣泛的通用性。另一方面,如果你有一個非常好的基礎模型,雖然運行成本會更高,但這個模型在微調後仍然會非常通用。
Sharan Narang: 你可以通過微調添加一些能力,而不會失去預訓練期間獲得的通用規劃或推理能力。但謹慎的後期訓練非常重要。
Minfa Wang:下面是一個相對有争議的話題,随着我們幾乎用盡互聯網上的數據,是否會遇到數據稀缺的問題?合成數據會是解決這個問題的方法嗎?
Devendra Chaplot:我認為我們短期内不會遇到數據稀缺的問題。目前訓練的模型幾乎隻用了開放網絡上一小部分的數據,我們現在隻是在玩文本數據。還有大量的圖像、視頻、音頻數據,然後當我們能夠擴展到所有這些多模态模型時,還有數字行為、物理行為等可以利用。所以我認為短期内不會有數據數量的問題,但我仍然認為合成數據在提升整體數據集質量方面是有用的。你還可以使用半合成數據,通過模型來改進你的原始數據,例如進行分類、重述、摘要等操作,以提高數據質量。
Tony Wu:我對這個問題有比較強烈的看法。我在合成數據方面工作了一段時間,我确實認為這是通向AGI的道路。盡管從長遠來看,我們可以從開放網絡獲取更多的tokens,但考慮到當前的擴展速度,每年計算能力(flops)可能會增加10倍,至少也會增加5倍,而數據增長可能需要以平方根的速度增加,也就是兩到三倍。因此需要收集、爬取和處理大量數據。我個人認為,如果能找到一種方法讓合成數據在預訓練中起作用,意味着它可以很好地擴展,那麼我們就不需要一直從互聯網收集更多數據,或總是遇到數據短缺的問題。這個問題已經迫使我們進行思考。X.AI正在建立一個擁有10萬個H100芯片的數據中心集群,預訓練需要大量數據。因此,我們必須投入大量精力來使合成數據起作用。
Sharan Narang:我同意他們兩位的觀點,數據量很大,合成數據可以發揮很大的作用。我認為在生成合成數據時,需要非常小心,因為很容易将先前訓練模型的偏見和錯誤傳播到下一個模型中。因此擁有一個良好的策劃流程,并确保你能捕捉到先前模型的錯誤和偏見是非常重要的,否則我們可能會陷入同樣的困境。
Tony Wu:再補充一點,如果我們有一天希望這些模型或機器真正具備像人類甚至超越人類的智能,它需要能夠生成非常新穎、原創的内容,以某種方式成為自我改進過程的一部分。那麼我認為,你不能從人類大規模地獲取高質量的推理數據,唯一的生成方式是通過合成數據。
Minfa Wang:對于合成數據生成,你們認為會有人類參與其中,還是完全由模型自我生成和自我改進?現在社區中也有一些懷疑論者,他們認為如果模型純粹為自己生成數據,就沒有真正的新信息輸入模型中。
Tony Wu: 我認為有不同類型的合成數據。正如之前提到的,我們可以進行簡單的、半合成的數據生成,比如重寫、重述,這幾乎是相同的信息内容。但這幾乎可以被視為一種不同的數據增強方法,隻是增加數據量以使模型更壯大。但最終,一旦超越這一點,我認為某種反饋循環需要發生。無論是來自人類的反饋,還是來自機器本身或其他驗證工具的反饋,這是生成大量高質量數據的真正途徑。
Sharan Narang: 我們已經在後期訓練中看到這一點了,對吧?我們用于RLHF(強化學習獎勵模型)循環的數據都是由人類驗證的合成數據。因此在預訓練中進行某種反饋也是非常有價值的。
Minfa Wang:謝謝分享。接下來我想談談模型的問題。Transformer模型是在2017年那篇《Attention Is All You Need》論文中出現的,自那以後,它就占據了整個行業的主導地位。現在它已經無處不在,大家都在使用它。然而,不時會有一些創新的模型架構被提出,挑戰Transformer的地位。你們是否進行過關于Transformer替代方案或模型架構搜索的研究?你們覺得這值得繼續探索嗎,還是認為Transformer足以引領我們最終實現AGI?
Devendra Chaplot: Mistral AI确實在新架構研究方面做了不少工作。比如稀疏專家混合模型,這仍然是基于Transformer架構,但在某些方面有很大不同,因為它幫助你在内存需求和推理速度之間取得平衡。學術界定期會提出新的架構,那些看起來有前途的我們也會嘗試。關于Transformer是否是最終的解決方案,我認為不是。我認為在我們實現AGI之前,這個領域會有更多的創新。
Sharan Narang: 我可能會分享一些不同的看法。我花了大約兩年時間與一個相當大的團隊一起努力嘗試構建更好的架構,但我們得出的結論是,Transformer是最适合擴展的模型。我認為所有新的架構都值得在學術界進行探索,但在它們能夠擴展并與Transformer競争之前,還有很多工作要做。人們應該繼續研究這些新架構,并且要考慮擴展法則,不僅要在簡單任務上顯示評估改進,還要覆蓋廣泛的任務。展示這些改進不僅在小規模上有效,在大規模上也能保持優勢,才可以與Transformer相比。至于Transformer是否能帶我們實現AGI,這取決于你對AGI的定義。有些人可能會認為我們已經實現了某種形式的AGI。但如果你說的是高度智能的通用代理,那麼可能我們還需要更多。
Devendra Chaplot:我明白這個觀點,但我也理解那些構建新架構的人的感受。人們總是将新架構與Transformer進行比較,但Transformer已經過了多年優化,我們有專門為Transformer架構構建的硬件,推理過程、訓練過程中的超參數等都已優化過。因此,如果有人提出一個新架構,你必須将其與2017年或2018年的Transformer進行比較。這在今天是很難做到的,因為這個領域競争非常激烈,人們總是想要最好的東西,而不願意投入時間去優化一個替代架構,這可能會有很大的風險,同時商業需求又很高。所以我認為我們處于某種局部最小值。我們有一個高度優化的架構,它工作得非常好,在達到飽和之前,還有很長的路要走。但一旦我們達到飽和,替代架構仍然很難出現,除非我們擺脫這個局部最小值。
Minfa Wang:希望在這個領域會有持續的研究,總有創新架構被提出。下一個話題是,随着我們邁向AGI,我們需要更強的規劃和推理能力。目前大多數LLM仍然圍繞着預測下一個詞的目标,有人質疑它是否能真正帶我們實現AGI。對此你們有任何想要分享的内容嗎?
Devendra Chaplot: 我們已經在使用強化學習,這是一種長期反饋機制,因為模型在長生成過程中獲得獎勵,而不僅僅是在預測下一個詞時獲得獎勵。我之前在機器人學領域也使用強化學習,它對學習規劃或推理非常有用。到目前為止,我們在語言或其他任務中使用的獎勵模型都是基于人類數據訓練的,但在數學或編程等任務中,我們可以有形式驗證或編程測試作為模型的外部反饋,這在某種程度上是自動化的,也具有長期性,因此模型可以基于這種反饋優化推理和規劃。
Sharan Narang:我認為提高規劃和推理能力的一種方法是将其更多地納入預訓練中。正如Tony之前提到的,我們從互聯網上獲取的推理數據有限,我們如何擴展數據集?我們如何使用合成數據?我們能在多大程度上改進基礎模型?另一個關于下一個詞預測目标的考慮是,如果你仔細想想,對于任何一個人來說,預測句子裡的下一個詞其實非常複雜,即便你非常了解某人。因此,這個目标本身就具有一些長期規劃的性質。但正如Devendra提到的,在後期訓練階段使用強化學習确實也可以改進規劃能力。
Minfa Wang:接下來我想談談多模态大模型。X.ai最近宣布了其多模态模型。到目前為止,開源版的Llama和Mistral還不是多模态的,但顯然你們正在朝這個方向努力。我想知道你們在研究多模态模型時遇到的最大挑戰是什麼?有哪些關鍵技術可以讓它們成功?
Devendra Chaplot: 是的,其中一個最大挑戰是多模态模型計算量增長非常快。即使是一張圖片也可以包含數千個tokens。如果你訓練數十億張圖片,計算量就變得非常巨大。而且因為你想在這些圖片中進行推理,或者在圖片和文本之間交織數據,你還需要增加模型的上下文窗口,以便模型能接受多張圖片,進行推理并使用一些文本。所以當你增加上下文窗口時,它再次增加了計算強度。這隻是圖片,如果涉及視頻,計算量會增加一個數量級。因此,我認為現在的多模态模型仍然處于其能力的初級階段。它們可以擴展10倍、100倍,仍然可以獲得大量的性能提升。因此,挑戰在于如何使其在數據效率方面更高,以便我們不需要100倍的計算能力來使用100倍的數據。
Sharan Narang:我同意。語音也是一個非常複雜的問題,因為當你考慮文本到語音時,延遲就成了一個問題。而且,正如Devendra提到的,數據非常重要,尤其是當你嘗試獲取圖文或視頻文本的交織數據時,如果視頻很長而文本本身很短,這将變得非常有挑戰性。多模态模型的設計空間實際上非常廣闊,有許多不同的方法可以在預訓練、後期訓練中使用。我認為這些技術現在正在起飛,所以看看下一波多模态模型會帶來什麼将會非常有趣。
Minfa Wang:在我們進入觀衆提問環節之前,讓我最後問一個問題。2024年被稱為多模态模型之年,我們确實看到了多模态模型和其産品化方面的突破。如果你們要對2025年做一個預測,你們認為大型語言模型或基礎模型的下一個重大裡程碑會是什麼?
Devendra Chaplot: 我認為會是數字和物理代理。我有機器人學背景,對具身智能非常有熱情。今年在初創領域圍繞構建通用類人機器人有很多興奮情緒。我認為它們可能會在明年或兩年後開始起飛,變得有用。此外,我認為數字代理方面,例如軟件工程代理或可以執行操作的代理,像預訂航班或叫車,這些也将在明年變得非常成熟。
Sharan Narang:這個領域同時發生了這麼多事情,很難預測。但我會說兩件事。首先,我認為我們會看到擴展帶來的持續改進。比如現有模型的階梯式改進,小模型和大模型之間的差距也會縮小,因為我們在嘗試使用蒸餾、量化等技術來訓練更強大的小模型。其次,我希望能找到一些技術來超越當前的Scaling Law趨勢,無論是通過創新模型,還是通過合成數據或高參數等技術,來做得比現在更好。
Tony Wu:我的賭注在于合成數據。
Q1:對于企業用例來說,很多非結構化數據都存在于文本中。且大多數是基于RAG(檢索增強生成)和一些微調。所以我的問題是,你們的公司是否在研究更适合語言能力和推理能力的小模型,可能并不需要大量數據和多模态數據,以便我們能處理更長的上下文并回答問題?
Tony Wu:是的,首先,我實際上認為企業用例仍然有一些多模态的需求。如果你考慮X.ai的情況,我們正在與特斯拉和X平台合作,X平台上有很多圖像。我認為我們可以嘗試理解這些圖像。在特斯拉的情況下,我們希望幫助自動駕駛和機器人工作,很多這些都需要多模态能力。第二點,是的,我們确實在做小模型。我們正在努力降低API成本,這是我們的工作,提供好服務的同時降低客戶成本。為此我們需要訓練非常小的模型,這些模型可以非常快速地運行,成本非常低。
Devendra Chaplot:Mistral AI專注于小模型,因為我們希望将性能與成本的比率推到最高。我們去年9月發布的7B模型在企業和開發人員中很受歡迎,他們部署到筆記本電腦、手機等設備上運行,或者在數據處理管道中使用它進行摘要或某種自動化。我們也聽說很多企業在内部使用它,雖然它很小,但它在特定用例中仍然非常強大,運行成本也非常低。
Q2:非常感謝你們分享這些非常有啟發性和信息豐富的讨論。我的問題是,迄今為止調試大語言模型的最佳策略是什麼?例如很多人都遇到過的幻覺問題。我很好奇你們如何調試LLM,特别是在看到這些故障案例時。第二個問題是,作為普通用戶,我們能做些什麼來應對這些故障案例?除了RAG技術,還有其他補救措施嗎?還是我們給你們當拉拉隊員,希望你們解決問題?謝謝。
Sharan Narang:我認為幻覺是一個大問題。解決事實準确性的問題非常棘手。比如,你問一個基礎模型任何問題,很難知道它是否在産生幻覺。而且事實也在變化。不過,像RAG和改進的微調技術可以幫助減少模型幻覺。總的來說,調試LLM非常具有挑戰性,無論是預訓練還是後期訓練,調試LLM的故事甚至可以寫一本書。我無法詳細介紹所有内容,但我認為投資于一個好的微調和RAG管道可以大大減少幻覺。
Q3:謝謝你們深入探讨如何通過預訓練和合成數據提高數據質量。除了防止幻覺,我對這些方法如何防止模型中潛在的偏見和錯誤信息感到困惑,特别是當我們開始使用像推文這樣的專有數據時。我想聽聽你們如何确保未來的AI模型保留道德标準并包含多樣化的觀點,特别是在涉及推理、情感和意見時。
Devendra Chaplot:這是我們訓練模型時的優先事項之一。我們有學術基準測試,它們專門測試種族、民族、性别等方面的偏見。無論是預訓練還是微調時,我們都會關注模型在這些基準測試上的表現。這也作為一種模型選擇方法。如果某個模型在這些基準測試上表現不好,我們就會避免使用那個數據集或訓練技術,通過這種方法可以大大減少模型的偏見。
Sharan Narang: 除了一些基準測試,我們還可以改進基準測試。因為在預訓練期間捕捉和測量偏見非常棘手,數據多樣性也很難衡量。在Meta我們非常重視這一點。還有一個是在後期訓練階段,我們加入了許多緩解措施,有很多團隊在研究如何改進後期訓練階段以減少偏見。合成數據的一個主要問題是它是否會疊代傳播偏見。安全性是一個非常重要的話題,我們需要更多的人關注和研究。
Q4:我有兩個問題,都是關于前沿模型的。第一個問題是關于Transformer的替代方案,你們怎麼看待Mamba?它在過去一兩年裡非常火。第二個問題是關于視頻生成模型。我們在GPU上優化視頻生成時遇到了很多計算和内存帶寬的挑戰。不知道是否有一些前沿的研究方向可以改變視頻生成的設計?
Sharan Narang:我來嘗試回答一下。我不是視頻生成方面的專家,所以沒有答案。關于第一個問題,Mamba,我認為這是一個有前途的架構,但還有很多工作要做才能與Transformer相比。正如Devendra提到的,Transformer非常優化,而且在它的工作方面非常高效。Mamba來自RNN世界,但經過了簡化和改進。不過,我認為還有很多工作要證明Mamba可以與Transformer架構相媲美。
Minfa Wang:希望這回答了你的問題。由于時間限制,我們隻能到此為止。再次感謝所有演講者慷慨分享他們的觀點。期待你們在未來推動技術前沿的發展。謝謝。
END