作者:王兆洋
來源: Jessica 矽星人

郵箱|wangzhaoyang@pingwest.com
郵箱|JessicaZhang@pingwest.com
今年的Google Shoreline圓形劇場 ,彌漫着一種前所未有的角鬥場般的氣息。
前一天OpenAI用GPT-4o和全新的ChatGPT把全世界掀翻,而Google要在今年甚至最近幾年最重要的一場Google I/O上做何應對,似乎成了唯一的主題。
事實上,據OpenAI的人士透露,GPT-4o是一個至少兩年前就已經開始開發的模型,而矽谷AI圈子之小,互通有無之頻繁,其實不僅OpenAI有機會故意選在Google的大會前狙擊Google,後者同樣也會對此有所預期。
所以,當Pichai走上舞台中央時,一場反狙擊開始了。

在這場持續兩小時的發布中,Google有攻有守。 它對自己的看家業務搜索做了最徹底的一次AI化改造,還再次全面更新了Gemini模型家族。 守住OpenAI們猛攻的方向,同時發起進攻。 一方面很有火藥味的發布了效果超過Sora的模型Veo,并且是可以立刻申請體驗的産品;另外還展示了與GPT-4o 相似的語音視覺交互功能Gemini Live,同時,還更進一步推出了比OpenAI等對手更激進的AI智能體Project Astra。 以下為現場實錄。 Gemini是去年Google I/O上正式推出的最核心的模型,而一年以後,Google已經用它完成了對自己内部的“大一統”。模型是Gemini,智能助手是Gemini,Android的核心是Gemini。甚至,Pichai都不叫自己Googler了,他們叫: Geminier。 而當天大會上Gemini模型首先進行了更新。此前幾個月,Gemini 1.5的長文本版本以預覽版本推出,今天它正式對所有人發布。此前的Gemini 1.5版本上下文長度為100萬token。而Pichai似乎輕描淡寫的公布: 新版本長度再次刷新,達到200萬token。 現場的開發者爆發出當天的第一陣歡呼。 “我們正式進入了Gemini時代。”Pichai直入主題說。目前有超過1500萬開發者在使用Gemini做開發。而Gemini最近三個月時間達到了100萬訂閱用戶。 關于Gemini的具體信息,自然是由Deepmind的CEO Demis Hassabis來講。這也是這位傳奇人物第一次Google I/O演講。 在他的演講中,第一個發布是Gemini 1.5 flash。這是一個針對端側的模型,同樣有100萬和200萬token的版本。這似乎指向了Google接下來對端側的野心。 “我們總有很多模型同時在訓練,我們會用我們最強的模型來幫助小模型。” 而對于此前推出的單獨版本的Gemini App,Google也做了更新,推出了更高級别的訂閱服務Gemini Advanced。也就是對标ChatGPT Plus的最高級别服務。 在這個服務裡,一個新的功能看起來正是對昨天ChatGPT的更新的回應——Gemini Live。你可以在Gemini裡實時無延遲地打電話來與AI互動,也就是GPT-4o昨天做的事情。遺憾的是這部分隻是一帶而過,看起來Google更多是想說,哪怕晚一天,也要告訴世界,不是隻有你能做。 不過現場似乎對此略顯失望,人們顯然希望看到更多針尖對麥芒的發布。 一個充滿野心的AI Agent。 面對OpenAI的進攻,不能隻是防守。Google也需要一些更加激進的東西來反擊。這個東西就是Project Astra。這是一個還在研發中的AI Agent,而Pichai形容Google的夢想一直就是做出一個強大的AI Agent。 Google Deepmind CEO Hassabis親自上台,講解和展示了Astra的一個原型的運作視頻。 在展示中,一開始一切都和我們見過的AI Agent差不多,可以通過用戶打開的攝像頭識别物體,與用戶實時語音交互。而驚人的一刻在最後到來,當用戶帶着Astra走了一大圈後,突然提出一個此前沒有涉及到的問題: “你記得我把眼鏡放哪了麼?” 這是此前沒有詢問的問題,但攝像頭掃過的時候Astra曾“看”到過他的眼鏡,而AI Agent居然以視覺的形式記錄了下來。 “你的眼鏡在桌上蘋果旁邊。”Astra回答道。 這讓現場一陣驚呼,也是此次發布會上最長的一次掌聲。 在Voe的展示中,用戶可以通過點擊擴展,而繼續增加視頻生成的時長,這讓它可以超過了Sora一開始的1分鐘,并且可以保持一緻性。 Google什麼時候對搜索下手,是所有人期待的那個重要時刻。OpenAI此前的煙霧彈,Perplexity不停地碰瓷,都讓Google一直顯得太過安靜。而這一次終于有了最大的一次更新和變化。 當數億美國用戶今天打開Google時,他們将看到近幾年最大變化的Google。 AI overview,也就是AI生成的搜索答案總結,會出現在所有人的搜索框下。 而且,這個總結并不是一個固定的模版,而是根據你的問題進行調整。 比如,Google可以根據你的問題幫你做規劃。這時候在搜索框下,會顯示正在進行的步驟,然後在Overview裡展示給你不同卡片,把需要的信息整理出來提供給你。 而搜索的改造也隻是個開始,它看起來很像是要變成Google激發用戶AI需求的一個超級入口。 比如Google展示了一個場景,當用戶哪怕不知道自己該具體問什麼的時候,Google也可以給你推薦,與你做頭腦風暴。而此時這個搜索的界面也進一步完全變成了另一個樣子。像是不同卡片的信息流,每一個都可以進一步操作。 “Google會替你Google。”這是Pichai對此的定義。 更進一步,Google還展示了一個用實時視頻對話來搜索的功能。而這也是全場進行了半小時後的第一次Live demo的環節。 當你買了一台唱片播放器,但你對此毫無了解,它出了播放問題,但你不知道問題到底在哪裡的時候,你可以直接打開攝像頭拍攝并詢問。 而Google直接給出了AI整理的答案和解決建議。 “這就是Gemeni時代的搜索。”Pichai說。現場掌聲再次響起。 Pichai在當天展示的第一個應用案例,是“Ask Photo”。9年前,Google Photo發布。每天有60億的照片視頻上傳。Gemini讓AI編輯更簡單。 你現在可以ask photo,與照片進行對話。比如,你可以問Photo app,“我的汽車牌照是多少”。然後Gemini就在照片裡尋找出來你的車告訴你答案。 或者你可以詢問Photo,“我女兒是什麼時候學會遊泳的”,然後還可以進一步詢問,“她的進步是怎樣的”。Photo都可以把對應的照片和視頻給你展示出來。這對于每天都抱着手機看自己寶貝孩子成長曆程的人們來說,實在是太有用了。 這個功能的展示也讓全場一陣歡呼。 此外Workspace也有了很多新功能,Google還展示了一個基于多模态能力的教學工具,你可以用語音提出教學要求,比如“給我一個用籃球解釋力學原理的案例”,Motion就會自動用很自然的語音講出來。 另一個讓現場觀衆眼前一亮的功能,是Android對Gemnini的使用。現場展示的一個live demo中,一個詐騙電話打來,像我們經常遇到的電話那樣,在一通義正嚴辭的提醒後,對方要求你把錢轉到一個安全的賬戶。 而就在這句話說出來時,Gemini被激發了,直接彈出一個警告框,阻止了電話的繼續進行。 全場響起可能是當天第二長的一次歡呼。 “不用數了,Gemini數完了。” 然後大屏幕顯示120。 “我說了這麼多次AI。” 然後Gemini又加了1,變成了121。 現場都笑了。 很明顯,Google依然正在一個整合資源的過程裡。無論是對全家桶的能力提升,還是對搜索的改造,背後都是一個邏輯,要把Google這麼多年積累下來的能力和資源用起來,由Gemini來做唯一的大腦,改造一切,守住并繼續搶奪新的用戶。 Google不會輕易下牌桌,AI大戰會繼續進行下去。 以下為當天Google I/O上各種發布的更多信息: 為了滿足用戶對低延遲和低成本的需求,谷歌首先帶來輕量化模型Gemini 1.5 Flash。它專為大規模服務設計,速度更快、成本低至0.35美元每百萬tokens。 盡管1.5 Flash體積小巧,仍實現了100萬個标記的長上下文窗口,開發人員還能注冊嘗試200萬個标記。此外,它在跨大量信息的多模态推理方面表現出色,适用于摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數據提取等多種任務。 這種強大性能來源于“蒸餾”技術,該技術将1.5 Pro中最重要的知識和技能轉移到更小、更高效的模型中。從今天起,超過200個國家的用戶都可以在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。 (2) Gemini 1.5 Pro 迎來重大升級:200萬上下文、更強大的推理和理解能力 今天起,Google最先進的多模态大模型Gemini 1.5 Pro 将在 Gemini Advanced 中直接供消費者使用100萬标記上下文窗口,并在私人預覽中擴展到 200 萬标記。這使得Gemini 1.5 Pro能處理更更大量的複雜信息,生成更準确、更細緻的輸出。 同時,通過數據和算法改進,增強了模型的代碼生成、邏輯推理和規劃、多輪對話以及音頻和圖像理解能力。升級後的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項公共基準測試中取得了顯著改進,在多項圖像和視頻理解基準測試中也實現了最先進性能。 此外Gemini 1.5 Pro還能夠遵循越來越複雜和細微的指示,包括指定産品級行為的指示,如角色、格式和風格等。谷歌也在 Gemini API 和 Google AI Studio 中增加了音頻理解,支持跨圖像和音頻進行推理。 用戶可以通過 Gemini Advanced 訂閱服務體驗最新的Gemini 1.5 Pro,支持超過150個國家的35種語言。 (3) 首個AI Agent産品Project Astra Hassabis表示,Project Astra旨在像人類一樣理解和響應複雜的動态世界,記住所見所聞以理解上下文并采取行動。同時,它需要主動、可教和個性化,使用戶能夠自然地與之交流,無延遲。 其挑戰之一是将響應時間縮短到對話級别,這是一個困難的工程難題。Astra基于Gemini和其他特定任務模型,通過持續編碼視頻幀、将視頻和語音輸入結合到事件時間線上,并緩存信息以便高效回憶,從而更快地處理信息。 “基于 Gemini 模型,我們開發了能夠高效調用視頻幀和語音輸入的代理,并增強了其語調範圍,使其更好地理解上下文并快速響應。” Hassabis補充道。 未來,用戶就可以通過手機或眼鏡擁有一個專家級别助手。今年晚些時候,這些功能将出現在Gemini應用程序等Google産品中,如Gemini應用程序。 媒體生成工具 (4)Veo:比Sora更強的視覺模型 Veo能夠生成超過一分鐘的高質量1080p視頻,涵蓋多種電影和視覺風格。據介紹,Veo具備高級的自然語言和視覺語義理解能力,能準确呈現細節并捕捉情感基調。它理解“延時攝影”等電影術語,提供高度創作控制,生成的鏡頭中人、動物和物體的運動非常真實。 Google已邀請電影制片人和創作者試用Veo,并根據他們的反饋改進技術。Veo基于Google多年生成視頻模型的工作,如GQN、DVD-GAN、Imagen-Video等,結合新技術提高質量和分辨率。Veo将作為VideoFX的私人預覽提供給特定創作者,所有人可申請注冊候補名單,未來可能直接引入YouTube Shorts。 (5)Imagen 3發布,文生圖模型升級 Imagen 3是Google最高質量的文本到圖像生成模型。它能生成細節豐富、栩栩如生的圖像,視覺幹擾明顯少于之前的模型。并且能更好地理解自然語言和提示背後的意圖,結合長提示中的細微細節,掌握多種風格。它還是迄今為止Google最好的文字渲染模型,使生成個性化生日祝福和演示文稿标題頁成為可能。 從今天起,Imagen 3将作為ImageFX中的私人預覽提供給特定創作者,用戶可以注冊加入候補名單。很快,Imagen 3也将在Vertex AI上提供。 此外,Google還設計并構建了音樂AI工具Music AI Sandbox,旨在為創意打開新的天地,讓人們從零開始創作新的器樂部分并以新的方式轉換聲音。 (6)AI搜索 Gemini時代的搜索正在全面改變搜索的呈現方式、服務體驗和廣告方式。首先,美國用戶将體驗到近年來最大的交互界面變動。搜索框下方的信息會先呈現一個AI生成的概覽,據Google透露,用戶已通過搜索實驗室數十億次使用AI概覽。這一功能增加了搜索頻率,并提高了用戶對搜索結果的滿意度。本周,數億用戶将可使用AI概覽,預計到年底覆蓋超過十億人。 搜索也不再是“一次性”的服務,而是一個AI智能體的入口。用戶提出複雜問題後,AI會将其分解為小模塊,提供準确的答案和建議,還可以根據問題和搜索結果為你拟定計劃。例如,用戶可以搜索“創建一個易于準備的3天餐計劃”,獲得來自網絡的各種食譜,并能提出進一步需求和修改建議使答案更個性化,再快速将餐點計劃導出到Docs或Gmail,“一條龍”式服務極大提升了搜索的實用性和便捷性。 此外,AI不僅提供答案,還能主動幫助用戶尋找靈感并進行頭腦風暴,創建AI組織的結果頁面。未來,Google還會推出視頻AI搜索功能。 這種改動也對廣告産生了影響。Google表示,通過AI概覽,用戶會訪問更多樣化的網站,以解決更複雜的問題。AI概覽中包含的鍊接獲得的點擊次數比傳統網頁列表更多。随着這一體驗的擴展,Google将繼續專注于為出版商和創作者帶來有價值的流量,廣告仍會出現在專用位置,并清晰标注以區分有機和贊助結果。 ——從回答、計劃、需求定制到組織和視頻搜索,Google都會替你完成,而你需要做的隻有提問。 (7)TPU 十多年來,Google一直在開發專用的AI硬件——Tensor Processing Units(TPU)。今天大會上展示的Gemini 1.5 Flash、Imagen 3和Gemma 2.0這些創新模型都是在TPU上訓練和部署的。今天,谷歌也推出自己迄今為止性能最高、能效最優的第六代TPU——Trillium。 Trillium TPUs提供比TPU v5e高4.7倍的峰值計算性能,同時将高帶寬内存(HBM)和芯片間互連(ICI)帶寬翻倍。配備第三代SparseCore加速器,能更快地訓練基礎模型并降低延遲和成本。其能效比TPU v5e提高67%以上,是最可持續的TPU。它也可以在單個集群中擴展到256個TPU,并通過多切片技術和Titanium IPU擴展到數百個集群,構建大規模的超級計算機。 多項技術突破使得Trillium TPUs能夠大幅提升AI工作負載訓練和服務性能,處理更大模型,提升計算能力,改進大模型訓練和服務性能。 (8)Gemini on Android Google此次也在安卓平台上推出一系列全新AI功能,将搜索和智能服務提升到一個新的水平。此前,"Circle to Search"允許用戶無需切換應用即可搜索,現在起它還可以作為學習伴侶,解答數學題、圖表等複雜問題。目前這一功能已在超過1億台安卓設備上提供,預計到年底這一數字将翻倍。 在與朋友的信息對話中,用戶可以随時召喚Gemini生成圖片,針對YouTube教程視頻或較長的PDF文檔提出特定問題,Gemini會在幾秒鐘内提供解答,就像把數據中心裝進了口袋。 端側模型上,接入具備多模态能力的Gemini Nano。用戶可以詢問照片信息或獲取關于服裝搭配的意見。Gemini Nano還将集成到Android Studio中,為開發者提供助力。此外,當收到不明詐騙電話時,AI系統還會自動發出警報,提示用戶可能存在詐騙風險。 總之,Gemini正在将AI融入所有安卓平台的服務和應用中,為用戶帶來更加智能和便捷的使用體驗。1
Gemini,Gemini,還是Gemini


2
有視覺記憶的AI Agent

3
終于對搜索下手:Google搜索最大的一次改造


4
對全家桶的AI能力進一步改造升級

