IT之家 4 月 13 日消息,谷歌 DeepMind 首席執行官 Demis Hassabis 在由領英聯合創始人 Reid Hoffman 共同主持的播客節目 Possible 中透露,谷歌計劃將旗下的 Gemini AI 模型與 Veo 視頻生成模型進行融合,以此提升 Gemini 對物理世界的理解能力。
Hassabis 表示:“我們從一開始就將 Gemini 這一基礎模型打造爲多模態模型,因爲我們有着構建一個通用數字助手的願景,這個助手能夠在現實世界中真正爲你提供幫助。”
目前,整個 AI 行業正逐漸朝着“全能”模型的方向發展,這些模型能夠理解和整合多種媒體形式。谷歌最新的 Gemini 模型不僅可以生成圖像和文本,還能生成音頻;而 OpenAI 在 ChatGPT 中的默認模型如今也能創建圖像,包括宮崎駿風格的藝術作品。亞馬遜也宣佈計劃在今年晚些時候推出一款“任意到任意”的模型。
據IT之家瞭解,這些“全能”模型需要大量的訓練數據,包括圖像、視頻、音頻、文本等。Hassabis 暗示,Veo 的視頻數據主要來源於谷歌旗下的 YouTube 平臺。他說道:“通過觀看大量的 YouTube 視頻,Veo 2 能夠了解世界的物理規律。”此前,谷歌曾向 TechCrunch 表示,其模型可能會根據與 YouTube 創作者達成的協議,使用“部分”YouTube 內容進行訓練。據報道,該公司去年擴大了服務條款的部分內容,以便獲取更多數據來訓練其 AI 模型。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。