Google DeepMind CEO Demis Hassabis透露,Google計劃將Gemini AI模型與Veo視頻生成模型結(jié)合,以增強(qiáng)AI對物理世界的理解。這一舉措旨在創(chuàng)建多模態(tài)的"通用數(shù)字助手",能在現(xiàn)實(shí)世界中為用戶提供幫助。AI行業(yè)正逐步發(fā)展towards全能模型,能夠理解和生成多種媒體形式。
Meta周六推出了最新一代生成式AI模型家族Llama 4,包括Scout和Maverick兩款開放權(quán)重的多模態(tài)模型。Scout是較小的170億參數(shù)模型,Maverick則是中型模型,擁有170億參數(shù)和128個專家子網(wǎng)絡(luò)。測試顯示Maverick在文本生成方面超越了ChatGPT-4o。更多Llama 4系列模型將在本月晚些時候公布。
Cohere的非營利研究實(shí)驗(yàn)室本周發(fā)布了一款多模態(tài)“開放”AI模型Aya Vision,該實(shí)驗(yàn)室聲稱其為同類最佳。Aya Vision能夠執(zhí)行圖像描述、回答照片相關(guān)問題、翻譯文本以及生成23種主要語言的摘要等任務(wù)。Cohere還通過WhatsApp免費(fèi)提供Aya Vision,稱這是“使技術(shù)突破對全球研究人員可及的重要一步”。
Google 云計算部門預(yù)測多模態(tài) AI 將成為 2025 年五大 AI 趨勢之一。該公司正通過 BigQuery 數(shù)據(jù)倉庫整合文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù),結(jié)合生成式 AI 處理,以搶占多模態(tài) AI 市場先機(jī)。Google 認(rèn)為,這種技術(shù)可以從以前無法使用的數(shù)據(jù)中挖掘洞察,為企業(yè)帶來前所未有的個性化和可擴(kuò)展性。
隨著生成式AI的快速普及,企業(yè)已開始廣泛應(yīng)用并獲得投資回報。預(yù)計到2025年,AI將在企業(yè)中大規(guī)模采用,推動效率和生產(chǎn)力提升。小型語言模型、邊緣計算、AI推理能力、proven use cases的大規(guī)模應(yīng)用、敏捷開發(fā)的演進(jìn)、法規(guī)監(jiān)管加強(qiáng)、AI的無處不在、AI代理的興起、多模態(tài)AI等將成為主要趨勢,徹底改變企業(yè)運(yùn)營方式和軟件開發(fā)模式。