Meta發(fā)布了Llama家族的新一代AI模型Llama 4,包括Scout、Maverick和Behemoth三個(gè)模型。這些模型在大量未標(biāo)記的文本、圖像和視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,具備廣泛的視覺理解能力。Llama 4采用混合專家架構(gòu),提高了計(jì)算效率。Meta表示,這標(biāo)志著Llama生態(tài)系統(tǒng)新時(shí)代的開始,將為用戶帶來更強(qiáng)大的AI能力。
Google最新的人工智能模型Gemma 3在參數(shù)和上下文窗口方面都有顯著提升,旨在為開發(fā)者提供高效的單GPU或AI加速器解決方案。它支持多種數(shù)據(jù)類型的處理,并且可以在不同環(huán)境中運(yùn)行。Gemma 3的上下文窗口擴(kuò)展至128,000個(gè)token,適合各種硬件使用,且開源可供下載。
微軟推出了新型AI模型Magma,旨在提升機(jī)器人的視覺、理解和行動(dòng)能力。Magma能同時(shí)處理多種類型的數(shù)據(jù),是朝著"代理AI"邁出的重要一步。該模型結(jié)合了視覺和語(yǔ)言處理技術(shù),經(jīng)過多模態(tài)訓(xùn)練,可以執(zhí)行操控機(jī)器人和導(dǎo)航用戶界面等任務(wù),為AI自動(dòng)化日常生活開辟了新的可能性。
前OpenAI首席技術(shù)官M(fèi)ira Murati今天推出了一家新的人工智能初創(chuàng)公司——思維機(jī)器實(shí)驗(yàn)室,專注于開發(fā)多模態(tài)模型。該公司在競(jìng)爭(zhēng)激烈的AI市場(chǎng)中嶄露頭角,Murati曾在四個(gè)月前與投資者洽談籌集超過1億美元的資金。思維機(jī)器實(shí)驗(yàn)室的初始團(tuán)隊(duì)包括前OpenAI研究高管Barret Zoph,Murati擔(dān)任首席執(zhí)行官,Zoph擔(dān)任首席技術(shù)官。該實(shí)驗(yàn)室計(jì)劃訓(xùn)練能夠處理文本和多媒體文件的模型,并將基礎(chǔ)設(shè)施質(zhì)量作為首要任務(wù),致力于提高研究生產(chǎn)力。
Mini-Omni是清華大學(xué)啟元實(shí)驗(yàn)室開源的多模態(tài)模型,具備實(shí)時(shí)語(yǔ)音到語(yǔ)音的對(duì)話能力,無(wú)需額外的ASR或TTS模型。它能夠邊思考邊說話,支持流式音頻輸出,并能通過'Any Model Can Talk'方法為其他模型添加語(yǔ)音交互能力。
馬斯克旗下AI公司x.ai推出Grok-1.5 Vision,具備視覺功能,能深度理解真實(shí)世界并進(jìn)行數(shù)據(jù)解讀、轉(zhuǎn)換。Grok-1.5 V在多模態(tài)模型測(cè)試中超過GPT-4V等競(jìng)品,展示了強(qiáng)大的理解、數(shù)據(jù)轉(zhuǎn)換和檢索能力,如將圖片翻譯成Python代碼。即將向早期測(cè)試者和現(xiàn)有用戶推出。
DeepSeekVL是一款開源多模態(tài)模型,通過對(duì)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和訓(xùn)練策略的聯(lián)合拓展,構(gòu)建了7B與1.3B規(guī)模的強(qiáng)大模型。相關(guān)資源可通過論文鏈接、模型下載頁(yè)面和GitHub主頁(yè)獲取。