谷歌DeepMind推出實驗性研究模型Gemini Diffusion,采用擴散方法生成文本,打破傳統(tǒng)大語言模型依賴自回歸逐詞生成的模式。該技術(shù)從隨機噪聲開始,逐步細化為連貫輸出,顯著提升生成速度至每秒1000-2000個令牌,是Gemini 2.5 Flash的3-7倍。擴散模型支持并行處理、自我糾錯和非因果推理,在編程和數(shù)學(xué)任務(wù)中表現(xiàn)出色。雖然在多語言和推理能力上仍有差距,但該技術(shù)為實時對話AI、代碼輔助等低延遲應(yīng)用帶來巨大潛力,標志著語言模型架構(gòu)的重要變革。
Inception是一家位于帕洛阿爾托的新公司,由斯坦福大學(xué)計算機科學(xué)教授Stefano Ermon創(chuàng)立,聲稱開發(fā)了一種基于“擴散”技術(shù)的新型AI模型,稱為擴散基礎(chǔ)的大型語言模型(DLM)。目前備受關(guān)注的生成AI模型大致可分為兩類:大型語言模型(LLMs)和擴散模型。Inception的模型結(jié)合了傳統(tǒng)LLMs的功能,如代碼生成和問答,但性能顯著更快,計算成本更低。
可控場景生成(即生成具有可重新排列布局的圖 像的任務(wù))是生成建模的一個重要課題 [16, 34],其應(yīng) 用范圍包括社交媒體平臺的內(nèi)容生成和編輯,以及互 動式室內(nèi)設(shè)計和視頻游戲。