亞馬遜宣布收購AI可穿戴設(shè)備初創(chuàng)公司Bee,該公司開發(fā)了能記錄用戶所有對話的智能手環(huán)和Apple Watch應(yīng)用。Bee產(chǎn)品售價49.99美元,通過監(jiān)聽對話為用戶創(chuàng)建提醒和待辦事項。此次收購顯示亞馬遜對可穿戴AI設(shè)備的興趣,有別于其Echo音箱等家用語音助手產(chǎn)品。盡管Bee承諾保護(hù)用戶隱私,但此類產(chǎn)品仍存在安全和隱私風(fēng)險,特別是在被整合到亞馬遜生態(tài)系統(tǒng)后。
語音AI解決方案提供商Krisp發(fā)布了VIVA語音隔離AI模型和軟件開發(fā)工具包,專為語音AI智能體設(shè)計。VIVA每月處理超過10億分鐘的語音音頻,能在20毫秒內(nèi)處理音頻,將對話輪轉(zhuǎn)準(zhǔn)確性提升3.5倍,減少50%的通話中斷。該工具可過濾背景噪音和笑聲,避免AI誤判,提升轉(zhuǎn)錄準(zhǔn)確性和用戶體驗。
法國AI初創(chuàng)公司Mistral發(fā)布首個音頻模型家族Voxtral,旨在為企業(yè)提供真正可用的語音智能解決方案。該模型可轉(zhuǎn)錄30分鐘音頻,理解40分鐘內(nèi)容,支持問答、摘要生成和語音命令執(zhí)行。Voxtral支持英語、西班牙語、法語等8種語言,提供24B參數(shù)的Small版本和3B參數(shù)的Mini版本。定價從每分鐘0.001美元起,聲稱成本不到同類方案的一半。
傳統(tǒng)語音助手往往無法很好地服務(wù)于有語音障礙的用戶。通過深度學(xué)習(xí)和遷移學(xué)習(xí)技術(shù),新一代對話AI系統(tǒng)能夠理解更廣泛的語音模式。這些系統(tǒng)不僅能識別非標(biāo)準(zhǔn)語音,還能基于用戶的語音樣本生成個性化合成語音,幫助用戶保持聲音身份。實(shí)時語音增強(qiáng)技術(shù)能夠改善發(fā)音、填補(bǔ)停頓,讓AI成為對話中的助手。對于企業(yè)而言,構(gòu)建包容性AI不僅是道德責(zé)任,也是巨大的市場機(jī)遇。
Deepgram發(fā)布了名為Saga的AI語音操作系統(tǒng),專為開發(fā)者設(shè)計。該工具作為通用語音界面直接嵌入開發(fā)環(huán)境,允許開發(fā)者僅通過語音控制工具和代碼。Saga集成了多種AI原生編碼環(huán)境,包括Cursor和Windsurf,還可維護(hù)Linear、Asana、Jira等項目管理軟件的狀態(tài)更新。開發(fā)者可通過語音表達(dá)想法,如"創(chuàng)建一個響應(yīng)表情符號的Slack機(jī)器人",Saga會將其轉(zhuǎn)換為可執(zhí)行的編程提示。該工具旨在減少開發(fā)者在工具間切換的"靜默稅收",提高開發(fā)效率。
谷歌在美國地區(qū)的iOS和Android應(yīng)用中推出了AI搜索語音功能Search Live。用戶需在實(shí)驗室模式中開啟AI功能,即可通過語音與搜索進(jìn)行對話交流。該功能基于定制版Gemini驅(qū)動,支持連續(xù)語音問答和文本轉(zhuǎn)換。谷歌稱這適合用戶在移動或多任務(wù)處理時使用。未來幾個月還將支持實(shí)時圖像識別和解答功能。不過此功能可能影響原始信息源網(wǎng)站的訪問流量。
Wispr 的 Flow 是一款創(chuàng)新的 iOS 語音輸入軟件,借助 AI 技術(shù)能將語音無縫轉(zhuǎn)換為精美文字,每周免費(fèi) 2000 字,支持 100 多種語言,并能實(shí)現(xiàn)多設(shè)備同步。
BBC 的研發(fā)團(tuán)隊致力于利用技術(shù)為公共利益服務(wù),從內(nèi)容真實(shí)性驗證、沉浸式媒體體驗到 AI 語音轉(zhuǎn)文字系統(tǒng),實(shí)現(xiàn)跨行業(yè)創(chuàng)新,造福社會。
Spotify 的 AI DJ 允許付費(fèi)用戶通過語音請求播放符合心情、藝術(shù)風(fēng)格、流派或活動氛圍的歌曲。該功能由 OpenAI 實(shí)時生成語音,旨在融合個性化推薦與傳統(tǒng)電臺體驗,但初期版本僅支持英文請求。
Yelp 正在測試基于 AI 的語音代理,通過 OpenAI Realtime API 與企業(yè)數(shù)據(jù)整合,實(shí)現(xiàn)自動接聽電話、管理預(yù)訂、過濾垃圾信息和通話分析,疑難問題由人工跟進(jìn),助力客戶服務(wù)。
亞馬遜推出了一款名為 Nova Sonic 的 AI 語音模型,它不僅能理解語音內(nèi)容,還能捕捉說話者的語氣、猶豫等細(xì)微變化。這個模型整合了語音識別、回復(fù)生成和語音合成功能,能夠?qū)崿F(xiàn)更自然的對話交互。Nova Sonic 可以根據(jù)說話者的語氣調(diào)整回應(yīng),理解對話中的停頓,并能適當(dāng)處理打斷等情況,從而提供更智能、更人性化的語音交互體驗。
aiOla 推出了一款名為 Jargonic 的新型自動語音識別模型,專為企業(yè)使用而設(shè)計。這個模型能夠處理專業(yè)術(shù)語、背景噪音和各種口音,無需大量再訓(xùn)練或微調(diào)。Jargonic 采用獨(dú)特的關(guān)鍵詞識別系統(tǒng),可以零樣本適應(yīng)企業(yè)特定詞匯。在多項基準(zhǔn)測試中,Jargonic 在準(zhǔn)確性和專業(yè)術(shù)語識別方面都優(yōu)于主要競爭對手。這款模型現(xiàn)已通過 API 向企業(yè)客戶開放使用。
Observe.AI 正式推出 VoiceAI 智能語音助手,旨在自動化處理呼叫中心的日?蛻艚换ァT摻鉀Q方案集成了多項 AI 技術(shù),包括語音識別、文本轉(zhuǎn)語音和專有 AI 模型,可無縫對接企業(yè)現(xiàn)有系統(tǒng)。通過提供擬人化的語音服務(wù),既能提升客戶體驗,又能大幅降低運(yùn)營成本,幫助企業(yè)打造智能化客服中心。
OpenAI 發(fā)布三款全新專有語音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型基于 GPT-4o 開發(fā),提供更準(zhǔn)確的轉(zhuǎn)錄和語音合成能力,支持 100 多種語言,可通過 API 集成到第三方應(yīng)用中。新模型在英語轉(zhuǎn)錄準(zhǔn)確率方面表現(xiàn)出色,錯誤率僅為 2.46%,并支持語音定制和情感表達(dá)。
據(jù)報道,人工智能初創(chuàng)公司 Anthropic 正在為其 AI 聊天機(jī)器人 Claude 開發(fā)語音功能。公司首席產(chǎn)品官表示,計劃推出允許用戶與 AI 模型對話的體驗。Anthropic 已進(jìn)行內(nèi)部原型開發(fā),并與包括亞馬遜在內(nèi)的多個合作伙伴討論,以加速語音功能的推出。這將使 Claude 的交互方式更加自然,為用戶提供新的使用模式。
ElevenLabs是一家剛剛完成1.8億美元融資的人工智能初創(chuàng)公司,主要以其音頻生成能力而聞名。該公司通過推出首個獨(dú)立的語音轉(zhuǎn)文本模型Scribe,邁出了另一個技術(shù)方向。該初創(chuàng)公司估值為33億美元,已幫助許多其他公司提供語音轉(zhuǎn)文本服務(wù),利用其龐大的聲音庫。然而,該公司現(xiàn)在希望進(jìn)入語音檢測領(lǐng)域,與Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型競爭。
美國第一國民銀行 (FNBO) 與語音安全專家 Pindrop 合作,采用創(chuàng)新技術(shù)來識別和驗證客戶身份。通過結(jié)合云端欺詐檢測和身份認(rèn)證系統(tǒng),FNBO 實(shí)現(xiàn)了無摩擦的客戶驗證,提高了安全性和用戶體驗。該銀行還在測試新的深度偽造檢測功能,以應(yīng)對日益嚴(yán)重的 AI 語音欺詐威脅。這種合作體現(xiàn)了銀行業(yè)應(yīng)對網(wǎng)絡(luò)犯罪挑戰(zhàn)的新趨勢。
在顯示技術(shù)上,Orion采用了碳化硅鏡片和先進(jìn)的光波導(dǎo)技術(shù),結(jié)合Micro LED投影儀,提供了70度的視場角,這在小型AR眼鏡中是前所未有的,為用戶提供了更為沉浸式的體驗。
多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能,支持超過8種語言和方言,無需自動語音識別即可進(jìn)行語音交互,提供音頻信息分析和多語言支持。
國際頂級學(xué)術(shù)會議ACM SIGKDD(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,KDD)正于美國華盛頓召開。會上,火山語音多篇論文被KDD 2022 Research track接收并發(fā)表,創(chuàng)新性地提出基于語音合成來有效攻擊語音識別系統(tǒng)的新技術(shù)路徑,用于高效并準(zhǔn)確發(fā)現(xiàn)語音安全領(lǐng)域的新漏洞。