四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

語音識別 關(guān)鍵字列表
谷歌AI搜索實時語音功能正式上線

谷歌AI搜索實時語音功能正式上線

谷歌在美國地區(qū)的iOS和Android應(yīng)用中推出了AI搜索語音功能Search Live。用戶需在實驗室模式中開啟AI功能,即可通過語音與搜索進(jìn)行對話交流。該功能基于定制版Gemini驅(qū)動,支持連續(xù)語音問答和文本轉(zhuǎn)換。谷歌稱這適合用戶在移動或多任務(wù)處理時使用。未來幾個月還將支持實時圖像識別和解答功能。不過此功能可能影響原始信息源網(wǎng)站的訪問流量。

Wispr 的 Flow 語音轉(zhuǎn)寫軟件現(xiàn)已可在 iPhone 上使用

Wispr 的 Flow 語音轉(zhuǎn)寫軟件現(xiàn)已可在 iPhone 上使用

Wispr 的 Flow 是一款創(chuàng)新的 iOS 語音輸入軟件,借助 AI 技術(shù)能將語音無縫轉(zhuǎn)換為精美文字,每周免費 2000 字,支持 100 多種語言,并能實現(xiàn)多設(shè)備同步。

BBC內(nèi)部訪談:驅(qū)動技術(shù)創(chuàng)新在BBC

BBC內(nèi)部訪談:驅(qū)動技術(shù)創(chuàng)新在BBC

BBC 的研發(fā)團隊致力于利用技術(shù)為公共利益服務(wù),從內(nèi)容真實性驗證、沉浸式媒體體驗到 AI 語音轉(zhuǎn)文字系統(tǒng),實現(xiàn)跨行業(yè)創(chuàng)新,造福社會。

Spotify 的 AI DJ 現(xiàn)已支持點歌

Spotify 的 AI DJ 現(xiàn)已支持點歌

Spotify 的 AI DJ 允許付費用戶通過語音請求播放符合心情、藝術(shù)風(fēng)格、流派或活動氛圍的歌曲。該功能由 OpenAI 實時生成語音,旨在融合個性化推薦與傳統(tǒng)電臺體驗,但初期版本僅支持英文請求。

Yelp 推出針對餐廳及服務(wù)提供商的 AI 語音助手

Yelp 推出針對餐廳及服務(wù)提供商的 AI 語音助手

Yelp 正在測試基于 AI 的語音代理,通過 OpenAI Realtime API 與企業(yè)數(shù)據(jù)整合,實現(xiàn)自動接聽電話、管理預(yù)訂、過濾垃圾信息和通話分析,疑難問題由人工跟進(jìn),助力客戶服務(wù)。

Amazon Nova Sonic AI 不只是聽懂你說什么,還能理解你的語氣

Amazon Nova Sonic AI 不只是聽懂你說什么,還能理解你的語氣

亞馬遜推出了一款名為 Nova Sonic 的 AI 語音模型,它不僅能理解語音內(nèi)容,還能捕捉說話者的語氣、猶豫等細(xì)微變化。這個模型整合了語音識別、回復(fù)生成和語音合成功能,能夠?qū)崿F(xiàn)更自然的對話交互。Nova Sonic 可以根據(jù)說話者的語氣調(diào)整回應(yīng),理解對話中的停頓,并能適當(dāng)處理打斷等情況,從而提供更智能、更人性化的語音交互體驗。

企業(yè)專用 AI 語音模型新秀:aiOla 推出 Jargonic,號稱在企業(yè)術(shù)語識別方面優(yōu)于競品

企業(yè)專用 AI 語音模型新秀:aiOla 推出 Jargonic,號稱在企業(yè)術(shù)語識別方面優(yōu)于競品

aiOla 推出了一款名為 Jargonic 的新型自動語音識別模型,專為企業(yè)使用而設(shè)計。這個模型能夠處理專業(yè)術(shù)語、背景噪音和各種口音,無需大量再訓(xùn)練或微調(diào)。Jargonic 采用獨特的關(guān)鍵詞識別系統(tǒng),可以零樣本適應(yīng)企業(yè)特定詞匯。在多項基準(zhǔn)測試中,Jargonic 在準(zhǔn)確性和專業(yè)術(shù)語識別方面都優(yōu)于主要競爭對手。這款模型現(xiàn)已通過 API 向企業(yè)客戶開放使用。

Observe 推出 VoiceAI 智能助手,通過擬人化語音實現(xiàn)客服中心自動化,避免打斷對話

Observe 推出 VoiceAI 智能助手,通過擬人化語音實現(xiàn)客服中心自動化,避免打斷對話

Observe.AI 正式推出 VoiceAI 智能語音助手,旨在自動化處理呼叫中心的日?蛻艚换。該解決方案集成了多項 AI 技術(shù),包括語音識別、文本轉(zhuǎn)語音和專有 AI 模型,可無縫對接企業(yè)現(xiàn)有系統(tǒng)。通過提供擬人化的語音服務(wù),既能提升客戶體驗,又能大幅降低運營成本,幫助企業(yè)打造智能化客服中心。

OpenAI 新推出的語音 AI 模型 gpt-4o-transcribe 讓你幾秒鐘內(nèi)為現(xiàn)有文本應(yīng)用添加語音功能

OpenAI 新推出的語音 AI 模型 gpt-4o-transcribe 讓你幾秒鐘內(nèi)為現(xiàn)有文本應(yīng)用添加語音功能

OpenAI 發(fā)布三款全新專有語音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型基于 GPT-4o 開發(fā),提供更準(zhǔn)確的轉(zhuǎn)錄和語音合成能力,支持 100 多種語言,可通過 API 集成到第三方應(yīng)用中。新模型在英語轉(zhuǎn)錄準(zhǔn)確率方面表現(xiàn)出色,錯誤率僅為 2.46%,并支持語音定制和情感表達(dá)。

Anthropic 據(jù)報道正在為 Claude 準(zhǔn)備語音模式

Anthropic 據(jù)報道正在為 Claude 準(zhǔn)備語音模式

據(jù)報道,人工智能初創(chuàng)公司 Anthropic 正在為其 AI 聊天機器人 Claude 開發(fā)語音功能。公司首席產(chǎn)品官表示,計劃推出允許用戶與 AI 模型對話的體驗。Anthropic 已進(jìn)行內(nèi)部原型開發(fā),并與包括亞馬遜在內(nèi)的多個合作伙伴討論,以加速語音功能的推出。這將使 Claude 的交互方式更加自然,為用戶提供新的使用模式。

ElevenLabs 推出自研語音轉(zhuǎn)文本模型

ElevenLabs 推出自研語音轉(zhuǎn)文本模型

ElevenLabs是一家剛剛完成1.8億美元融資的人工智能初創(chuàng)公司,主要以其音頻生成能力而聞名。該公司通過推出首個獨立的語音轉(zhuǎn)文本模型Scribe,邁出了另一個技術(shù)方向。該初創(chuàng)公司估值為33億美元,已幫助許多其他公司提供語音轉(zhuǎn)文本服務(wù),利用其龐大的聲音庫。然而,該公司現(xiàn)在希望進(jìn)入語音檢測領(lǐng)域,與Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型競爭。

美國銀行 FNBO 使用 Pindrop 應(yīng)對語音詐騙和深度偽造

美國銀行 FNBO 使用 Pindrop 應(yīng)對語音詐騙和深度偽造

美國第一國民銀行 (FNBO) 與語音安全專家 Pindrop 合作,采用創(chuàng)新技術(shù)來識別和驗證客戶身份。通過結(jié)合云端欺詐檢測和身份認(rèn)證系統(tǒng),FNBO 實現(xiàn)了無摩擦的客戶驗證,提高了安全性和用戶體驗。該銀行還在測試新的深度偽造檢測功能,以應(yīng)對日益嚴(yán)重的 AI 語音欺詐威脅。這種合作體現(xiàn)了銀行業(yè)應(yīng)對網(wǎng)絡(luò)犯罪挑戰(zhàn)的新趨勢。

Meta Connect 2024,Meta 推出 Orion AR 眼鏡、Quest 3S VR頭顯、Ray-Ban智能眼鏡

Meta Connect 2024,Meta 推出 Orion AR 眼鏡、Quest 3S VR頭顯、Ray-Ban智能眼鏡

在顯示技術(shù)上,Orion采用了碳化硅鏡片和先進(jìn)的光波導(dǎo)技術(shù),結(jié)合Micro LED投影儀,提供了70度的視場角,這在小型AR眼鏡中是前所未有的,為用戶提供了更為沉浸式的體驗。

Qwen2-Audio:多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能

Qwen2-Audio:多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能

多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能,支持超過8種語言和方言,無需自動語音識別即可進(jìn)行語音交互,提供音頻信息分析和多語言支持。

頂會論文防語音欺詐新成果:KDD 2022火山語音提出“無中生有式”對抗語音攻擊創(chuàng)新方案

頂會論文防語音欺詐新成果:KDD 2022火山語音提出“無中生有式”對抗語音攻擊創(chuàng)新方案

國際頂級學(xué)術(shù)會議ACM SIGKDD(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,KDD)正于美國華盛頓召開。會上,火山語音多篇論文被KDD 2022 Research track接收并發(fā)表,創(chuàng)新性地提出基于語音合成來有效攻擊語音識別系統(tǒng)的新技術(shù)路徑,用于高效并準(zhǔn)確發(fā)現(xiàn)語音安全領(lǐng)域的新漏洞。