5月28日,在全球權(quán)威 AI 評測平臺 Artificial Analysis的語音排行榜(Speech Arena)上,阿里巴巴語音大模型Fun-Realtime-TTS-Preview 以 1190 分的 Elo 評分位列全球第五、國產(chǎn)第一。
語音大模型的能力可以拆解為三個層次:聽得準(ASR,將語音轉(zhuǎn)為文字)、說得好(TTS,將文字轉(zhuǎn)為語音)和聊得棒(Chat,端到端的語音理解與對話)。三者各自獨立又相互依賴,共同構(gòu)成了完整的語音交互體驗。一周前,F(xiàn)un-Realtime-ASR和Fun-Realtime-AudioChat剛剛在Artificial Analysis登頂,超越GPT-Realtime-2等國際頂尖模型,在詞錯誤率、語音推理和對話流暢度三項指標上斬獲全球第一。最新的榜單補齊了最后一塊拼圖,至此,在ASR、Chat以及TTS三個賽道,阿里的語音大模型拿下“大滿貫”。
三款模型背后的技術(shù)棧不僅應用于阿里生態(tài)產(chǎn)品如千問 App、高德地圖和釘釘,還服務于汽車、教育、智能硬件等多個行業(yè)。此外,阿里語音團隊開源的多款模型如FunASR、CosyVoice在GitHub 上累計獲得了數(shù)萬星標,深受海內(nèi)外開發(fā)者關(guān)注。
玉蕾 小風