3月30日,阿里發(fā)布千問新一代全模態(tài)大模型Qwen3.5-Omni,在音視頻理解、識別、交互等215項(xiàng)任務(wù)中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成為目前全球最強(qiáng)的全模態(tài)大模型之一。新模型擁有極強(qiáng)的音視頻理解與實(shí)時交互能力,能夠?qū)σ粢曨l內(nèi)容生成詳細(xì)且可控的結(jié)構(gòu)化描述,可識別語言和方言數(shù)量多達(dá)113種,還驚喜地涌現(xiàn)出了音視頻Vibe Coding能力,用戶對著鏡頭闡述需求,就能讓模型自主生成APP、網(wǎng)頁、游戲等復(fù)雜產(chǎn)品代碼。目前,阿里云百煉已上新Qwen3.5-Omni的Plus、Flash、Light三種API,可廣泛應(yīng)用于短視頻/直播平臺、游戲、自媒體等行業(yè)。
Qwen3.5-Omni采用混合注意力MoE架構(gòu),在海量文本、視覺以及超過1億小時的音視頻數(shù)據(jù)上進(jìn)行了原生多模態(tài)預(yù)訓(xùn)練,可實(shí)現(xiàn)圖片、視頻、語音、文字等全模態(tài)內(nèi)容的輸入與輸出。新模型在音視頻理解、跨模態(tài)推理、Agent方面實(shí)現(xiàn)了性能飛躍,在音視頻理解、語音識別、多語種翻譯、對話等215項(xiàng)第三方性能測試任務(wù)中取得SOTA。比如,在聚焦視聽交互能力的DailyOmni、QualcommInteractive、Omni Cloze等測試中,Qwen3.5-Omni得分大幅領(lǐng)先Gemini-3.1 Pro;在檢測嘈雜環(huán)境抗干擾能力的WenetSpeech測試中,Qwen3.5-Omni錯誤率遠(yuǎn)低于Gemini,識別準(zhǔn)確率極高;在考察多語言語音生成質(zhì)量的Multi-Lingual (30lang) 測試中,Qwen3.5-Omni同樣顯著優(yōu)于Gemini-2.5-Pro-TTS。
Qwen3.5-Omni跑分圖
Qwen3.5-Omni擁有極強(qiáng)的語言能力,支持113種語言及方言的語音識別和36種語言及方言的語音生成,就連使用人數(shù)不足一百萬的毛利語和國內(nèi)的海南方言,也能精準(zhǔn)識別。新模型還大幅增強(qiáng)了實(shí)時交互體驗(yàn),能高情商聽懂用戶對話意圖,準(zhǔn)確區(qū)分有效回應(yīng)和隨口附和,就像和真人聊天一樣。同時,模型還可以根據(jù)指令自由調(diào)節(jié)語音、語調(diào),并基于創(chuàng)新的ARIA技術(shù),使生成的語音更自然、更穩(wěn)定。 在面對類似“今天的天氣怎樣”的實(shí)時提問時,模型還能自主判斷并調(diào)用工具,確?;貜?fù)內(nèi)容準(zhǔn)確且時效性強(qiáng)。
基于一系列技術(shù)創(chuàng)新,Qwen3.5-Omni將Vibe Coding推入下一階段。與純文本或圖片驅(qū)動的Vibe Coding不同,千問可以實(shí)現(xiàn)音視頻編程:打開攝像頭,用戶對著草圖口述需求,哪怕是包括復(fù)雜產(chǎn)品邏輯的描述,模型也能直接生成帶有復(fù)雜UI的產(chǎn)品原型界面,真正實(shí)現(xiàn)“動動嘴即可編程”。這一能力并非刻意設(shè)計(jì),而是模型在原生多模態(tài)能力持續(xù)擴(kuò)展過程中自然涌現(xiàn)出的結(jié)果。
Qwen3.5-Omni頂尖的全模態(tài)能力,還能為專業(yè)領(lǐng)域帶來超級生產(chǎn)力。新模型可對畫面主體、人物關(guān)系、對話邏輯、乃至人物情緒起伏進(jìn)行極細(xì)的拆解,并自動完成視頻章節(jié)切片與時間戳標(biāo)注,支持超過10小時的音頻輸入,將繁瑣的視頻后期梳理工作縮短至秒級,大幅降低了企業(yè)的內(nèi)容管理成本,在視頻創(chuàng)作、內(nèi)容審核等領(lǐng)域具有極高的落地價值。
目前,普通用戶也可前往Qwen Chat免費(fèi)體驗(yàn),開發(fā)者和企業(yè)可通過阿里云百煉平臺調(diào)用Qwen3.5-Omni模型,每百萬Tokens輸入不到0.8元,比Gemini-3.1 Pro的1/10還低。據(jù)了解,千問穩(wěn)居中國企業(yè)級大模型調(diào)用市場第一,服務(wù)涵蓋互聯(lián)網(wǎng)、金融、消費(fèi)電子及汽車等重點(diǎn)行業(yè)超100萬家客戶。
揚(yáng)子晚報(bào)/紫牛新聞記者 徐曉風(fēng)
Qwen3.5-Omni跑分圖