盧松松的個人空間 http://sysyfmy.com/?756899 [收藏] [復(fù)制] [RSS]

日志

一段音頻驅(qū)動照片唱歌,，EMO模型上線通義APP

已有 74694 次閱讀2024-4-25 20:20 |系統(tǒng)分類:營銷實戰(zhàn)

把一段音頻,、一張照片輸入AI模型，就能讓圖中人物開口唱歌說話，讓奧黛麗赫本唱《上春山》,、陶俑仕女說英文RAP、愛因斯坦說中文段子,。不久前,，這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內(nèi)外，模型的產(chǎn)品化進程也廣受關(guān)注,。4月25日,，EMO終于上線通義APP，開放給所有用戶免費使用,。

打開通義APP,，進入“全民舞臺”頻道，就可來到EMO產(chǎn)品頁面“全民唱演”,。在歌曲,、熱梗、表情包中任選一款模板,，上傳肖像照片,，EMO隨即就能合成視頻。

通義APP首批上線了80多個EMO模板,，包括熱門歌曲《上春山》《野狼disco》等,，網(wǎng)絡(luò)熱梗“缽缽雞”“回手掏”等,。目前通義APP暫不開放用戶自定義音頻,，用戶只能選擇APP預(yù)置的音頻來生成視頻。

EMO是通義實驗室研發(fā)的AI模型,，其背后的肖像說話（Talking Head）技術(shù)是當(dāng)前大熱的AIGC領(lǐng)域,。EMO之前的Talking Head技術(shù)都需針對人臉、人頭或者身體部分做3D建模,，通義實驗室在業(yè)界率先提出了弱控制設(shè)計,，無需建模就可驅(qū)動肖像開口說話，不僅降低視頻生成成本,，還大幅提升了視頻生成質(zhì)量,。EMO學(xué)習(xí)并編碼了人類表達情緒的能力，能將音頻內(nèi)容和人物的表情,、嘴型匹配,，還能把音頻的語氣特征和情緒色彩反映到人物微表情上。

2月底,，通義實驗室公布相關(guān)論文,，EMO隨之成為繼SORA之后最受關(guān)注的AI模型之一�,，F(xiàn)在，通義APP讓所有人都可免費體驗前沿模型的創(chuàng)造力,。未來,，EMO技術(shù)有望應(yīng)用于數(shù)字人、數(shù)字教育,、影視制作,、虛擬陪伴、電商直播等場景,。

通義APP近期爆款頻出,，現(xiàn)象級應(yīng)用“全民舞王”曾在社交平臺掀起“兵馬俑跳科目三”“金毛跳舞”的熱潮，全民舞王背后的模型Animate Anyone也出自通義實驗室,。近期,，通義APP還陸續(xù)推出了超長文檔解析、AI編碼助手,、AI會議助手等免費實用功能,。通義大模型正在成為越來越多用戶的超級AI助手。