據(jù)站長之家 1 月 7 日報道,與圖片生成相比,視頻生成仍存在巨大挑戰(zhàn)。首先,視頻生成需要處理更高維度的數(shù)據(jù),考慮額外時間維度帶來的時序建模問題,因此需要更多的視頻 - 文本對數(shù)據(jù)來驅(qū)動時序動態(tài)的學習。然而,對視頻進行準確的時序標注非常昂貴。這限制了視頻 - 文本數(shù)據(jù)集的規(guī)模,如現(xiàn)有 WebVid10M 視頻數(shù)據(jù)集包含10.7M 視頻 - 文本對,與 LAION-5B 圖片數(shù)據(jù)集在數(shù)據(jù)規(guī)模上相差甚遠,嚴重制約了視頻生成模型規(guī)?;臄U展。為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯(lián)合研究團隊于近期發(fā)布了TF-T2V視頻方案。該方案另辟蹊徑,提出了基于大規(guī)模無文本標注視頻數(shù)據(jù)進行視頻生成,能夠?qū)W習豐富的運動動態(tài)。 本文鏈接:https://www.aixinzhijie.com/article/6843018 轉(zhuǎn)載請注明文章出處
版權聲明:本站所有文章皆是來自互聯(lián)網(wǎng),如內(nèi)容侵權可以聯(lián)系我們刪除!