Vidu是北京生數(shù)科技有限公司聯(lián)合清華大學(xué)發(fā)布的中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型,于2024年4月27日在中關(guān)村論壇未來(lái)人工智能先鋒論壇上發(fā)布,模型采用團(tuán)隊(duì)原創(chuàng)的全球首個(gè)Diffusion與Transformer融合的架構(gòu)U-ViT。
2024年7月,Vidu面向全球上線,核心功能包括參考生視頻、圖生視頻、圖生視頻。可生成4秒和8秒視頻,分辨率最高達(dá)1080P。上線百天用戶數(shù)即破千萬(wàn),2025年1月15日為止,是全球增速最快的AI視頻模型。
Vidu自上線以來(lái)就致力于解決“一致性”核心難題,Vidu1.5發(fā)布“多圖參考”功能,是全球首個(gè)發(fā)布“多主體一致性”的視頻模型。
Vidu的快速突破源自于團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長(zhǎng)期積累和多項(xiàng)原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion與Transformer融合的架構(gòu)。2023年3月,團(tuán)隊(duì)開源了全球首個(gè)基于U-ViT融合架構(gòu)的多模態(tài)擴(kuò)散模型UniDiffuser,率先完成了U-ViT架構(gòu)的大規(guī)模可擴(kuò)展性驗(yàn)證。
2024年4月27日,在中關(guān)村論壇未來(lái)人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對(duì)標(biāo)國(guó)際頂尖水平,并在加速迭代提升中。
2024年6月6日,Vidu模型能力迭代更新,支持一鍵生成達(dá)32秒的視頻、支持音視頻生成、支持Vidu4D生成。
2024年7月30日,生數(shù)科技自研視頻大模型Vidu上線。
2024年9月11日,Vidu全球首發(fā)“主體參照”功能,一張照片實(shí)現(xiàn)主體可控。
2024年9月25日,Vidu正式開放API。
2024年11月13日,Vidu1.5上線,全球首發(fā)“多主體一致性”能力,標(biāo)志著視覺模型進(jìn)入全新的“上下文”時(shí)代。
2025年1月15日,Vidu2.0上線,推動(dòng)視頻生成走向人人可用的奇點(diǎn)時(shí)刻。3月17日晚間,生數(shù)科技宣布,旗下視頻大模型產(chǎn)品Vidu正式與美國(guó)知名動(dòng)漫制作工作室Aura Productions達(dá)成戰(zhàn)略合作。
參考生視頻:全球首個(gè)參考生視頻功能,讓創(chuàng)作的角色、物體、場(chǎng)景等始終保持一致
圖生視頻:基于任意圖片描述您想象的畫面,即刻動(dòng)態(tài)呈現(xiàn),讓您的創(chuàng)意栩栩如生
文生視頻:用文字描述您想象的畫面,自由表達(dá)創(chuàng)意,即刻創(chuàng)作視頻
Vidu開放了參考生視頻、文生視頻、圖生視頻三大核心功能,提供4s和8s兩種時(shí)長(zhǎng)選擇,分辨率最高達(dá)1080P。
Vidu在生成速度、一致性、動(dòng)態(tài)性等方面具備領(lǐng)先優(yōu)勢(shì),生成一段4秒視頻僅需10秒。
參考生視頻
通過(guò)上傳1-3張參考圖,Vidu 1.5可實(shí)現(xiàn)對(duì)單主體100%的精確控制,同時(shí)實(shí)現(xiàn)多主體交互控制、主體與場(chǎng)景融合控制,能夠無(wú)縫集成人物、道具和場(chǎng)景等元素。
動(dòng)畫風(fēng)格
Vidu可以生成效果優(yōu)異的動(dòng)畫視頻
錯(cuò)峰模式
Vidu支持閑時(shí)免費(fèi)生成視頻。