每日經(jīng)濟(jì)新聞 2024-04-28 17:58:03
每經(jīng)編輯 黃勝
2月16日,OpenAI推出新的AI大模型Sora,該文生視頻大模型可通過快速文本提示創(chuàng)建“逼真”和“富有想象力”的60秒視頻。
一個月之后,第一波試用者對使用情況進(jìn)行了反饋。
4月份,OpenAI官方賬號發(fā)布的一支由Sora制作的MV(Music Video)——《Worldweight》,引發(fā)了不少網(wǎng)友們的圍觀。
目前,Sora已經(jīng)成為視頻大模型的標(biāo)桿。有人說,在視頻生成領(lǐng)域,只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型。
然而,Sora何時才能開放給公眾使用,OpenAI方面始終沒有給出具體的時間表。
內(nèi)測中的Sora表現(xiàn)優(yōu)異,但OpenAI卻遲遲沒有正式對外開放Sora,這背后可能會有成本原因的考慮。知名科技作家Robert Scoble在社交平臺X上就表示,普通用戶僅僅每月支付20美元并不能涵蓋生成人工智能視頻的成本。
近日,NoPriors播客發(fā)布了對Sora項(xiàng)目團(tuán)隊(duì)三位負(fù)責(zé)人Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh的專訪。
Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內(nèi)基梅隆大學(xué),主修邏輯與計(jì)算,輔修計(jì)算機(jī)科學(xué)。去年1月,他順利從加州大學(xué)伯克利分校獲得博士學(xué)位后,立即加入OpenAI,參與了DALL-E 3和Sora的開發(fā)工作。
Bill本科就讀于麻省理工學(xué)院,主修計(jì)算機(jī)科學(xué)。在校期間,他參與了GAN和text2video的研究,還在英偉達(dá)實(shí)習(xí),專注于深度學(xué)習(xí)、自動駕駛和計(jì)算機(jī)視覺。去年5月,Bill從伯克利畢業(yè)后也加入了OpenAI。
Aditya Ramesh在OpenAI已經(jīng)是個"老人"。作為DALL-E的創(chuàng)造者,他主導(dǎo)了三代DALL-E的研究工作。
在訪談中,這三位Sora負(fù)責(zé)人對外界關(guān)心的有關(guān)Sora的諸多方面問題給出了回答。
核心內(nèi)容:
1,我們目前還沒有制定產(chǎn)品的即時計(jì)劃,甚至沒有制定產(chǎn)品的時間表。
2,現(xiàn)階段的Sora,就像是新視覺模型的GPT-1。
3,(關(guān)于偽造和安全)我認(rèn)為這里要弄清楚的一個關(guān)鍵問題是,部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任?例如,社交媒體公司應(yīng)該做多少工作來告知用戶他們看到的內(nèi)容可能不是來自可信來源?用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時要承擔(dān)多少責(zé)任?
4,這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。
5,在讓這項(xiàng)技術(shù)更廣泛地普及方面,有很多服務(wù)方面的考慮需要考慮。一個大問題是如何讓這項(xiàng)技術(shù)足夠便宜,讓人們可以使用。
6,我們思考事物的方式是有一個缺陷,就是沒有那么高的保真度。因此,我們對Sora的前景持樂觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。
以下為訪談節(jié)選:
主持人:很好?;蛟S我們可以從 OpenAI 的使命開始談起,那就是實(shí)現(xiàn) AGI,也就是更強(qiáng)大的人工智能。那么,文本轉(zhuǎn)視頻的技術(shù)是否符合這個使命呢?你們是如何開始研究這個領(lǐng)域的呢?
Bill:是的,我們堅(jiān)信像 Sora 這樣的模型確實(shí)是實(shí)現(xiàn) AGI 的關(guān)鍵步驟。
展望未來,為了生成真正逼真的視頻,你必須學(xué)習(xí)一些關(guān)于人們?nèi)绾喂ぷ?、如何與他人互動、最終如何思考的模型。這不僅包括人,還有動物,以及任何你想要模擬的物體。因此,展望未來,隨著我們繼續(xù)擴(kuò)大像Sora 這樣的模型,我們將能夠構(gòu)建這些類似世界模擬器的東西。隨著我們未來擴(kuò)大Sora的規(guī)模,AGI就會實(shí)現(xiàn)。
主持人:在更廣泛地使用 Sora 之前,您需要做什么工作?Tim,你愿意談?wù)勥@個問題嗎?
Tim:是的,我們目前還沒有制定產(chǎn)品的即時計(jì)劃,甚至沒有制定產(chǎn)品的時間表。然而,我們將Sora的訪問權(quán)限提供給一小部分藝術(shù)家以及紅隊(duì)成員,以開始了解Sora將產(chǎn)生的影響。我們從藝術(shù)家那里得到了反饋,關(guān)于如何讓它成為對他們最有用的工具,并從“紅隊(duì)成員”那里得到了反饋,關(guān)于如何讓它安全,如何將它介紹給公眾。
主持人:我知道,當(dāng)它推出時,很多人都被一些圖像所震撼。你會看到一只貓?jiān)谒刂械挠白踊蛑T如此類的東西。但我只是好奇,隨著越來越多的人開始使用它,你看到了什么。
Tim:是的,看到藝術(shù)家們用這個模型生成的成果,真的很棒。
作為一個喜歡創(chuàng)造內(nèi)容但又沒有足夠技能的人,使用這個模型并激發(fā)出一堆想法,并得到一些非常引人注目的東西是非常容易的。比如,在迭代提示方面,實(shí)際生成它所花費(fèi)的時間真的不到一個小時。我非常高興地看到藝術(shù)家們也熱衷于使用這些模型,并從中創(chuàng)作出精彩的作品。
主持人:這些模型在短片或其他領(lǐng)域的廣泛應(yīng)用的時間表是什么?我們何時會開始看到來自Sora或其他模型的實(shí)際內(nèi)容,并成為更廣泛媒體類型的一部分?
Tim:我沒有確切的時間表預(yù)測,但我對此非常感興趣,那就是除了傳統(tǒng)電影之外,人們可能會將其用于什么。我認(rèn)為,在接下來的幾年里,我們會看到人們開始制作越來越多的電影,但我認(rèn)為人們也會找到使用這些模型的全新方式,這些方式與我們習(xí)慣的當(dāng)前媒體完全不同。
主持人:Aditya在OpenAI工作了大約五年,因此你見證了許多模型和公司的發(fā)展。當(dāng)你考慮這個世界模擬模型的功能時,你認(rèn)為它會成為模擬的物理引擎嗎?我對未來可能出現(xiàn)的其他一些前瞻性應(yīng)用非常好奇。
Aditya:是的,我完全認(rèn)為在視頻模型中進(jìn)行模擬是我們將來能夠做到的事情。
Bill:你可以從視頻中學(xué)到很多東西。OpenAI等公司過去在這方面投入了大量資金,比如語言,比如手臂和關(guān)節(jié)如何在空間中移動的細(xì)節(jié),它們是如何以物理上準(zhǔn)確的方式與地面接觸的。所以,你只需通過對原始視頻的訓(xùn)練就能學(xué)到很多關(guān)于物理世界的知識,我們真的相信,這對于未來的物理體現(xiàn)等事情至關(guān)重要。
主持人:再談?wù)勀P捅旧?。Tim,你能描述一下什么是擴(kuò)散Transformer嗎?
Tim:擴(kuò)散是一種數(shù)據(jù)生成過程。這個過程從噪音開始,通過反復(fù)多次去除噪音,直到最終去除了足夠多的噪音,只生成一個樣本。這就是我們生成視頻的過程。
從架構(gòu)角度來看,我們的模型必須是可擴(kuò)展的,它們需要能夠從大量數(shù)據(jù)中學(xué)習(xí),并理解視頻中那些非常復(fù)雜且具有挑戰(zhàn)性的關(guān)系,這一點(diǎn)至關(guān)重要。因此,我們采用了一種類似于GPT模型的架構(gòu),稱為Transformer。因此,將這兩個概念與Transformer架構(gòu)結(jié)合起來的擴(kuò)散Transformer使我們能夠擴(kuò)展這些模型。隨著我們投入更多的計(jì)算和更多的數(shù)據(jù)來訓(xùn)練它們,它們的性能會越來越好。
主持人:Sora最引人注目的一點(diǎn)就是它的視覺美感。我對此感到好奇,你是如何調(diào)整或制作這種美感的?
Bill:實(shí)際上,我們并沒有為Sora投入大量精力。我認(rèn)為Sora的語言理解絕對允許用戶以一種比其他模型更難的方式來操縱它。你可以提供很多提示和視覺提示,這些提示將引導(dǎo)模型朝著你想要的代數(shù)類型發(fā)展。
我認(rèn)為展望未來,模型會賦予人們某種力量,讓他們理解你的個人審美感,這將是很多人期待的事情。
我們接觸的許多藝術(shù)家和創(chuàng)作者都希望將他們的全部資產(chǎn)上傳到模型中,這樣在寫標(biāo)題時就可以借鑒大量的作品,并讓模型理解他們設(shè)計(jì)公司幾十年來積累的術(shù)語等等。因此我認(rèn)為個性化以及它如何與美學(xué)結(jié)合在一起將會成為以后值得探索的一件很酷的事情。
主持人:我認(rèn)為Tim所說的就像超越傳統(tǒng)娛樂的新應(yīng)用。但這在計(jì)算上很昂貴,很難,而且不太可能。但我會講述一個故事,并讓神奇的視覺效果實(shí)時發(fā)生。我們會得到它嗎?
Tim:我認(rèn)為我們正朝著那個方向前進(jìn)。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分,但我認(rèn)為一旦真正理解了我們的世界,就會有很多潛在的應(yīng)用。我們的世界和我們體驗(yàn)世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在于,它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術(shù)來娛樂自己,也可以用它們來教育我們。有時候,當(dāng)我想學(xué)習(xí)一些東西時,最有效的方法就是找一個定制的教育視頻來解釋。同樣,如果我想和某人交流一些觀點(diǎn),可能最好的方式就是制作一個視頻來闡述我的觀點(diǎn)。因此,我認(rèn)為娛樂和視頻模型可能有更廣泛的潛在應(yīng)用。
主持人:你們有嘗試過將這些技術(shù)應(yīng)用于數(shù)字化身份等方面嗎?
Tim:到目前為止,我們并沒有真正專注于其背后的核心技術(shù)。我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺模型的GPT-1。所以,我們現(xiàn)在的重點(diǎn)只是這項(xiàng)技術(shù)的基礎(chǔ)發(fā)展,可能比特定的下游應(yīng)用更重要。
主持人:你們是如何看待視頻模型中的安全性以及進(jìn)行深度偽造或惡搞之類的事情?
Aditya:這絕對是一個相當(dāng)復(fù)雜的話題。我認(rèn)為很多安全緩解措施可能都可以從DALL-E 3中移植過來。
我認(rèn)為這里要弄清楚的一個關(guān)鍵問題是,部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任?例如,社交媒體公司應(yīng)該做多少工作來告知用戶他們看到的內(nèi)容可能不是來自可信來源?用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時要承擔(dān)多少責(zé)任?
主持人:我想向在座的各位提出一個問題,關(guān)于未來的產(chǎn)品路線圖、你的發(fā)展方向或你接下來要開發(fā)的一些功能,你最興奮的是什么?
Tim:確實(shí),這是一個好問題。我對人們將如何利用我們的產(chǎn)品創(chuàng)造出新的東西感到非常興奮。我認(rèn)為有很多才華橫溢、富有創(chuàng)造力的人都有自己想要創(chuàng)造的東西。但有時要做到這一點(diǎn)真的很困難,因?yàn)樗麄兛赡苋狈Ρ匾馁Y源、工具或其他東西。這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西,以及這項(xiàng)技術(shù)將如何幫助他們。
主持人:Bill,我想問你一個問題,這是否像你剛才提到的GPT-1一樣,我們還有很長的路要走。這不是普通大眾有機(jī)會嘗試的東西。你能描述一下你想要解決的局限性或差距嗎?
Bill:是的,我認(rèn)為,在讓這項(xiàng)技術(shù)更廣泛地普及方面,有很多服務(wù)方面的考慮需要考慮。一個大問題是如何讓這項(xiàng)技術(shù)足夠便宜,讓人們可以使用。
為了讓這項(xiàng)技術(shù)真正變得更加廣泛地普及,我們需要確保安全性,特別是在選舉年。我們對可能出現(xiàn)的錯誤信息和任何相關(guān)風(fēng)險(xiǎn)非常謹(jǐn)慎。我們今天正在積極努力解決這些問題。
主持人:你能談?wù)勀阍赟ora項(xiàng)目上的工作是如何影響更廣泛的研究路線圖的嗎?
Tim:我認(rèn)為,Sora的一個重要方面,是通過查看所有這些視覺數(shù)據(jù)來了解世界的知識。我們只是用視頻數(shù)據(jù)對它進(jìn)行了訓(xùn)練,它學(xué)會了3D,因?yàn)檫@些視頻中存在3D。它還學(xué)會了當(dāng)你咬一口漢堡包時,會留下咬痕。所以它學(xué)到了很多關(guān)于我們這個世界的東西。當(dāng)我們與世界互動時,很多都是視覺的。我們一生中看到和學(xué)到的東西很多都是視覺信息。所以我們真的認(rèn)為,對于智能,對于引導(dǎo)更智能的人工智能模型,更好地理解世界,這對它們來說非常重要,因?yàn)樗鼈冃枰羞@樣的基礎(chǔ)。有很多關(guān)于人們?nèi)绾位?、事情如何發(fā)生、過去的事件如何影響未來的事件的內(nèi)容,會催生比生成視頻更廣泛、更智能的人工智能模型。
主持人:這幾乎就像你同時發(fā)明了未來的視覺皮層和大腦推理部分的某些部分。
Tim:是的,這是一個很酷的比較,因?yàn)槿祟悡碛械暮芏嘀悄軐?shí)際上都與世界建模有關(guān)。當(dāng)我們思考如何做事時,我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。所以我們有一個世界模型,將Sora構(gòu)建為世界模型與人類擁有的大部分智能非常相似。
我認(rèn)為我們思考事物的方式是,幾乎就像人類的一個缺陷,就是它沒有那么高的保真度。
因此,當(dāng)你涉及到一組非常狹窄的物理學(xué)時,我們實(shí)際上無法做出非常準(zhǔn)確的長期預(yù)測,這是我們可以通過其中一些系統(tǒng)進(jìn)行改進(jìn)的。
因此,我們對Sora的前景持樂觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。
隨著規(guī)模的擴(kuò)大,真正有效的方法仍然只是預(yù)測數(shù)據(jù)。
主持人:你認(rèn)為公眾對視頻模型或Sora有什么誤解嗎?或者你想讓他們知道什么?
Aditya:在內(nèi)部,我們一直在將Sora與GPT模型進(jìn)行比較。當(dāng)GPT-1和GPT-2問世時,人們開始越來越清楚地認(rèn)識到,只需擴(kuò)大這些模型的規(guī)模就能賦予它們驚人的能力。對我們來說,很明顯,將同樣的方法應(yīng)用于視頻模型也會帶來非常驚人的能力。
我們確實(shí)覺得這是GPT-1的時刻,這些模型很快就會變得更好。我們真的很興奮,我們認(rèn)為這將給創(chuàng)意世界帶來令人難以置信的好處,這對AGI的長期影響是什么。
與此同時,我們正在努力非常注意安全考慮,并構(gòu)建一個強(qiáng)大的堆棧,以確保社會真正從中獲益,同時減輕負(fù)面影響。
每日經(jīng)濟(jì)新聞綜合公開資料
封面圖片來源:每日經(jīng)濟(jì)新聞 資料圖
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP