您现在的位置:首页 封面 > 正文

Sora和人类,谁才是那个工具人?

日期:2024-02-28 【 来源 : 新民周刊 】 阅读数:0
阅读提示:面对Sora带来的疾风暴雨,人文艺术家应该自信一点,从战术上敬畏它,从战略上藐视它。从GPT到Sora,基本上还只是模拟了大脑神经网络的很小一部分,我们要像田忌赛马一样,别去和AI硬拼算力——下等马先输一程没关系,还有中等马和上等马黄雀在后。虽然武无第二,但文也无第一啊。
记者|阙 政


  大年初七,中国观众正看贺岁档电影呢,OpenAI第三发重磅炸弹来袭——继ChatGPT、DALL·E之后,Sora,一个只要输入简单提示词就能生成1分钟高精度视频的AI模型,惊撼世人。

  短短一年多,眼看着文生文、文生图、文生视频……作家、画家、电影家,都恍惚听到了饭碗落地的脆响。可是等一下,我们多年来渴望的AI,不该是科幻片里常见的全职服务员吗?

  人类理想状态的AI,应该像《机器人瓦力》里的WALL·E一样会自动铲垃圾,像《机械姬》里的万能女管家一样包揽家务,像《上锁的房间》里的机器人一样会照顾病人,像《银翼杀手》里的复制人一样去外星开荒做苦力,像《机械战警》里的ED-209一样维护治安,像《西部世界》里有血有肉的牛仔一样端茶倒水提供娱乐服务,至少也得像《她》里的超级女声萨曼莎,能通过电波聊天解闷安抚人心……

  结果倒好,铲垃圾的WALL·E没研发出来,GPT、DALL·E、Sora倒是前后脚杀到。合着只有人类是刚刚好进化到了必须工作必须做家务的阶段,而AI却能直接跳过柴米油盐,开启写作画画拍电影的文艺生涯是吗?

上图:由AI生成的示意图片。


哪些活能派给Sora干?


  AIGC(人工智能生产内容)时代就这么招呼都不打一声地降临了。Sora如一滴清水落入油锅,影视圈炸了,一则以喜,一则以惧。

  喜的人,最近张口闭口都把四个字挂在嘴边:“降本增效”。从前的AI不太理解现实世界的物理规律,从前的AI生成的视频像gif动图,长度也只有几秒钟,而Sora和他们有质的不同,就像计算器遇到了计算机。

  影视人已经开始盘算可以给Sora派哪些活干:最近美国《综艺》杂志上刊载了一张调查图——在影视和游戏行业从业者眼中,AI最擅长的活包括:为影视或游戏创建逼真音效、自动完成代码以协助游戏编程、为影视和游戏开发3D虚拟世界、为影视和游戏制作故事板、为影视作外语配音、编写游戏对话、为影视创建逼真的合成演员、写影视剧本……

  从前拍电影的总羡慕作家只用一支笔就能写出千军万马,不像拍戏,要预算要摇人组局要置景要拍还要剪——现在Sora向世人展示了“傻瓜级”视频制作,仅仅输入几个关键词,就能产出精美画面。未来,我们普通人做一个白日梦,也可以交付给AI,生成刘慈欣+郭帆范儿的科幻大片,“你行你上”的戏谑庶几要成真。

  其实早在Sora横空出世之前,AI在影视制作中的应用已不是新鲜事——简单粗暴的有“换头”,最近《繁花》热播,有网友做二创,用全香港演员班底换头制作了港版《繁花》:梁朝伟演阿宝,伍咏薇演李李,江美仪演玲子……看起来倒也别有一番味道。

  国产科幻电影的巅峰之作《流浪地球2》里,大到“太空电梯”,小到给演员减龄,背后都有AI加持。电影里所采用的“虚拟摄影”技术也已经不是大片专利——横店影视城里有虚拟摄影棚,很多网剧都用上了这个成熟的技术。相比古早一无所有的“绿幕”背景,虚拟摄影能将现实场景投射到LED大屏上,让演员从“无实物表演”变得更有临场感。

  放大来说,影视剧全产业链都已有AI的影子——前期策划评估、剧本创作、故事板、分镜图,到拍摄、特效、后期、修改,AI能降本增效的地方很多,区别只是,有些地方做得好,有些地方还在“一本正经地胡说八道”,需要人力监督。

  贺岁片《热辣滚烫》最后的花絮里,导演贾玲晒出自己学画画的成果,因为她给《你好,李焕英》画的分镜头过于幼稚,此番除了减肥还潜心学画,结论是:画画比减肥100斤还难。不过将来贾玲导演应该不需要费劲学画了,因为在文生图、制作电影故事板和分镜头这块领域,AI已被证实能力超群。甚至好莱坞有电影商拿了真人绘制和AI绘制的故事板去问投资方意见,资方表示更认可AI作品。

  编剧王策也曾使用GPT、文心一言、讯飞星火等AI模型来尝试剧本创作和评估,“输入4000字以内的剧本大纲,AI一般会给出一套特别工整的条目式评价,一二三四五,从故事内容、市场前景、观众体验方面给出意见。”不过在这方面,AI就不如绘图那么靠谱,“80%都是废话,人工去梳理调整所花的时间精力,跟我自己做也差不多。写剧本就更不行了,人写剧本用的是情感逻辑,AI是依靠数据算力。”但他也认为,给AI一点时间,未来能做的事会越来越多。


Sora会是影视圈的核武器吗?


  ChatGPT问世的时候,被形容为新时代的“火和电”。那么Sora会不会是新时代的“蒸汽机”?在改变时代的同时,也会将很多人甩下时代的列车?

  前不久好莱坞演员工会大罢工的诉求之一,就是要求限制人工智能代替演员。而科技流恐怖片《黑镜》早在去年就预见到了“数字明星”可能带来的可怕后果:女明星售出自己的肖像权给电影公司开发成AI主角,遭到反噬。

  刚刚落幕的柏林电影节上,Sora同样成为国际电影人争论的焦点。关键词和中国影人如出一辙:兴奋又焦虑。据《好莱坞报道》,影人们反复提到AI可能对工作造成的威胁。有人已经给OpenAI的CEO 山姆·奥特曼(Sam Altman)喊话:“请不要把我变成一个无家可归的人。”未来3年内,好莱坞总计会有超过20万人的工作岗位会因为AI受到冲击。

  当我们看到Sora目前生成的几十段1分钟样片:几千个纸飞机如同群鸟飞过丛林,红色小熊猫在培养皿的竹林里跃动,帆船在咖啡杯里经受暴风考验……就知道它对传统电影CG的冲击有多大。那些曾经需要高昂成本才能制作1秒的特效画面,现在直接就能生成1分钟。

  看到Sora样片的第一眼,智元动力(北京)科技有限公司CEO王博的反应是:不可能吧?可再仔细一看OpenAI公布的与Sora相关的技术论文,看到几十个案例摆在面前,他的心情又变了:“有点被吓到,这真是颠覆行业的东西。”

  以往说电影是“每秒24帧的真理”(戈达尔),是图像与图像连续播放的逻辑,但现在逻辑变了。

  以往做3D需要三维建模,需要根据镜头要求制作关键帧,需要考虑连续性合理性和表演性,根据不同项目设置参数。但Sora有一套自己的生成逻辑,和GPT相似,是“预测下一帧”最可能出现什么样的画面。

  由于目前Sora仅仅开放给极少数人群内测,王博对它还存有一个疑问:从文字提示词(prompt)到生成一段1分钟的视频,要花多长时间?他询问了一位海外获得内测资格的朋友,对方直接把测试结果发给他看:那是一幕真实性极高的草原画面,连太阳光晕的变化都非常逼真。而对方在提示词中强调的“使用手持摄像,肖像视图,带一点镜头光晕”,可以说匹配度也很高。

  而他最想知道的“耗时多久”这个问题,朋友的回答是:实时。

  “这听起来更恐怖了。”王博说。

  在“互相伤害”的调侃里,原画师们感叹,这下子要失业的终于不只是原画师了。灯光、摄影、后期、特效,乃至明星,可能被团灭。

  在最悲观的想象里,AI已经不再是双刃剑,而像是核武器,链式反应犹如灭霸的响指,搞不好噼啪一声,整个影视行业都没了——观众想看什么内容,自己生成就行——原著AI写,编剧AI来,电影AI拍。字生文,文生图,文生视频,再配上一副虚拟现实的眼镜,无景弗现,无远弗至。


Sora的友军泄了AI的老底


  但是千百年的文明进程告诉我们,人类是靠乐观活下来的,所以,先别急着跪下喊爸爸,更别急着交网课学费——现在卖课割韭菜的人,99.9999%对Sora都是只闻其声,连个内测资格都没有就出来骗人。

  Sora到底有没有超能力?判断这个问题,我们可以先从前Sora时代的AI入手。

  最近,麻省理工大学主办了一个“AI for filmmaking”电影制作比赛,主题是“Space I call home”(我称之为家的那片宇宙)。这场比赛面向全世界开放,要求是“主要由AI完成”以及“视频时长在2分钟以上”,有不少中国人参赛,其中萧飞和王超导演的一段4分钟视频入围了技术奖。

  在这段名为“什么地方你叫做家?”的短视频中,主创们从小女孩、红汽车、黑猫、一颗种子4个不同的视角传达对‘家’的理解,最终落脚在一句中国古代哲言:心安处,即是吾乡。

上图:王超制作的短片,图片都由AI生成。


  王超是“百夫长影像工作室”的创始人,在视频制作领域创业已有十几年,近年开始关注到AI。他向记者讲述了AI生成视频的全过程:“萧飞先以比赛主题创作了几段诗意的文字,之后的事情大部分由AI完成——GPT 3.5将文字变成旁白、将旁白翻译成英文,Midjourney 6.0把语言转化为88张分镜图,Magnific增强图像效果,PixVerse和Runway把图片转化为时长4分27秒(亦即6408帧)的视频,最后由Elevenlabs为英文旁白配音,加上开源版权的配乐,完成整个视频的制作。”

  在王超给GPT的指令中,他希望AI能将最后一句旁白翻译成莎士比亚式的诗意古英语;在给Midjourney的指令中,他希望AI可以在片头做出“末世废土风”,带一点手绘的感觉,而中间的叙事段落则要以普通人的视角切入,影像风格偏真实,“用33毫米电影镜头,采用Imax摄像机拍摄”;而到了图生视频阶段,又希望PixVerse为猫咪加上伸懒腰、眯眼睛的动态——结果AI都成功办到了。

  不过,这并不代表过程中就不需要人工参与;相反,与人们想象中的“一键生成”相比,人力花费的时间长达8天。

  “每个环节AI都会暴露一些问题。”王超解释说,“最大的问题是AI每一次的回应都带有随机性,我们戏称为‘开盲盒’:即使你每次都输入同样的提示词,它出来的结果依然会是不同的。”

  比如他想生成一张黑猫的图片,第一次出来是绿眼睛,第二次出来是蓝眼睛;第一次瘦些,第二次胖些;女孩子身上穿的“白底碎花裙”,每次也都有细微差别。为了生成最终能用的88张分镜图,王超一共试了600多次才成功。“我们行话叫‘roll图’,就是图片生成出来,人工要手动挑选,挑选出来的图,很多细节如果不符合现实世界的物理规则,也要手动用笔刷修改:小猫的爪子怎么动,叶片如何随风摇摆,都要去设定参数。很多时间就花在这里。所以用AI做视频,虽然硬件成本是降低了,但体力成本是一点没减少。”

  前Sora时代的AI并不高效,那么Sora能绕开这些原始问题吗?在王超看来,部分可以:“我们从样片中可以看到,Sora在光线、动力、风感等很多自然界的规律上,能够和现实世界匹配。它生成视频的长度和精度也远超当下技术,而且从单机位变成了多机位,且跳过了图片阶段,这些都是质的飞跃。”

  但Sora的底层逻辑和GPT相似,因此也存在概率和随机性,它不是故意做得每次都不同,而是没法做到每次都相同。“Sora目前能做到的是60秒内的场景一致性和情节连贯性,再长就难说了。如果将来要应用在影视剧,麻烦就大了:你不能今天故事发生在这个场景,明天发生在那个吧?主角的脸,第一集是一个,第二集是另一个,那当然也不行啊。”

  萧飞也认为,AI目前在品质上并不能取代传统,但它让很多囿于时间和经费的点子成为了可能,这也许会爆炸式地提升视频内容的数量和质量:“我们可以把它看作是手机高清摄影取代了传统专业摄影,让不具有专业器材和专业培训的内容创作者有了实现梦想的可能。”

  最近传出某影视从业者说要打造全AI剧,但这种鼓吹“一键生成”的,大部分是骗子。以Sora目前的时长,影响短视频行业或许还有可能,但拍电影电视剧,即使微短剧也够呛。

上图:由AI生成的短片图片,基本上成功完成了王超下达的所有指令。


把它当作工具,而不是做工具人


  OpenAI也并不避谈Sora的缺点,官网上承认:“交互是目前系统最大的短板之一,AI还不能完全把握时间的因果关系和物理世界的法则,例如人咬了一口饼干后,饼干的形状会发生怎样的变化。”

  看过Sora样片的观众应该都注意到了其中的“穿帮”之处:打翻水杯的时候,水从杯壁而不是杯口流出;橘猫向主人伸出第三只手;女子左右脚互换;樱花树无根系地浮在半空……本来这些穿帮并不算什么,也许是随机生成中的一次小失误——但考虑到官方样片一定是精挑细选之后的产物,记者眼前就出现了《致命魔术》里那一堆帽子——在“大变活人”震撼世界的同时,背后可能有海量的失败堆骨成山。这无疑给Sora的可靠性打了一个问号。

  在影视一线从业者重涵看来,“Sora的精度和质感较高,但传统影视需要的要素之一是‘明确’,而Sora暂时是‘模糊’的,它只能做到‘差不多’,做不到‘必须’。影视视听语言是蒙太奇的艺术,而Sora对蒙太奇的理解去到什么程度,仍然未可知。我们在课程中也会尝试用GPT做故事创意,但AI逻辑性强,创意不够,目前暂时还只能起到参考作用”。

  美国对此也有相似看法。《综艺》杂志最近以《为什么OpenAI的Sora还没有准备好取代好莱坞》为题,总结了Sora的三大缺点:连续性、可控性和版权。“首先是连续性:Sora所承诺的改进并不能完全保证主体/客体和环境的连续性,不足以确保电影或电视节目的叙事或外观的连贯性。其次是可控性:到目前为止,这些工具还不能为电影制作者提供足够的创意控制和精确度,以获得和操纵他们的输出结果——这意味着在短期内,人工智能可能会比传统方法有更多困难和受限,而不是更少。更重要的是,如果版权法和生成人工智能的各个方面都没有更加明确,好莱坞制作极不可能将这些输出用于屏幕镜头。”

  即使抛开版权,单从技术角度来说,如果将来Sora能够解决连续性和可控性的问题,它会给影视行业或者说人类带来天翻地覆的变化吗?Wolfram语言的发明者、40多年前就开始研究计算思维发展和应用的行业先驱Stephen Wolfram最近在个人网站上发表了一篇文章《人工智能会夺走我们所有的工作并结束人类历史吗?嗯,这很复杂……》,在文中,他解释了GPT的原理——

  “ChatGPT 的内部结构实际上在计算上可能与大脑非常相似,其中有数百万个简单元素(相当于大脑的神经元)形成一个‘神经网络’。……ChatGPT的基本概念在某种程度上相当简单:首先从互联网、书籍等渠道获取人类创造的海量文本样本,然后训练神经网络,从‘提示’开始,生成‘与之类似’的文本。……拥有数百亿参数的神经网络一次一个标记(token)地生成文本,结果是非同凡响的。鉴于这种戏剧性和意想不到的成功,人们可能会认为,如果能够‘训练一个足够大的网络’,就能够用它来做任何事情。但事实并非如此。关于计算的基本事实,尤其是‘计算不可约’的概念,表明它最终是无法做到的。”

  “计算不可约”(computational irreducibility)这个概念就是Wolfram最早提出的,他认为,“能力和可训练性之间存在着一个终极权衡:你越想让一个系统‘真正利用’其计算能力,它就越会表现出计算不可约性,从而越不容易被训练。”因此他判断,科学实际上“衍生出其自身的局限性”。在许多方面,ChatGPT从未“真正理解”过事物,它只“知道如何产生有用的东西”。

  不得不说,科学家们在“去浪漫化”上有一手:多巴胺是快乐,费洛蒙是爱意,不可约性则从某种程度上象征了人类难以被取代的思维。而Sora与GPT的底层逻辑相通,因此有理由怀疑它会遇到同样的“计算不可约”问题。

  哪怕只是全面替代电影人的工作,路也很长很长。它也许已经端掉了一些人的饭碗,但从长远来看,就像汽车取代了牛马,缝纫机取代了纺织工,AI在消灭一些职业的同时,也会创造一些新的——比方说“roll图员”“鉴真师”“查重师”“连贯师”“AI协调者”“数字明星经纪人”,一切只是时间问题。回头看看蒸汽机发明后的几百年来,我们每周的平均工作时间缩短了吗?——人类总能为自己找到新工作(苦笑)。

  在教育赛道深耕了十多年的王博倾向于把Sora看作一个“超级工具”:“如果你只把自己当成工具人,那么即使没有AI,迟早也会失业。”文生图流行之后,来王博这里接受培训的制图师反而很多,“有些AI制图软件是给小白入门用的。但如果要做专业的图,相应的AI也会更复杂,比如刚刚出来的Stable Diffusion 3,是需要人力去和AI配合完成的”。

  一方面,AI制图量大便宜,正在大规模淘汰相对底层的制图师;另一方面,原本并非制图行业的人却在逆势涌入,“因为他们从前如果要入行,光是技术门槛就很高,现在反而可以弯道超车,从学习软件技术,变为学习使用AI”。

  经过多年实践,王博得出一个结论:“AI的产出效果,跟使用AI的人的能力,有正相关性。”AI能以非常低的成本做许多事,前提是你要学会和它沟通。“AI就像一门外语,最终考验的还是你的语言能力——对事物的描述也许不必非常细致,但必须精准。”(数理科学的飞跃,最终考验的是语文,意不意外,惊不惊喜?)他想帮助更多人理解AI,反客为主,而不是陷入对AI的焦虑。

  显然,AI势必会淘汰一些人,影响一代人,但归根到底目前还不是AI和人的较量,而是人和人的较量。这听起来有点像那个地狱笑话:熊追你的时候,你不需要跑赢熊,只需要跑赢你的同伴。


  自信一点,人类的灰色脑细胞


  AI和外星人有几分相似。有些人觉得他们是“拯救派”,另一些觉得他们是“降临派”。人类的终极恐惧是被异族团灭,而自打“图灵测试”开始,关于AI“自我意识”的争论就从未停歇。

上图:王博用SD自动生成的图片,让他意识到AI产出的效果和使用者的能力息息相关。


  王博曾经和研究AI深度学习的微软科学家(也是OpenAI研发Sora的合作科学家)讨论过这个问题,对方觉得,AI有没有自我意识,看你如何理解自我意识:“就像人看电影的时候,电影里的角色,观众觉得是有血有肉,有喜怒哀乐也有悲欢离合的,但演员在塑造角色的时候有没有自我意识?也许有,也许是设计出来的。那么你说,人是不是也有可能是由高维度的智力设计出来的呢?”

  最近流行说“世界是个草台班子”,充满了随机出现、无法预测的bug。反过来想一想,如果有造物主的话,对人类的原始设定也许相当简单,不需要亲力亲为捏几十万亿个细胞出来,也不需要设计复杂的激素信号、神经系统、DNA双螺旋结构,只需敲入几行字:碳基生物,生活在地球,生老病死,敢爱敢恨——后面的一切就交给随机性自己去生成了。因为正如Stephen Wolfram所说:“即使只是重复应用非常简单的规则,也可能产生巨大的复杂性。”

  科幻电影里有过许多“缸中脑”的设想,最有名的莫过于《黑客帝国》——假如有一天,发现人类真的只是玻璃缸里漂浮着的大脑,而另一面却是色彩斑斓《头号玩家》一样的AI元宇宙,你会选择哪个?科技发展到最后,提出的是哲学问题。

  其实Sora带来的负面问题中,最有可能快速成真的就是“深度伪造”。连永远的小学生柯南君都知道后果会有多严重:新的动画电影里就有Deepfake情节。“眼见非实”,不但会大肆污染人类的数据库,更可怕的是造成“虚实难分”——假作真时真亦假,上一秒你觉得假视频是真实生活,下一秒,你可能就会觉得家里的墙壁上隐约出现马赛克、全世界都是一个巨大的障眼法——人类哪里经得起这样的精神分裂啊。

  肉眼凡胎的人类,虽然喜欢看奇幻电影,但也别低估了我们对于真实的在意。人是需要真实感的动物,不然怎么说服自己:世界不是一堆代码,自身不是缸中之脑?将来AI大规模生成视频的那一刻来临,即使不说技术上作多少约束,至少也得像转基因食品一样,好歹打上一个标签才能上市。

  而眼下影视界近在咫尺的焦虑,也可以从Sora的底层逻辑上去缓解——它的“知识结构”来自于全人类上传到互联网上的文本、视频,它可能看过了电影自1895年诞生以来的全部在世作品,它甚至也许能从“随机性”中产生一点“创意”(毕竟所谓创意大部分时候就是打破常规),也许能模拟人类的喜怒哀乐,让“感情”也显得并非人类专属——但它的一切都是从“纸上”得来,而“纸上得来终觉浅”——人类在一段生命中的所得,却大都来自于亲身感受、体验、躬行。就像最好的导演,不是技法多么超群,而是能够理解人。AI也许很快就能独立制作出《少年派的奇幻漂流》里那只老虎,但至少在100年内,它无法替代李安。

  写这篇文章的时候,我让AI也帮我写一篇同主题文章,几个不同的AI几乎异口同声回答我:“AI可以模拟物理世界,但它无法模拟人类的情感世界。Sora虽然可以提供技术支持,但无法替代人类的创造力和表演力。”——看来它好像也有点自知之明?有点可笑,也有点可怕。

  面对Sora带来的疾风暴雨,人文艺术家应该自信一点,从战术上敬畏它,从战略上藐视它。就像郭帆导演一样,在使用AI办事之时,都恭恭敬敬加上一个“请”字。可是也别忘了,ChatGPT使用了1750亿个“旋钮”,而人脑的神经元数量也有1000亿个。这些神经元每个都有树状分支,连接成复杂的网络,每个神经元每秒电脉冲约1000次……从GPT到Sora,基本上还只是模拟了大脑神经网络的很小一部分,我们要像田忌赛马一样,别去和AI硬拼算力——下等马先输一程没关系,还有中等马和上等马黄雀在后。虽然武无第二,但文也无第一啊。 记者|阙政

编辑推荐
精彩图文
俱乐部专区 / CLUB EVENT