Sora和人类，谁才是那个工具人？

日期：2024-02-28 【来源 : 新民周刊】阅读数：0

分享到

阅读提示：面对Sora带来的疾风暴雨，人文艺术家应该自信一点，从战术上敬畏它，从战略上藐视它。从GPT到Sora，基本上还只是模拟了大脑神经网络的很小一部分，我们要像田忌赛马一样，别去和AI硬拼算力——下等马先输一程没关系，还有中等马和上等马黄雀在后。虽然武无第二，但文也无第一啊。

记者｜阙　政

　　大年初七，中国观众正看贺岁档电影呢，OpenAI第三发重磅炸弹来袭——继ChatGPT、DALL·E之后，Sora，一个只要输入简单提示词就能生成1分钟高精度视频的AI模型，惊撼世人。

　　短短一年多，眼看着文生文、文生图、文生视频……作家、画家、电影家，都恍惚听到了饭碗落地的脆响。可是等一下，我们多年来渴望的AI，不该是科幻片里常见的全职服务员吗？

　　人类理想状态的AI，应该像《机器人瓦力》里的WALL·E一样会自动铲垃圾，像《机械姬》里的万能女管家一样包揽家务，像《上锁的房间》里的机器人一样会照顾病人，像《银翼杀手》里的复制人一样去外星开荒做苦力，像《机械战警》里的ED-209一样维护治安，像《西部世界》里有血有肉的牛仔一样端茶倒水提供娱乐服务，至少也得像《她》里的超级女声萨曼莎，能通过电波聊天解闷安抚人心……

　　结果倒好，铲垃圾的WALL·E没研发出来，GPT、DALL·E、Sora倒是前后脚杀到。合着只有人类是刚刚好进化到了必须工作必须做家务的阶段，而AI却能直接跳过柴米油盐，开启写作画画拍电影的文艺生涯是吗？

上图：由AI生成的示意图片。

哪些活能派给Sora干？

　　AIGC（人工智能生产内容）时代就这么招呼都不打一声地降临了。Sora如一滴清水落入油锅，影视圈炸了，一则以喜，一则以惧。

　　喜的人，最近张口闭口都把四个字挂在嘴边：“降本增效”。从前的AI不太理解现实世界的物理规律，从前的AI生成的视频像gif动图，长度也只有几秒钟，而Sora和他们有质的不同，就像计算器遇到了计算机。

　　影视人已经开始盘算可以给Sora派哪些活干：最近美国《综艺》杂志上刊载了一张调查图——在影视和游戏行业从业者眼中，AI最擅长的活包括：为影视或游戏创建逼真音效、自动完成代码以协助游戏编程、为影视和游戏开发3D虚拟世界、为影视和游戏制作故事板、为影视作外语配音、编写游戏对话、为影视创建逼真的合成演员、写影视剧本……

　　从前拍电影的总羡慕作家只用一支笔就能写出千军万马，不像拍戏，要预算要摇人组局要置景要拍还要剪——现在Sora向世人展示了“傻瓜级”视频制作，仅仅输入几个关键词，就能产出精美画面。未来，我们普通人做一个白日梦，也可以交付给AI，生成刘慈欣+郭帆范儿的科幻大片，“你行你上”的戏谑庶几要成真。

　　其实早在Sora横空出世之前，AI在影视制作中的应用已不是新鲜事——简单粗暴的有“换头”，最近《繁花》热播，有网友做二创，用全香港演员班底换头制作了港版《繁花》：梁朝伟演阿宝，伍咏薇演李李，江美仪演玲子……看起来倒也别有一番味道。

　　国产科幻电影的巅峰之作《流浪地球2》里，大到“太空电梯”，小到给演员减龄，背后都有AI加持。电影里所采用的“虚拟摄影”技术也已经不是大片专利——横店影视城里有虚拟摄影棚，很多网剧都用上了这个成熟的技术。相比古早一无所有的“绿幕”背景，虚拟摄影能将现实场景投射到LED大屏上，让演员从“无实物表演”变得更有临场感。

　　放大来说，影视剧全产业链都已有AI的影子——前期策划评估、剧本创作、故事板、分镜图，到拍摄、特效、后期、修改，AI能降本增效的地方很多，区别只是，有些地方做得好，有些地方还在“一本正经地胡说八道”，需要人力监督。

　　贺岁片《热辣滚烫》最后的花絮里，导演贾玲晒出自己学画画的成果，因为她给《你好，李焕英》画的分镜头过于幼稚，此番除了减肥还潜心学画，结论是：画画比减肥100斤还难。不过将来贾玲导演应该不需要费劲学画了，因为在文生图、制作电影故事板和分镜头这块领域，AI已被证实能力超群。甚至好莱坞有电影商拿了真人绘制和AI绘制的故事板去问投资方意见，资方表示更认可AI作品。

　　编剧王策也曾使用GPT、文心一言、讯飞星火等AI模型来尝试剧本创作和评估，“输入4000字以内的剧本大纲，AI一般会给出一套特别工整的条目式评价，一二三四五，从故事内容、市场前景、观众体验方面给出意见。”不过在这方面，AI就不如绘图那么靠谱，“80%都是废话，人工去梳理调整所花的时间精力，跟我自己做也差不多。写剧本就更不行了，人写剧本用的是情感逻辑，AI是依靠数据算力。”但他也认为，给AI一点时间，未来能做的事会越来越多。

Sora会是影视圈的核武器吗？

　　ChatGPT问世的时候，被形容为新时代的“火和电”。那么Sora会不会是新时代的“蒸汽机”？在改变时代的同时，也会将很多人甩下时代的列车？

　　前不久好莱坞演员工会大罢工的诉求之一，就是要求限制人工智能代替演员。而科技流恐怖片《黑镜》早在去年就预见到了“数字明星”可能带来的可怕后果：女明星售出自己的肖像权给电影公司开发成AI主角，遭到反噬。

　　刚刚落幕的柏林电影节上，Sora同样成为国际电影人争论的焦点。关键词和中国影人如出一辙：兴奋又焦虑。据《好莱坞报道》，影人们反复提到AI可能对工作造成的威胁。有人已经给OpenAI的CEO 山姆·奥特曼（Sam Altman）喊话：“请不要把我变成一个无家可归的人。”未来3年内，好莱坞总计会有超过20万人的工作岗位会因为AI受到冲击。

　　当我们看到Sora目前生成的几十段1分钟样片：几千个纸飞机如同群鸟飞过丛林，红色小熊猫在培养皿的竹林里跃动，帆船在咖啡杯里经受暴风考验……就知道它对传统电影CG的冲击有多大。那些曾经需要高昂成本才能制作1秒的特效画面，现在直接就能生成1分钟。

　　看到Sora样片的第一眼，智元动力（北京）科技有限公司CEO王博的反应是：不可能吧？可再仔细一看OpenAI公布的与Sora相关的技术论文，看到几十个案例摆在面前，他的心情又变了：“有点被吓到，这真是颠覆行业的东西。”

　　以往说电影是“每秒24帧的真理”（戈达尔），是图像与图像连续播放的逻辑，但现在逻辑变了。

　　以往做3D需要三维建模，需要根据镜头要求制作关键帧，需要考虑连续性合理性和表演性，根据不同项目设置参数。但Sora有一套自己的生成逻辑，和GPT相似，是“预测下一帧”最可能出现什么样的画面。

　　由于目前Sora仅仅开放给极少数人群内测，王博对它还存有一个疑问：从文字提示词（prompt）到生成一段1分钟的视频，要花多长时间？他询问了一位海外获得内测资格的朋友，对方直接把测试结果发给他看：那是一幕真实性极高的草原画面，连太阳光晕的变化都非常逼真。而对方在提示词中强调的“使用手持摄像，肖像视图，带一点镜头光晕”，可以说匹配度也很高。

　　而他最想知道的“耗时多久”这个问题，朋友的回答是：实时。

　　“这听起来更恐怖了。”王博说。

　　在“互相伤害”的调侃里，原画师们感叹，这下子要失业的终于不只是原画师了。灯光、摄影、后期、特效，乃至明星，可能被团灭。

　　在最悲观的想象里，AI已经不再是双刃剑，而像是核武器，链式反应犹如灭霸的响指，搞不好噼啪一声，整个影视行业都没了——观众想看什么内容，自己生成就行——原著AI写，编剧AI来，电影AI拍。字生文，文生图，文生视频，再配上一副虚拟现实的眼镜，无景弗现，无远弗至。

Sora的友军泄了AI的老底

　　但是千百年的文明进程告诉我们，人类是靠乐观活下来的，所以，先别急着跪下喊爸爸，更别急着交网课学费——现在卖课割韭菜的人，99.9999%对Sora都是只闻其声，连个内测资格都没有就出来骗人。

　　Sora到底有没有超能力？判断这个问题，我们可以先从前Sora时代的AI入手。

　　最近，麻省理工大学主办了一个“AI for filmmaking”电影制作比赛，主题是“Space I call home”（我称之为家的那片宇宙）。这场比赛面向全世界开放，要求是“主要由AI完成”以及“视频时长在2分钟以上”，有不少中国人参赛，其中萧飞和王超导演的一段4分钟视频入围了技术奖。

　　在这段名为“什么地方你叫做家？”的短视频中，主创们从小女孩、红汽车、黑猫、一颗种子4个不同的视角传达对‘家’的理解，最终落脚在一句中国古代哲言：心安处，即是吾乡。

上图：王超制作的短片，图片都由AI生成。

　　王超是“百夫长影像工作室”的创始人，在视频制作领域创业已有十几年，近年开始关注到AI。他向记者讲述了AI生成视频的全过程：“萧飞先以比赛主题创作了几段诗意的文字，之后的事情大部分由AI完成——GPT 3.5将文字变成旁白、将旁白翻译成英文，Midjourney 6.0把语言转化为88张分镜图，Magnific增强图像效果，PixVerse和Runway把图片转化为时长4分27秒（亦即6408帧）的视频，最后由Elevenlabs为英文旁白配音，加上开源版权的配乐，完成整个视频的制作。”

　　在王超给GPT的指令中，他希望AI能将最后一句旁白翻译成莎士比亚式的诗意古英语；在给Midjourney的指令中，他希望AI可以在片头做出“末世废土风”，带一点手绘的感觉，而中间的叙事段落则要以普通人的视角切入，影像风格偏真实，“用33毫米电影镜头，采用Imax摄像机拍摄”；而到了图生视频阶段，又希望PixVerse为猫咪加上伸懒腰、眯眼睛的动态——结果AI都成功办到了。

　　不过，这并不代表过程中就不需要人工参与；相反，与人们想象中的“一键生成”相比，人力花费的时间长达8天。

　　“每个环节AI都会暴露一些问题。”王超解释说，“最大的问题是AI每一次的回应都带有随机性，我们戏称为‘开盲盒’：即使你每次都输入同样的提示词，它出来的结果依然会是不同的。”

　　比如他想生成一张黑猫的图片，第一次出来是绿眼睛，第二次出来是蓝眼睛；第一次瘦些，第二次胖些；女孩子身上穿的“白底碎花裙”，每次也都有细微差别。为了生成最终能用的88张分镜图，王超一共试了600多次才成功。“我们行话叫‘roll图’，就是图片生成出来，人工要手动挑选，挑选出来的图，很多细节如果不符合现实世界的物理规则，也要手动用笔刷修改：小猫的爪子怎么动，叶片如何随风摇摆，都要去设定参数。很多时间就花在这里。所以用AI做视频，虽然硬件成本是降低了，但体力成本是一点没减少。”

　　前Sora时代的AI并不高效，那么Sora能绕开这些原始问题吗？在王超看来，部分可以：“我们从样片中可以看到，Sora在光线、动力、风感等很多自然界的规律上，能够和现实世界匹配。它生成视频的长度和精度也远超当下技术，而且从单机位变成了多机位，且跳过了图片阶段，这些都是质的飞跃。”

　　但Sora的底层逻辑和GPT相似，因此也存在概率和随机性，它不是故意做得每次都不同，而是没法做到每次都相同。“Sora目前能做到的是60秒内的场景一致性和情节连贯性，再长就难说了。如果将来要应用在影视剧，麻烦就大了：你不能今天故事发生在这个场景，明天发生在那个吧？主角的脸，第一集是一个，第二集是另一个，那当然也不行啊。”

　　萧飞也认为，AI目前在品质上并不能取代传统，但它让很多囿于时间和经费的点子成为了可能，这也许会爆炸式地提升视频内容的数量和质量：“我们可以把它看作是手机高清摄影取代了传统专业摄影，让不具有专业器材和专业培训的内容创作者有了实现梦想的可能。”

　　最近传出某影视从业者说要打造全AI剧，但这种鼓吹“一键生成”的，大部分是骗子。以Sora目前的时长，影响短视频行业或许还有可能，但拍电影电视剧，即使微短剧也够呛。

上图：由AI生成的短片图片，基本上成功完成了王超下达的所有指令。

把它当作工具，而不是做工具人

　　OpenAI也并不避谈Sora的缺点，官网上承认：“交互是目前系统最大的短板之一，AI还不能完全把握时间的因果关系和物理世界的法则，例如人咬了一口饼干后，饼干的形状会发生怎样的变化。”

　　看过Sora样片的观众应该都注意到了其中的“穿帮”之处：打翻水杯的时候，水从杯壁而不是杯口流出；橘猫向主人伸出第三只手；女子左右脚互换；樱花树无根系地浮在半空……本来这些穿帮并不算什么，也许是随机生成中的一次小失误——但考虑到官方样片一定是精挑细选之后的产物，记者眼前就出现了《致命魔术》里那一堆帽子——在“大变活人”震撼世界的同时，背后可能有海量的失败堆骨成山。这无疑给Sora的可靠性打了一个问号。

　　在影视一线从业者重涵看来，“Sora的精度和质感较高，但传统影视需要的要素之一是‘明确’，而Sora暂时是‘模糊’的，它只能做到‘差不多’，做不到‘必须’。影视视听语言是蒙太奇的艺术，而Sora对蒙太奇的理解去到什么程度，仍然未可知。我们在课程中也会尝试用GPT做故事创意，但AI逻辑性强，创意不够，目前暂时还只能起到参考作用”。

　　美国对此也有相似看法。《综艺》杂志最近以《为什么OpenAI的Sora还没有准备好取代好莱坞》为题，总结了Sora的三大缺点：连续性、可控性和版权。“首先是连续性：Sora所承诺的改进并不能完全保证主体/客体和环境的连续性，不足以确保电影或电视节目的叙事或外观的连贯性。其次是可控性：到目前为止，这些工具还不能为电影制作者提供足够的创意控制和精确度，以获得和操纵他们的输出结果——这意味着在短期内，人工智能可能会比传统方法有更多困难和受限，而不是更少。更重要的是，如果版权法和生成人工智能的各个方面都没有更加明确，好莱坞制作极不可能将这些输出用于屏幕镜头。”

　　即使抛开版权，单从技术角度来说，如果将来Sora能够解决连续性和可控性的问题，它会给影视行业或者说人类带来天翻地覆的变化吗？Wolfram语言的发明者、40多年前就开始研究计算思维发展和应用的行业先驱Stephen Wolfram最近在个人网站上发表了一篇文章《人工智能会夺走我们所有的工作并结束人类历史吗？嗯，这很复杂……》，在文中，他解释了GPT的原理——

　　“ChatGPT 的内部结构实际上在计算上可能与大脑非常相似，其中有数百万个简单元素（相当于大脑的神经元）形成一个‘神经网络’。……ChatGPT的基本概念在某种程度上相当简单：首先从互联网、书籍等渠道获取人类创造的海量文本样本，然后训练神经网络，从‘提示’开始，生成‘与之类似’的文本。……拥有数百亿参数的神经网络一次一个标记（token）地生成文本，结果是非同凡响的。鉴于这种戏剧性和意想不到的成功，人们可能会认为，如果能够‘训练一个足够大的网络’，就能够用它来做任何事情。但事实并非如此。关于计算的基本事实，尤其是‘计算不可约’的概念，表明它最终是无法做到的。”

　　“计算不可约”（computational irreducibility）这个概念就是Wolfram最早提出的，他认为，“能力和可训练性之间存在着一个终极权衡：你越想让一个系统‘真正利用’其计算能力，它就越会表现出计算不可约性，从而越不容易被训练。”因此他判断，科学实际上“衍生出其自身的局限性”。在许多方面，ChatGPT从未“真正理解”过事物，它只“知道如何产生有用的东西”。

　　不得不说，科学家们在“去浪漫化”上有一手：多巴胺是快乐，费洛蒙是爱意，不可约性则从某种程度上象征了人类难以被取代的思维。而Sora与GPT的底层逻辑相通，因此有理由怀疑它会遇到同样的“计算不可约”问题。

　　哪怕只是全面替代电影人的工作，路也很长很长。它也许已经端掉了一些人的饭碗，但从长远来看，就像汽车取代了牛马，缝纫机取代了纺织工，AI在消灭一些职业的同时，也会创造一些新的——比方说“roll图员”“鉴真师”“查重师”“连贯师”“AI协调者”“数字明星经纪人”，一切只是时间问题。回头看看蒸汽机发明后的几百年来，我们每周的平均工作时间缩短了吗？——人类总能为自己找到新工作（苦笑）。

　　在教育赛道深耕了十多年的王博倾向于把Sora看作一个“超级工具”：“如果你只把自己当成工具人，那么即使没有AI，迟早也会失业。”文生图流行之后，来王博这里接受培训的制图师反而很多，“有些AI制图软件是给小白入门用的。但如果要做专业的图，相应的AI也会更复杂，比如刚刚出来的Stable Diffusion 3，是需要人力去和AI配合完成的”。

　　一方面，AI制图量大便宜，正在大规模淘汰相对底层的制图师；另一方面，原本并非制图行业的人却在逆势涌入，“因为他们从前如果要入行，光是技术门槛就很高，现在反而可以弯道超车，从学习软件技术，变为学习使用AI”。

　　经过多年实践，王博得出一个结论：“AI的产出效果，跟使用AI的人的能力，有正相关性。”AI能以非常低的成本做许多事，前提是你要学会和它沟通。“AI就像一门外语，最终考验的还是你的语言能力——对事物的描述也许不必非常细致，但必须精准。”（数理科学的飞跃，最终考验的是语文，意不意外，惊不惊喜？）他想帮助更多人理解AI，反客为主，而不是陷入对AI的焦虑。

　　显然，AI势必会淘汰一些人，影响一代人，但归根到底目前还不是AI和人的较量，而是人和人的较量。这听起来有点像那个地狱笑话：熊追你的时候，你不需要跑赢熊，只需要跑赢你的同伴。

　　自信一点，人类的灰色脑细胞

　　AI和外星人有几分相似。有些人觉得他们是“拯救派”，另一些觉得他们是“降临派”。人类的终极恐惧是被异族团灭，而自打“图灵测试”开始，关于AI“自我意识”的争论就从未停歇。

上图：王博用SD自动生成的图片，让他意识到AI产出的效果和使用者的能力息息相关。

　　王博曾经和研究AI深度学习的微软科学家（也是OpenAI研发Sora的合作科学家）讨论过这个问题，对方觉得，AI有没有自我意识，看你如何理解自我意识：“就像人看电影的时候，电影里的角色，观众觉得是有血有肉，有喜怒哀乐也有悲欢离合的，但演员在塑造角色的时候有没有自我意识？也许有，也许是设计出来的。那么你说，人是不是也有可能是由高维度的智力设计出来的呢？”

　　最近流行说“世界是个草台班子”，充满了随机出现、无法预测的bug。反过来想一想，如果有造物主的话，对人类的原始设定也许相当简单，不需要亲力亲为捏几十万亿个细胞出来，也不需要设计复杂的激素信号、神经系统、DNA双螺旋结构，只需敲入几行字：碳基生物，生活在地球，生老病死，敢爱敢恨——后面的一切就交给随机性自己去生成了。因为正如Stephen Wolfram所说：“即使只是重复应用非常简单的规则，也可能产生巨大的复杂性。”

　　科幻电影里有过许多“缸中脑”的设想，最有名的莫过于《黑客帝国》——假如有一天，发现人类真的只是玻璃缸里漂浮着的大脑，而另一面却是色彩斑斓《头号玩家》一样的AI元宇宙，你会选择哪个？科技发展到最后，提出的是哲学问题。

　　其实Sora带来的负面问题中，最有可能快速成真的就是“深度伪造”。连永远的小学生柯南君都知道后果会有多严重：新的动画电影里就有Deepfake情节。“眼见非实”，不但会大肆污染人类的数据库，更可怕的是造成“虚实难分”——假作真时真亦假，上一秒你觉得假视频是真实生活，下一秒，你可能就会觉得家里的墙壁上隐约出现马赛克、全世界都是一个巨大的障眼法——人类哪里经得起这样的精神分裂啊。

　　肉眼凡胎的人类，虽然喜欢看奇幻电影，但也别低估了我们对于真实的在意。人是需要真实感的动物，不然怎么说服自己：世界不是一堆代码，自身不是缸中之脑？将来AI大规模生成视频的那一刻来临，即使不说技术上作多少约束，至少也得像转基因食品一样，好歹打上一个标签才能上市。

　　而眼下影视界近在咫尺的焦虑，也可以从Sora的底层逻辑上去缓解——它的“知识结构”来自于全人类上传到互联网上的文本、视频，它可能看过了电影自1895年诞生以来的全部在世作品，它甚至也许能从“随机性”中产生一点“创意”（毕竟所谓创意大部分时候就是打破常规），也许能模拟人类的喜怒哀乐，让“感情”也显得并非人类专属——但它的一切都是从“纸上”得来，而“纸上得来终觉浅”——人类在一段生命中的所得，却大都来自于亲身感受、体验、躬行。就像最好的导演，不是技法多么超群，而是能够理解人。AI也许很快就能独立制作出《少年派的奇幻漂流》里那只老虎，但至少在100年内，它无法替代李安。

　　写这篇文章的时候，我让AI也帮我写一篇同主题文章，几个不同的AI几乎异口同声回答我：“AI可以模拟物理世界，但它无法模拟人类的情感世界。Sora虽然可以提供技术支持，但无法替代人类的创造力和表演力。”——看来它好像也有点自知之明？有点可笑，也有点可怕。

　　面对Sora带来的疾风暴雨，人文艺术家应该自信一点，从战术上敬畏它，从战略上藐视它。就像郭帆导演一样，在使用AI办事之时，都恭恭敬敬加上一个“请”字。可是也别忘了，ChatGPT使用了1750亿个“旋钮”，而人脑的神经元数量也有1000亿个。这些神经元每个都有树状分支，连接成复杂的网络，每个神经元每秒电脉冲约1000次……从GPT到Sora，基本上还只是模拟了大脑神经网络的很小一部分，我们要像田忌赛马一样，别去和AI硬拼算力——下等马先输一程没关系，还有中等马和上等马黄雀在后。虽然武无第二，但文也无第一啊。　记者｜阙政

※版权作品，未经新民周刊授权，严禁转载，违者将被追究法律责任。