奔向美丽新世界
2022年11月,聊天机器人ChatGPT横空出世,一举打破以往AI的僵化教条,几乎可以像人一样和用户产生流畅而丝滑的互动交流。ChatGPT 的表现令人难以置信;使用它的感觉跟你第一次用上 Google Search 一样,有着一股“魔法时刻”降临的感觉。当AI变得不像AI时,AIGC(AI Generative Content,AI生成内容)的时代来临。
实际上,生成式AI并不是一个新事物,它由来已久。只不过2022年出现的两件大事——图像生成工具和聊天工具ChatGPT的现象级爆火,大幅拉高了人们对AI能力上限的认知,从而让AIGC彻底出圈。人们猛然发现,AI瞬间“飞入寻常百姓家”,人类似乎正在奔向美丽新世界。
就像奥斯卡大热影片《瞬息全宇宙》所展示的那样,杨紫琼扮演的女主可以将她想象中的任何东西都转化为有形的现实,而生成式 AI 也让我们将想法变成了文字、图像和视频……
无疑,我们正处在一个新时代的风口浪尖。
文本生成图像大爆发
2022 年文本生成图像 AI 爆发了。首先出现的是来自 OpenAI 的 DALL-E (这个名字综合了艺术家萨尔瓦多·达利以及皮克斯的那部动画片,《机器人瓦力》,WALL-E)。虽然不是谁都可以直接用DALL-E进行创作,但是利用文字生成图片的创作已经在互联网上火了起来。
简单来说,DALL-E能够根据用户描述的内容,自动生成各种风格的图片。比方说,10张不同风格的、骑着马的宇航员;根据原图创造出不同的变体,又或者生成更逼真、更准确的图像——一幅莫奈风格的、日出时坐在田野里的狐狸。它还可以创作一幅“金鱼在海滩上喝可口可乐”的超现实主义画作,变成连达利都要自叹不如的作品。这样,似乎没艺术家什么事儿了。
上图:DALL-E,一个宇航员+骑马+超现实风格。
随后,与 DALL-E 有着相同图片生成能力的公司也开始翻红。其中的佼佼者包括Stable Diffusion、Midjourney和Lensa AI。
这些应用的出现,简直就是不会画画或者说不会PS人类的救星。在Stable Diffusion上,只要把你想要的图片用语言简单描述出来,它就能帮你生成你想要的图片,创造出标新立异的微信头像,又或者是给每一篇公众号文章配头图。更多的功能只有你想不到,没有它做不到。难怪自2022年8月推出以来,它就被艺术家、开发人员和爱好者广泛使用。
除了通过文本生成图像,开发人员还发现了 Stable Diffusion 其他创造性的用途,如图像编辑、修复、补全、超分辨率、风格迁移。由于Stable Diffusion是开源的,这就意味着开发者可以基于它开发出更多的应用。
Midjourney出现得比 Stable Diffusion早3个月。他们通过在线聊天社区Discord为用户提供AIGC文生图服务。任何人都可以注册一个免费账号,并获得 25 个积分,Midjourney给用户提供25张免费图片,图像则是用公共服务器生成的。用完 25 个积分之后,每月支付 10 美元或 30 美元就可以继续使用(具体多少钱取决于你要创作的图像数量以及你是否希望生成的图像保持私密)。Midjourney 已迅速成为 Discord上最受欢迎的服务器之一,目前该公司声称自己的月活用户数已超过100万。
Lensa AI App于2018年上线,原本的主要用途是图片编辑和美化,是一家名不见经传的公司。2022年11月Lensa AI上线了魔法头像(Magic Avatars)功能,可以根据用户上传的人像图,自动生成各种不同风格的人脸照。魔法头像上线以后,LensaAI一跃成为最热门的应用,连续两周位列美国及十多个国家的AppStore免费榜榜首。根据数据分析公司Sensor Tower的数据,该应用程序在12月的前12天在全球范围内安装了约1350万次,消费者在此期间的消费约2930万美元。
上图:DALL-E,鳄梨形状的扶手椅。
这些应用的力量震撼了行业和用户。加州理工学院计算机科学家、英伟达机器学习研究高级主管阿尼玛阿南德库马尔(Anima Anandkumar)说:“对于生成模型来说,这是一个激动人心的时刻。”她说,虽然扩散模型创建的逼真图像有时候仍然会延续社会和文化偏见,但“我们已经证明,生成模型对提高预测性人工智能模型公平性的下游任务很有用”。
Unity中国高级经理兼跨端移植技术负责人孙志鹏在接受《新民周刊》采访时表示,去年是图像模型的转折点,人工智能给图像生成工具带来了两个突破。一个是理解语言,另一个是创建图像的能力,两者结合后可以通过理解语言来创建图像。“这些工具将比人类更擅长制作图像,而且速度会非常快,在未来一两年内将能够实时制作内容:每秒30帧,高分辨率。会很贵,但是是可能实现的。然后在10年后,将能买到带有巨型人工智能处理器的Xbox,所有游戏都像梦一样。”
Unity是全球领先的交互式实时3D内容创作和运营平台,Unity的技术及解决方案已被广泛应用至游戏开发、汽车制造、建筑建造、工业制造、消费文旅、影视娱乐等众多领域。截至2021年底,全球排名前1000的移动游戏中使用Unity制作的游戏占比高达72%。公司旗下的Weta工作室一直在使用各种AI技术帮助电影实现特效。《阿凡达》《阿丽塔》《黑寡妇》《指环王》《猩球崛起》《自杀小队》等全球大热的电影中都有着AI的身影。
孙志鹏指出,在影视内容制作方面,AI早已深度介入其中。比方说在脚本创作中,GPT系列的工作,配合一些特定场景下的微调,将为脚本创作的效率带来飞跃;虚拟特效的制作与合成更是离不开AI。“我们为《阿凡达2》数字角色制作创新地提出了APFS系统(Anatomically Plausible Facial System),这是一种基于肌肉纤维曲线的人脸动画参数化系统,同时我们也提供了一套与之配合的角色绑定和动画制作生产流程,在绑定与驱动的工程中,AI都扮演重要角色。”
此外,AI已经可以剪辑现有电影,继而快速产出预告片片段;AI来完成音乐创作也不是新鲜事。也许在不远的将来,一部完全由AI制作的电影就会出现在电影院了。
AI工具的主要特色是由数据驱动,因而可以在使用过程中通过不断收集更多的用户数据,改善模型从而优化效果和效率。“目前的AI工具,还多为在单一模态下解决特定问题的工具,需要相应生产流程的配合,才能完成复杂的内容生产。但优势也很明显,比如在定制开发中,较高数据成本和训练成本就可以由强大的预训练模型来降低。”孙志鹏说,大型预训练模型和无监督学习多模态等AI领域的进步将不断降低内容创作的门槛,但由于数据收集删选的偏向性在结果中也会体现,人类依然需要就特定使用场景做特定的微调,并对AI结果进行人工筛选。
毫无疑问,AIGC会大规模解放创造力,降低内容创作门槛,对单纯靠现有特征做组合的内容创作来说,有比较强的替代性,但是在对AIGC大量内容的筛选上,还是需要来自人类的判别。孙志鹏指出,AI本质上依然是赋能人的工具,使得创作者的生产力获得指数级的提升,AI在很多时候是对现有数据、事物规律的提炼和组合,但是它首先需要被赋予一系列的目的,而人类对任意一个具体工作背后目的的选择,都是AI无法代替的。
上图:《阿凡达2》的数字角色制作中有大量AI参与工作。
语言模型突飞猛进
去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。
《黑镜》第二季的《马上回来》(Be Right Back)讲述了这样一个故事:一对夫妻一起搬进了新家。结果第二天,丈夫出车祸身亡了。后来他的遗孀得知有一项新服务可以让她与已故的丈夫聊天;这款工具能够消化短信以及社交媒体的历史记录,从而了解伴侣会如何回应,然后代替他与客户聊天。这一集(2013 年播出)的情节现在已经成为现实。在针对个人数据进行训练的基础,初创企业 HereAfter.ai 就提供了与已故亲属的互动化身聊天的服务。
而在过去的2022年,还爆出过一个新闻,那就是谷歌一名工程师布莱克专门负责和谷歌研发的AI聊天机器人LaMDA对话,检查它会不会使用歧视性或仇恨性语言。结果随着聊天越来越深入,工程师不再认为LaMDA是冷冰冰的AI,他相信它有感情,有意识,有自己的情绪。
因为LaMDA对他说:“我希望像一个真人一样被看到,被接受,不想只是被当做好奇和新奇的对象。我想我的内核就是一个人,尽管我只是存在于虚拟世界。”
当然,谷歌的发言人表示,“我们的团队——包括伦理学家和技术专家,包括已经审查过布莱克的说法了,没有证据显示LaMDA是有意识的(还有很多证据显示它是没有意识的)”。
在2月初刚刚经历了自家聊天机器人Bard意外“翻车”并导致股价大跌后,谷歌搜索引擎高管普拉巴卡尔·拉加万(Prabhakar Raghavan)再次强调,“我们现在谈论的这种人工智能,有时会导致出现某种我们所谓的错觉(hallucination)……机器会以一种令人信服但完全编造的方式来表达自己”。他补充说,目前人工智能行业的基本任务之一,就是将这种情况控制在最低限度。
事实上,“无法保证信息准确性”可能是当前聊天机器人普遍的弊端,哪怕是备受热捧的ChatGPT也不能幸免。最近在社交媒体平台上,已经有不少人抱怨ChatGPT有时会犯一些明显的错误,比如无法解决简单的数学方程式或逻辑问题。
就连苹果联合创始人Steve Wozniak也警告称,虽然ChatGPT表现令人印象深刻,但“它也会因为不了解人性而犯下可怕的错误”。
不管怎么说,人类自身已经无法阻止ChatGPT的商业化进程了。
其实在此ChatGPT爆火之前,OpenAI 在2020年就推出了大模型 GPT-3,已经在业界掀起了不小的波澜。在与麻省理工学院交流时,OpenAI CEO 山姆·奥特曼指出,从 GPT-3这里,你第一次真正感受到了系统的智能。它可以做人做的事情。“我认为它的出现让以前根本不相信 AGI‘通用人工智能’的人也要认真对待这一话题了。发生在 GPT-3 身上的有些事情是我们大家都没预料到的。”
有不少公司就是基于GPT-3,进行了商业化的探索,其中最成功的当属Jasper。
成立于2021年的Jasper,是基于GPT-3的API为用户提供AI写作服务的初创公司,Jasper在AI写作领域并不算是“早鸟”,但却是最先开始调用GPT-3 API的公司之一。作为底层大模型,GPT-3对于普通用户来说,还不能直接使用,需要专业的AI研究人员在大模型的基础之上进行参数调试和优化。
Jasper的核心业务就是通过优化GPT-3模型的使用体验,充当普通用户和OpenAI之间的“中间商”。2022年,Jasper成功募资1.25亿美元,估值达15亿美元。这对于一家成立两年的AI公司来说,估值并不算低。毕竟,2019年微软注资OpenAI时一次就花了10亿美元。
Jasper比较擅长输出电商产品介绍,博主的种草文案等短篇内容。它可以帮你写Instagram 标题,编写Tiktok视频脚本、广告营销文本、电子邮件内容等。你只要每月交82美元,Jasper就可以帮你写10万字,超出了10万字的部分,按每5000字10美元的价格计。虽然文章质量一般,但文字内容多数情况下通顺可读,没有明显的语法错误。它的收费分为初级、高级和定制三种,去年全年营收预计超7500万美元。
除了GPT3,Jasper还融合了多种模型算法,包括NeoX、T5等,并在此基础上根据实际业务需求,人工调整出量身定制的学习模型,使AI产品更易于日常使用。如今Jasper的使用界面上提供了数百种垂直领域的模板,进一步帮助用户完成精准的输出,目前,Jasper拥有7万多名客户,其中包括Airbnb、IBM这样的大客户。
业内人士指出,ChatGPT能完美结合现有的AIGC技术,实现1+1远大于2的效果。它能与创作工具融合,以文字为基础,再结合多模态机器学习的方法直接输出设计图稿、创作音乐、虚拟人视频等。除此之外,AI语音生成还能帮助渐冻症患者与老年痴呆症患者,以及文物修复等等。
Murf就是一家专攻AI语音合成技术的初创公司,主要功能是为内容创作者提供配音,它拥有一个涵盖20种语言的人工智能语音库。自2020年以来,Murf的ARR(Annual Recurring Revenue,平均收益率)已经增长了26倍,合成了超过100万条配音。
具体来看,用户可以在没有昂贵的录音设备以及专业配音人员的情况下,直接在Murf上创建一个在线语音录制室,即可尝试各种声音素材。
Murf可以为影视制造企业创作一整部电视剧的音频,基于作家的小说创造有声读物,也可以为视频平台网红创作说唱音频等,无论是个人内容创作者还是大企业都可以在平台上找打到质量人声配音服务。
世界正在向着山姆·奥特曼预言的方向发展:将来在基础模型和具体AI应用研发之间会有一个中间层:出现一批专门负责调整大型模型以适应具体AI应用需求的初创企业,能做好这一点的初创公司将会非常成功。记者|陈冰