Sora或为深伪视频推波助澜

2024-02-25 13:49

 参考消息网2月21日报道 据英国《新科学家》周刊网站2月17日报道,美国开放人工智能研究中心(OpenAI)发布最新的人工智能系统:可以把文本转变成逼真视频的Sora模型程序。这个视频生成模型进一步刺激对人工智能技术进步的兴奋之情,同时也加剧对深伪视频在全球关键选举年助长错误信息和虚假信息的担忧。

  Sora模型目前可以只靠文本指令或者文本与一张图像的结合制作长达60秒的视频。一段演示视频开头是一段文字提示,“一位时尚女性走在东京的一条街道上,温暖的霓虹流光溢彩,各种招牌热闹灵动”。其他例子包括狗在雪中嬉戏、汽车在路上行驶以及鲨鱼在摩天大楼之间的半空中游泳等奇幻场景。

  加利福尼亚大学伯克利分校的哈尼·法里德说:“与生成式人工智能的其他技术一样,没有理由认为,文本转视频技术不会继续迅速改进——让我们越来越接近一个真假难辨的时代。这项技术如果与人工智能语音克隆技术结合,就可以开辟一条全新的战线,制造出深伪内容,显示人们在说从未说过的话,做从未做过的事。”

  Sora模型在一定程度上基于OpenAI的现有技术,如图像生成器多尔-E和GPT大语言模型。社交认证安全服务公司联合创始人蕾切尔·托巴克说,就逼真性和易用度而言,文本转视频的人工智能模型在一定程度上落后于其他技术;但与过去相比,此次Sora模型演示“可信度提升了一个数量级,夸张变形度则下降了一个数量级”。

  报道称,为实现这种更高级别的逼真,Sora模型结合两种不同的人工智能方法。首先是一种类似于多尔-E等人工智能图像生成器使用的扩散模型,这些模型学习逐渐把随机图像像素转换成连贯的图像。第二种人工智能技术称为“转换器构架”,用于对背景进行分析并拼凑出序列数据。例如,大语言模型利用转换器构架把单词拼接成通俗易懂的句子。在这种情况下,OpenAI把视频片段分解为Sora模型的转换器构架可以处理的视频“时空补丁”。

  Sora模型的视频里仍然有不少错误,比如行走中的人左右腿调换了位置、椅子随机漂浮或者一块被咬过的饼干竟然没有咬痕。尽管如此,英伟达公司高级研究科学家范麟熙在社交媒体平台X上称赞Sora模型是能够模拟世界的“数据驱动的物理引擎”。

  普林斯顿大学的阿尔温德·纳拉亚南说,Sora模型的视频描绘复杂场景的同时仍然出现一些奇怪的小差错,这说明此类深伪视频眼下还能被发现。但他也提醒,从长远来看,“我们作为一个社会将需要找到其他方式调整适应”。

  OpenAI推迟让Sora模型公开可用,目前还在进行“红队”(在军事演习和网络安全演习等场合中扮演敌人或竞争对手的团队)演习,由专家试图打破这个人工智能模型的安全防护,以评估其被滥用的可能性。OpenAI的一名发言人说,目前正在对Sora模型进行测试的特定团队是“错误信息、仇恨内容和偏见等领域的专家”。

  这种测试至关重要,因为人工智能视频技术可能被心怀恶意者利用制作虚假视频,以达到比如骚扰他人或影响政治选举等目的。

  托巴克说:“‘天空’模型绝对有能力制作可以骗过普通人的视频。视频不需要完美就可以让人相信,因为很多人还没有意识到视频可以像图片一样被轻易操控。”

  托巴克说,人工智能公司需要与社交媒体网络和政府合作,以应对一旦Sora模型对公众开放可能出现的错误信息和虚假信息规模。

  关于今年是否有计划推广Sora模型,OpenAI发言人称,该公司在“‘天空’模型作为OpenAI产品上架前要采取几个重要的安全步骤”。例如,该公司已经使用相应的自动程序,阻止其商用人工智能模型生成有关极端暴力、性和仇恨的图像,以及有关真人政客或名人的内容。由于今年参加选举的人比以往任何时候都多,这些安全步骤将至关重要。