资讯

MIT:人工智能图像生成器如何帮助机器人

原创 2022-11-04 09:10 小桐 来源:AGV网
美国麻省理工学院(MIT)Hyperloop项目组

作者为美国麻省理工学院的Rachel Gordon

美国麻省理工学院博士生Yilun Du一直致力于将稳定扩散模型(生成艺术的技术支柱)扩展到机器人等其他领域。

人工智能图像生成器,在梦想和现实的交汇处创造出奇幻的景象,在网络的每个角落涌现。它们的娱乐价值体现在不断扩大的异想天开和随机图像的宝库中,作为人类设计师大脑的间接门户。一个简单的文字提示就能产生一个几乎即时的图像,满足了我们的原始大脑,它是硬性规定的即时满足。

虽然看起来是新生事物,但人工智能生成的艺术领域最早可以追溯到20世纪60年代,早期尝试使用基于符号规则的方法来制作技术图像。虽然解读和解析文字的模型进展越来越成熟,但生成艺术的爆发引发了围绕版权、虚假信息和偏见的辩论,这些都陷入了炒作和争议之中。

电子工程和计算机科学系的博士生、,美国麻省理工学院计算机科学和人工智能实验室(CSAIL)的附属机构Yilun Du最近开发了一种新方法,使像《DALL-E 2》这样的模型更具创造性,并有更好的场景理解。在这里,Du描述了这些模型是如何工作的,这种技术基础设施是否可以应用于其他领域,以及我们如何在人工智能和人类创造力之间划清界限。

问:人工智能生成的图像使用一种叫做 "稳定扩散 "的模型,在短短几秒钟内将文字变成令人震惊的图像。但每张图片的背后通常都有一个人。那么,人工智能和人类创造力之间的界限是什么?这些模型到底是如何工作的?

答:想象一下你在谷歌搜索上能得到的所有图片以及它们的相关模式。这就是这些模型的食物。它们在所有这些图片和它们的标题上接受训练,以生成与它在互联网上看到的数十亿张图片相似的图片。

比方说,一个模型已经看到了很多狗的照片。它经过训练,所以当它得到类似 "狗 "这样的文字输入提示时,它能够生成一张看起来与已经看到的许多狗的照片非常相似的照片。现在,从方法论上讲,这一切的工作可以追溯到非常古老的一类模型,称为 "基于能量的模型",起源于70年代或80年代。

在基于能量的模型中,在图像上构建了一个能量景观,用来模拟物理耗散以生成图像。当你把一个墨水点滴到水中,它消散了,例如,在最后,你只是得到这种均匀的纹理。但如果你试图扭转这个消散的过程,你又会逐渐得到水里原来的墨点。

或者说,你有这个非常复杂的积木塔,如果你用球砸它,它就会坍塌成一堆积木。这堆积木就非常无序了,而且没有什么结构。为了使塔复活,你可以尝试逆转这个折叠过程,生成你原来的那堆积木。

这些生成模型生成图像的方式非常类似,最初,你有这个非常好的图像,你从这个随机的噪声开始,你基本上学会了如何模拟这个从噪声回到你的原始图像的过程,你试图迭代地完善这个图像,使它越来越真实。

就人工智能和人类创造力之间的界限而言,你可以说,这些模型确实是在人们的创造力上训练出来的。互联网上有各种类型的绘画和图像,都是人们过去已经创造过的。这些模型被训练来复述和生成互联网上已经出现的图像。因此,这些模型更像是人们几百年来花费创造力的结晶。

同时,由于这些模型是根据人类所设计的东西进行训练的,它们可以生成与人类过去所做的非常相似的艺术作品。他们可以在人们所做的艺术中找到模式,但这些模型要真正自己生成有创意的照片就难多了。

如果你试图输入 "抽象艺术 "或 "独特艺术 "之类的提示,它并不能真正理解人类艺术的创造力方面。可以说,这些模型是在复述人们过去所做的事情,而不是从根本上产生新的和创造性的艺术。

由于这些模型是在互联网上的大量图片上训练出来的,这些图片中很多都可能是有版权的。你并不确切知道模型在生成新图像时检索了什么,所以有一个很大的问题是,你甚至可以确定模型是否在使用受版权保护的图像。如果该模型在某种意义上依赖于一些受版权保护的图像,那么这些新图像是否受版权保护?这是另一个需要解决的问题。

美国麻省理工学院学生解释 AI 图像生成器解释 AI 图像生成器

问:你是否认为由扩散模型生成的图像编码了对自然或物理世界的某种理解,无论是动态的还是几何的?是否有努力 "教导 "图像生成器了解婴儿很早就学会的宇宙的基本知识?

答:在代码中,他们是否理解了对自然和物理世界的一些把握?我想肯定是的。如果你要求一个模型生成一个稳定的块状配置,它肯定会生成一个稳定的块状配置。如果你告诉它,生成一个不稳定的块状配置,它确实看起来非常不稳定。或者,如果你说 "湖边的一棵树",它大致上能够生成。

从某种意义上说,似乎这些模型已经抓住了常识的很大一个方面。但是,使我们离真正理解自然和物理世界仍然非常遥远的问题是,当你试图生成你或我在工作中我们的头脑可以非常容易地想象的不经常出现的词语组合时,这些模型不能。

例如,如果你说,"把叉子放在盘子上面",这种情况一直在发生。如果你要求模型产生这个,它很容易就能做到。如果你说,"把盘子放在叉子上面",同样,我们很容易想象这将是什么样子的。但是,如果你把它放到任何这些大型模型中,你永远不会得到一个放在叉子上面的盘子。相反,你会得到一个盘子上面的叉子,因为这些模型正在学习重述它所训练的所有图像。它不能很好地归纳出它没有见过的词语的组合。

一个相当知名的例子是宇航员骑着马,模型可以轻松做到这一点。但是如果你说一匹马骑着一个宇航员,它仍然会生成一个人骑着一匹马。看起来这些模型在它们所训练的数据集中捕捉到了很多相关性,但它们实际上并没有捕捉到世界的基本因果机制。

另一个常用的例子是,如果你得到非常复杂的文本描述,比如一个物体在另一个物体的右边,第三个物体在前面,还有第三个或第四个物体在飞。它真的只能满足也许是其中的一个或两个物体。这可能部分是由于训练数据的原因,因为很少有非常复杂的标题 但它也可能表明,这些模型不是很有结构。

你可以想象,如果你得到非常复杂的自然语言提示,模型没有办法准确地表示所有的组成部分的细节。

问:你最近提出了一种新的方法,使用多个模型来创造更复杂的图像,对生成艺术有更好的理解。这个框架在图像或文本领域之外是否有潜在的应用?

答:我们真正受到了这些模型的一个限制的启发。当你给这些模型非常复杂的场景描述时,它们实际上并不能正确地生成与之匹配的图像。

一个想法是,由于它是一个具有固定计算图的单一模型,意味着你只能使用固定的计算量来生成图像,如果你得到一个极其复杂的提示,你就没有办法使用更多的计算能力来生成这个图像。

如果我给人类一个场景的描述,比如说,100行,和一个只有一行的场景,人类艺术家可以在前者上花费更多的时间。这些模型并没有真正的感性来做到这一点。那么,我们建议,给定非常复杂的提示,你实际上可以把许多不同的独立模型组成在一起,让每个单独的模型代表你想要描述的场景的一部分。

我们发现,这使我们的模型能够生成更复杂的场景,或者更准确地一起生成场景的不同方面。此外,这种方法可以普遍应用于各种不同的领域。虽然图像生成可能是目前最成功的应用,但生成式模型实际上已经在各种领域中看到了各种类型的应用。

你可以用它们来生成不同的不同的机器人行为,合成3D形状,使人们更好地理解场景,或设计新材料。你可以潜在地组成多个所需的因素,以产生你在特定应用中需要的确切材料。

我们一直非常感兴趣的一件事是机器人技术。就像你可以生成不同的图像一样,你也可以生成不同的机器人轨迹(路径和时间表),通过将不同的模型组合在一起,你能够生成具有不同技能组合的轨迹。如果我有跳跃与避开障碍物的自然语言规范,你也可以将这些模型合成在一起,然后生成既能跳跃又能避开障碍物的机器人轨迹.

以类似的方式,如果我们想设计蛋白质,我们可以指定不同的功能或方面--类似于我们用语言来指定图像的内容--用类似语言的描述,如蛋白质的类型或功能。然后,我们可以将这些组合在一起,生成有可能满足所有这些给定功能的新蛋白质。

我们还探索了在三维形状生成上使用扩散模型,你可以使用这种方法来生成和设计三维资产。通常情况下,3D资产设计是一个非常复杂和费力的过程。通过将不同的模型组合在一起,生成形状就会变得容易得多,例如,"我想要一个有四条腿的3D形状,有这样的风格和高度",可能会使3D资产设计的一部分自动化。

0 0

网友评论

取消