划重点


(资料图)

1世界上目前有几十种顶级的图像生成AI,它们的开发成本很高,而且需要大量数据进行训练;2名为Midjourney的小公司开发了同名AI图像生成器,希望在未来十年时间里对AI图像生成技术进行深度探索;3Midjourney将AI图像生成技术视为“想象力的引擎”,通过对语言的理解来创造图像;4Midjourney创始人认为,AI图像生成技术更像是水,尽管有时也存在危险,但依然是人类文明发展的驱动力。

腾讯科技讯 8月4日消息,人工智能(AI)生成的艺术品正悄然开始重塑文化。在过去几年里,机器学习(ML)系统通过文本提示生成图像的能力在质量、准确性和表达方面都有了显著的提高。现在,这些工具正从研究实验室转移到日常用户手中。当然,它们在创造出新的视觉表达语言的同时,也可能带来了新的麻烦。

目前,世界上只有几十种顶级的图像生成AI。它们开发起来很棘手,成本也很高,需要访问数以百万计的图像来训练系统(在图片中寻找模式并复制它们),还需要进行大量的计算(其成本各不相同,最多可能需要消耗数百万美元)。

现在,当这些系统生成的图像出现在杂志封面上或被用来制造表情包时,它们大多被视为新奇事物。但艺术家和设计师正在将这类软件整合到他们的工作流程中,在很短的时间内,AI生成和AI增强的艺术将变得无处不在。关于版权的问题(谁拥有图像谁创造了它)以及潜在危险(如有偏见的输出或AI产生的错误信息)必须迅速处理。

不过,随着这项技术逐渐成为主流,名为Midjourney的10人研究实验室将能够在某种程度上为自己邀功。这家实验室通过Discord聊天服务器开发了同名的AI图像生成器。虽然很多人可能不太熟悉这个名字,但你可能已经在你的社交媒体上看到了Midjourney系统的输出。你只需加入Midjourney的Discord,输入某个提示,系统就会为你生成图片。

Midjourney创始人大卫·霍尔兹(David Holz)在接受采访时表示:“很多人问我们,为什么不开发能够生成图片的iOS应用程序?但人们想要共同创造内容,如果你在iOS平台上这么做,你就必须创造自己的社交网络。这很困难,所以如果你想要自己的社交体验,Discord真的很棒。”

注册一个免费帐户,你可以获得25积分,所有图片都是在公共聊天室生成的。之后,你将不得不支付每月10美元或30美元费用,这取决于你想制作的图像数量以及它们是否属于你的隐私。不过,本周Midjourney扩大了对其模型的访问,允许任何人用自己的AI图像生成器创建自己的Discord服务器。正如霍尔兹所说“我们正在从一个Midjourney宇宙走向Midjourney多元宇宙。”他认为结果将是令人难以置信的:AI增强创造力的迸发仍只是冰山一角。

霍尔兹日前接受专访,谈论了自己对Midjourney的雄心,比如他为什么要创建“想象力的引擎”,以及为什么他认为AI更像是水而不是老虎。

以下为专访全文:

问:你最好能首先介绍下你自己和Midjourney的情况。你的背景是什么?你是怎么卷进来的?Midjourney是什么,一家公司还是一个社区?你怎么形容它?

霍尔兹:我叫霍尔兹,我自认为是个连续创业者。我先简单介绍下自己:我高中时从事过设计工作,大学学的是数学物理。我在美国宇航局(NASA)和马克斯·普朗克实验室工作时,曾攻读流体力学博士学位。我一度感到很迷茫,把所有的事情都放在一边。于是我搬到了旧金山,在2011年左右创办了名为Leap Motion的科技公司。我们出售可以在手上做动作捕捉的硬件设备,并创造了很多手势界面空间。

我创立了Leap Motion,并运营了12年,但最终,我开始寻找不同的环境,而不是一家有风投支持的大公司,于是我选择离开并创办了Midjourney。现在,我们公司的规模还很小,大概只有10个人,没有投资人,也没有经济上的动力。我们没有出售东西或成为一家上市公司的压力。这只是为了在接下来的10年里有个地方,能让我们进行些很酷的项目。

我们在做很多不同的项目,这将是个广泛多样的研究实验室。但也有些主题,比如反思、想象和协调等方面的东西。我们开始以图像创作而闻名。我们不认为这真的是艺术或深度赝品,但是我们该如何扩展人类的想象力?这意味着什么?当计算机比99%的人类更擅长视觉想象时,这意味着什么?这并非意味着我们将停止想象。汽车比人类的速度更快,但这并不意味着我们停止步行。当我们长途运输大量物品时,我们需要引擎,无论是飞机、船只还是汽车都是如此。我们把这项技术看作是“想象力的引擎”,所以这是一件非常积极和有意义的事情。

问:许多实验室和公司正在研究将文本转化为图像的类似技术。谷歌有Imagen, OpenAI有DALL-E,还有些像Craiyon这样的小项目。这项技术从何而来,你认为它的未来走向如何,Midjourney的愿景与这个领域的其他人有何不同?

霍尔兹:AI已经有了两大突破,从而产生了图像生成工具。一个是理解语言,另一个是创造图像的能力。当你把这些东西结合在一起,你就可以通过对语言的理解来创造图像。我们看到了这些技术的出现,我们也看到了这些技术的发展趋势,他们在制作图像方面会比人类做得更好,而且速度会非常快。在接下来的一两年里,你将能够实时制作内容:每秒30帧,高分辨率。虽然很贵,但还是有可能的。然后,在10年内,你将能够购买带有巨大AI处理器的Xbox,所有的游戏都来自梦想。

从原始技术的角度来看,这些都是事实,没有办法回避。但从人类的角度来看,这到底意味着什么“所有的游戏都来自梦想,一切都是可塑的,我们将拥有AR头盔”——这到底是什么意思?所以其中的人文因素是深不可测的。而真正让我们可以使用的软件,完全还没有出现,我认为这才是我们的重点。

去年9月,我们开始测试原始技术,我们很快就发现了真正不同的东西。我们很快发现,大多数人都不知道自己想要什么。当你问道“这是一台机器,你可以用它想象任何东西,你想要什么”他们会回答说“狗。”你会说真的吗”他们选“粉红狗”。所以你给他们一张狗的照片,他们说“好的”,然后去做别的事情。

然而,如果你把他们放在某个群体里,他们会叫它“狗”,其他人则会叫“太空狗”或“阿兹特克太空狗”,然后突然之间,人们理解了各种可能性,你创造了这种增强的想象力:一个人们可以学习和测试这种新能力的环境。我们发现人们真的很喜欢一起想象,所以我们便创造了Midjourney的社交功能。我们有个巨大的Discord社区,它是最大的Discord社区之一,大约有100万人在共享空间里共同想象东西。

问:你认为这个人类集体和机器集体是平行的吗?作为对这些AI系统的一种平衡?

霍尔兹:其实并没有真正的机器集体。每次你让AI画一张图,它真的不记得或不知道它曾经画过的任何东西。它没有意志,没有目标,没有意图,没有讲故事的能力。所有的自我、意志和故事,都由我们控制。就像引擎一样,它不能自己决定去哪里,但人却可以。这有点儿像人类的蜂群思维,拥有超能力的科技。

在这个社区里,有100万人在制作图片,他们都在互相模仿。在默认情况下,每个人都可以看到其他人的图片。你必须支付额外的费用来退出社区。通常,如果你这样做了,这意味着你是某种类型的商业用户。所以每个人都在互相影响,从而出现了所有这些新的美学。这几乎就像审美加速主义,而不是AI美学。它们是新的、有趣的、人类美学,我认为它们将会传播到世界各地。

问:这种开放性也有助于确保安全吗?因为有很多关于AI图像生成器被用于生成潜在有害东西的讨论,比如血腥暴力图像和错误信息。你如何阻止这种情况发生?

霍尔兹:是啊,这太神奇了。当你把某个人的名字印在他拍的所有照片上时,他们在使用照片的方式上就会严格得多。这很有帮助。但不幸的是,我们有时还是会遇到些问题。举例来说,有人通过在社交媒体上引起愤怒来谋生,有人为隐私付费,然后花1个月的时间来创造最令人震惊的图像,然后试图在推特上发布它。然后我们必须坚定地说:这不是我们的目的,这不是我们想要的社区类型。

每当我们看到这类图片时,我们会立刻采取行动,必要时我们会进行封禁。我们还收集了许多不当词汇,并且禁止类似的东西。

问:那么真实的面孔呢?因为这是制造错误信息的另一个向量。这个模型能生成真实的脸吗?

霍尔兹:它会产生名人面孔之类的东西。我们有默认的风格和外观,它充满了艺术性,而且非常漂亮,很难被撼动,这意味着你现在不能真正强迫它做深度伪造。也许如果你花100个小时尝试,可以找到些正确的词语组合,使它看起来非常真实,但你必须非常努力地使它看起来像照片。就我个人而言,我不认为这个世界需要更多的深度赝品,但它确实需要更多美丽的东西,所以我们专注于让一切都变得美丽。

问:你从哪里得到模型的训练数据?

霍尔兹:我们的训练数据几乎与其他公司一样,都来自互联网。几乎每个大型AI模型都能获取它能获取的所有数据,包括文本和图像。从科学的角度来说,我们处在这个领域的早期阶段,每个人都能获得差不多的数据,它们被放在一个巨大的文件中,然后启动它来训练一些巨大的东西,没有人真正知道这堆数据中哪些是真正重要的。

例如,我们最近的更新看起来更好,你可能会认为我们是通过在训练数据中加入许多绘画来实现这一点。但是我们没有,我们只是根据人们(使用模型)的喜好来使用用户数据。没有人为艺术投入其中。但从科学角度来说,我们还处于非常非常早期的阶段。整个工作室可能只训练过24个这样的模型。所以这依然是实验科学。

问:训练你的模型花了多少钱?

霍尔兹:我想说的是,在这个领域的训练模型时,我不能透露具体成本,但我可以说些大致的东西。现在,每次训练图像模型大概要花5万美元。你不可能一次就成功,所以你必须尝试三次或10次或20次。有鉴于此,训练成本相当高昂。这比大多数大学的花费都要多,但也不至于贵到需要十亿美元或构造超级计算机的程度。

我相信训练和维护的费用都会降低,但现在运行它的成本实际上相当高。每张照片都要花钱,每张图片都是在价值2万美元的服务器上生成的,而我们必须按分钟租用这些服务器。我认为,从来没有任何服务能够让消费者在15分钟内不加思考地使用数千万亿次操作。我想说,它比普通消费者接触过的任何东西都有更强大的计算能力,这可能是它的10倍。这其实有点儿疯狂。

问:说到训练数据,一个有争议的方面是所有权的问题。美国现行法律规定,你不能对AI生成的艺术拥有版权,但我们不太清楚人们是否可以对用于训练数据的图像拥有版权。美工和设计师努力培养自己特定的风格,但如果他们的作品现在可以被AI机器人复制会发生什么?关于这个问题,你们讨论过很多次吗?

霍尔兹:我们的社区中确实有很多艺术家,我想说他们普遍对这个工具持积极态度,他们认为这将使他们提高效率,并大大改善他们的生活。我们不断地问他们“你还好吗?你感觉好吗?”我们也会在办公时间和1000个人一起录音,坐4个小时,回答问题。

很多使用这个平台的著名艺术家,他们都在说同样的事情,这真的很有趣。他们说:“我觉得Midjourney是一个艺术生,它有自己的风格,当你召唤我的名字来创作一幅图像时,就像让一个艺术学生从我的艺术中获得灵感来创作一些东西。总的来说,作为一名艺术家,我希望人们能从我的作品中获得灵感。”

问:但这其中肯定存在着巨大的自我选择偏见,因为活跃在Midjourney Discord中的艺术家一定会为之兴奋。那些说“这是胡扯,我不希望我的艺术被这些巨大的机器吃掉。”你会允许这些人从你的系统中消失吗?

霍尔兹:我们还没有相关的流程,但我们愿意接受。到目前为止,我想说这里没有那么多艺术家。这并不是一个深度的数据集。而那些成功的人给我们的答案是,“我们并没有被这个吓倒”。现在,它仍处于新生期,我认为随机应变和保持活力更有意义。所以我们一直在和人们交谈。事实上,我们现在从艺术家那里得到的第一个要求是,他们希望它能更好地窃取他们的风格,这样他们就能更好地将其作为自己艺术流程的一部分。这让我很惊讶。

其他的AI图像生成器可能会有所不同,因为它们试图让某些东西看起来像完全真实的东西。但我们有更多的默认风格,所以它真的看起来像一个艺术学生受到其他东西的启发。我们这样做的原因是,你总是有默认值,如果你说“狗”,我们可以给你一张狗的照片,但那很无聊。从人类的角度来说,你为什么要这样?转到谷歌图像搜索,我们试图让东西看起来更有艺术感。

问:这是你在对话中提到过几次的东西,Midjourney的默认艺术风格,我真的很着迷于这个想法,每个AI图像生成器都是自己文化的缩影,有自己的偏好和表达。你如何描述Midjourney的独特风格,你是如何有意识地发展它的?

霍尔兹:这有点儿特别!我们尝试了很多东西,每次我们尝试新的东西,我们渲染出一千张图片。这并不是真正的意图,它应该看起来很漂亮。它应该对具体的事情和模糊的事情做出反应,我们绝对不希望它看起来只像照片。我们可能会在将来的某个时刻制作一个现实版本,但我们不希望它是默认的。完美的照片现在让我有点儿不舒服,尽管我可以理解为什么你可能想要更真实的照片。

我认为它的风格会有点儿异想天开、抽象和怪异,它倾向于以你可能不会问的方式融合事物,以令人惊讶和美丽的方式进行。它倾向于使用大量的蓝色和橙色,也有自己最喜欢的颜色和面孔。如果你给它非常模糊的指示,它肯定会应用自己最喜欢的因素。所以,我们不知道接下来会发生什么,但它喜欢画某个特定的女人的脸,我们不知道它从哪里来,因此只能称它为“旅程小姐”。还有一个人的脸,有点方形,很有气势,他也出现过,但他还没有名字。但它就像有自己面孔和颜色偏好的艺术家。

问:说到这些默认值,图像生成领域的一个大挑战是处理偏见。有研究表明,如果你让某个AI图像模型生成CEO图像,可能会发现其总是白人男性形象;当你让它输出护士时,则以女性为主,而且通常是有色人种。你是如何应对这个挑战的?这是Midjourney所面临的大问题,还是那些想要从这些系统中盈利的公司所关心的问题?

霍尔兹:“旅程小姐”绝对是个问题,而不是一个功能,我们现在正在研究些东西,将尝试打破这些面孔,以便带来更多的变化。但这也有缺点。比如,我们有个版本,它完全摧毁了“旅程小姐”,但如果你真的想要阿诺德·施瓦辛格(Arnold Schwarzenegger)扮演丹尼·德维托(Danny DeVito),那么它也会完全摧毁这个要求。棘手的事情是在不破坏所有表达风格的情况下让它发挥作用。因为有个增加多样性的开关很容易,但很难只在它应该打开的时候才打开。我能说的是,用你想要的任何多样性来制作一张图片从来没有这么容易。

问:让我们稍微回顾一下,你已经说了很多,你不认为你在Midjourney所做的工作具有实用性。我的意思是,显然你已经亲身参与,但你的动机更抽象,主要是关于人类和AI之间的关系;关于我们如何以你所说的这种人文主义的方式使用AI。AI领域的一些人倾向于从最宏伟的角度来考虑这项技术;他们将其比作神,比作有知觉的生命。你对此有何感想?

霍尔兹:有一段时间,我一直试图弄清楚“Midjourney的AI图像生成器是什么”因为你可以说它就像一个“想象力的引擎”,但还有其他的东西。第一个诱惑是通过艺术的镜头来看待它,并且发问:这像摄影的发明吗?因为当照片被发明出来的时候,绘画变得更奇怪了,因为任何人都可以拍一张脸,所以我为什么要在现在画这幅画?

真是这样吗?不,不是那样的。这绝对是新鲜事物。现在,这感觉就像引擎被发明出来。就像,你每分钟都在制造一堆图像,你沿着想象的道路翻涌,这感觉很好。但如果你再往前走一步,不是一次拍四张照片,而是拍一千张或一万张,那就不一样了。将来有一天,我这样做了,我在几分钟内拍了4万张照片,突然之间,我面前有了这么广阔的大自然,我花了4个小时才全部看完,在这个过程中,我感觉自己快要淹死了。我觉得自己像个小孩子,看着水池的深处,知道自己不会游泳,却能感觉到水的深度。突然之间,Midjourney感觉不像引擎,而是像一股洪流。我花了几周的时间来消化,我想了又想,然后我意识到:你知道吗?这实际上就像水。

现在,人们完全误解了AI到底是什么。他们把它看成凶猛而危险的老虎,它可能会吃掉我们。当然,水也有危险,你可能会被淹死,但奔流的河水带来的危险和老虎带来的危险完全不同。你可以在水里游泳,可以造船,可以在水里筑坝发电。水是危险的,但它也是文明的驱动力,懂得如何与水共处和利用水的力量让人类过得更好。这是一个机会,它没有意志,没有恶意,是的,你可能淹死在里面,但这并不意味着我们应该禁水。当你发现了新的水源时,这真的是一件好事。

问:Midjourney是新的水源吗?

霍尔兹:当然!我认为作为一个物种,我们已经发现了一种新的水源,而Midjourney试图弄清楚的是:我们如何利用它为人们服务?我们怎么教人们游泳?我们怎么造船?我们怎么把它堵起来?我们如何从害怕溺水的人变成未来冲浪的孩子?我们是在制造冲浪板,而不是制造水。我认为这里面有些深刻的东西值得探索。 (金鹿)

关键词: 大卫霍尔兹说AI图像生成技术是水 会成为人类文明发展的