【天天新要闻】大卫·霍尔兹说AI图像生成技术是水，会成为人类文明发展的驱动力

划重点

(资料图)

1世界上目前有几十种顶级的图像生成AI，它们的开发成本很高，而且需要大量数据进行训练；2名为Midjourney的小公司开发了同名AI图像生成器，希望在未来十年时间里对AI图像生成技术进行深度探索；3Midjourney将AI图像生成技术视为“想象力的引擎”，通过对语言的理解来创造图像；4Midjourney创始人认为，AI图像生成技术更像是水，尽管有时也存在危险，但依然是人类文明发展的驱动力。

腾讯科技讯 8月4日消息，人工智能（AI）生成的艺术品正悄然开始重塑文化。在过去几年里，机器学习（ML）系统通过文本提示生成图像的能力在质量、准确性和表达方面都有了显著的提高。现在，这些工具正从研究实验室转移到日常用户手中。当然，它们在创造出新的视觉表达语言的同时，也可能带来了新的麻烦。

目前，世界上只有几十种顶级的图像生成AI。它们开发起来很棘手，成本也很高，需要访问数以百万计的图像来训练系统(在图片中寻找模式并复制它们)，还需要进行大量的计算(其成本各不相同，最多可能需要消耗数百万美元)。

现在，当这些系统生成的图像出现在杂志封面上或被用来制造表情包时，它们大多被视为新奇事物。但艺术家和设计师正在将这类软件整合到他们的工作流程中，在很短的时间内，AI生成和AI增强的艺术将变得无处不在。关于版权的问题(谁拥有图像谁创造了它)以及潜在危险(如有偏见的输出或AI产生的错误信息)必须迅速处理。

不过，随着这项技术逐渐成为主流，名为Midjourney的10人研究实验室将能够在某种程度上为自己邀功。这家实验室通过Discord聊天服务器开发了同名的AI图像生成器。虽然很多人可能不太熟悉这个名字，但你可能已经在你的社交媒体上看到了Midjourney系统的输出。你只需加入Midjourney的Discord，输入某个提示，系统就会为你生成图片。

Midjourney创始人大卫·霍尔兹（David Holz）在接受采访时表示：“很多人问我们，为什么不开发能够生成图片的iOS应用程序？但人们想要共同创造内容，如果你在iOS平台上这么做，你就必须创造自己的社交网络。这很困难，所以如果你想要自己的社交体验，Discord真的很棒。”

注册一个免费帐户，你可以获得25积分，所有图片都是在公共聊天室生成的。之后，你将不得不支付每月10美元或30美元费用，这取决于你想制作的图像数量以及它们是否属于你的隐私。不过，本周Midjourney扩大了对其模型的访问，允许任何人用自己的AI图像生成器创建自己的Discord服务器。正如霍尔兹所说“我们正在从一个Midjourney宇宙走向Midjourney多元宇宙。”他认为结果将是令人难以置信的：AI增强创造力的迸发仍只是冰山一角。

霍尔兹日前接受专访，谈论了自己对Midjourney的雄心，比如他为什么要创建“想象力的引擎”，以及为什么他认为AI更像是水而不是老虎。

以下为专访全文：

问：你最好能首先介绍下你自己和Midjourney的情况。你的背景是什么？你是怎么卷进来的？Midjourney是什么，一家公司还是一个社区？你怎么形容它？

霍尔兹：我叫霍尔兹，我自认为是个连续创业者。我先简单介绍下自己：我高中时从事过设计工作，大学学的是数学物理。我在美国宇航局（NASA）和马克斯·普朗克实验室工作时，曾攻读流体力学博士学位。我一度感到很迷茫，把所有的事情都放在一边。于是我搬到了旧金山，在2011年左右创办了名为Leap Motion的科技公司。我们出售可以在手上做动作捕捉的硬件设备，并创造了很多手势界面空间。

我创立了Leap Motion，并运营了12年，但最终，我开始寻找不同的环境，而不是一家有风投支持的大公司，于是我选择离开并创办了Midjourney。现在，我们公司的规模还很小，大概只有10个人，没有投资人，也没有经济上的动力。我们没有出售东西或成为一家上市公司的压力。这只是为了在接下来的10年里有个地方，能让我们进行些很酷的项目。

我们在做很多不同的项目，这将是个广泛多样的研究实验室。但也有些主题，比如反思、想象和协调等方面的东西。我们开始以图像创作而闻名。我们不认为这真的是艺术或深度赝品，但是我们该如何扩展人类的想象力？这意味着什么？当计算机比99%的人类更擅长视觉想象时，这意味着什么？这并非意味着我们将停止想象。汽车比人类的速度更快，但这并不意味着我们停止步行。当我们长途运输大量物品时，我们需要引擎，无论是飞机、船只还是汽车都是如此。我们把这项技术看作是“想象力的引擎”，所以这是一件非常积极和有意义的事情。

问：许多实验室和公司正在研究将文本转化为图像的类似技术。谷歌有Imagen, OpenAI有DALL-E，还有些像Craiyon这样的小项目。这项技术从何而来，你认为它的未来走向如何，Midjourney的愿景与这个领域的其他人有何不同？

霍尔兹：AI已经有了两大突破，从而产生了图像生成工具。一个是理解语言，另一个是创造图像的能力。当你把这些东西结合在一起，你就可以通过对语言的理解来创造图像。我们看到了这些技术的出现，我们也看到了这些技术的发展趋势，他们在制作图像方面会比人类做得更好，而且速度会非常快。在接下来的一两年里，你将能够实时制作内容：每秒30帧，高分辨率。虽然很贵，但还是有可能的。然后，在10年内，你将能够购买带有巨大AI处理器的Xbox，所有的游戏都来自梦想。

从原始技术的角度来看，这些都是事实，没有办法回避。但从人类的角度来看，这到底意味着什么“所有的游戏都来自梦想，一切都是可塑的，我们将拥有AR头盔”——这到底是什么意思？所以其中的人文因素是深不可测的。而真正让我们可以使用的软件，完全还没有出现，我认为这才是我们的重点。

去年9月，我们开始测试原始技术，我们很快就发现了真正不同的东西。我们很快发现，大多数人都不知道自己想要什么。当你问道“这是一台机器，你可以用它想象任何东西，你想要什么”他们会回答说“狗。”你会说真的吗”他们选“粉红狗”。所以你给他们一张狗的照片，他们说“好的”，然后去做别的事情。

然而，如果你把他们放在某个群体里，他们会叫它“狗”，其他人则会叫“太空狗”或“阿兹特克太空狗”，然后突然之间，人们理解了各种可能性，你创造了这种增强的想象力：一个人们可以学习和测试这种新能力的环境。我们发现人们真的很喜欢一起想象，所以我们便创造了Midjourney的社交功能。我们有个巨大的Discord社区，它是最大的Discord社区之一，大约有100万人在共享空间里共同想象东西。

问：你认为这个人类集体和机器集体是平行的吗？作为对这些AI系统的一种平衡？

霍尔兹：其实并没有真正的机器集体。每次你让AI画一张图，它真的不记得或不知道它曾经画过的任何东西。它没有意志，没有目标，没有意图，没有讲故事的能力。所有的自我、意志和故事，都由我们控制。就像引擎一样，它不能自己决定去哪里，但人却可以。这有点儿像人类的蜂群思维，拥有超能力的科技。

在这个社区里，有100万人在制作图片，他们都在互相模仿。在默认情况下，每个人都可以看到其他人的图片。你必须支付额外的费用来退出社区。通常，如果你这样做了，这意味着你是某种类型的商业用户。所以每个人都在互相影响，从而出现了所有这些新的美学。这几乎就像审美加速主义，而不是AI美学。它们是新的、有趣的、人类美学，我认为它们将会传播到世界各地。

问：这种开放性也有助于确保安全吗？因为有很多关于AI图像生成器被用于生成潜在有害东西的讨论，比如血腥暴力图像和错误信息。你如何阻止这种情况发生？

霍尔兹：是啊，这太神奇了。当你把某个人的名字印在他拍的所有照片上时，他们在使用照片的方式上就会严格得多。这很有帮助。但不幸的是，我们有时还是会遇到些问题。举例来说，有人通过在社交媒体上引起愤怒来谋生，有人为隐私付费，然后花1个月的时间来创造最令人震惊的图像，然后试图在推特上发布它。然后我们必须坚定地说：这不是我们的目的，这不是我们想要的社区类型。

每当我们看到这类图片时，我们会立刻采取行动，必要时我们会进行封禁。我们还收集了许多不当词汇，并且禁止类似的东西。

问：那么真实的面孔呢？因为这是制造错误信息的另一个向量。这个模型能生成真实的脸吗？

霍尔兹：它会产生名人面孔之类的东西。我们有默认的风格和外观，它充满了艺术性，而且非常漂亮，很难被撼动，这意味着你现在不能真正强迫它做深度伪造。也许如果你花100个小时尝试，可以找到些正确的词语组合，使它看起来非常真实，但你必须非常努力地使它看起来像照片。就我个人而言，我不认为这个世界需要更多的深度赝品，但它确实需要更多美丽的东西，所以我们专注于让一切都变得美丽。

问：你从哪里得到模型的训练数据？

霍尔兹：我们的训练数据几乎与其他公司一样，都来自互联网。几乎每个大型AI模型都能获取它能获取的所有数据，包括文本和图像。从科学的角度来说，我们处在这个领域的早期阶段，每个人都能获得差不多的数据，它们被放在一个巨大的文件中，然后启动它来训练一些巨大的东西，没有人真正知道这堆数据中哪些是真正重要的。

例如，我们最近的更新看起来更好，你可能会认为我们是通过在训练数据中加入许多绘画来实现这一点。但是我们没有，我们只是根据人们(使用模型)的喜好来使用用户数据。没有人为艺术投入其中。但从科学角度来说，我们还处于非常非常早期的阶段。整个工作室可能只训练过24个这样的模型。所以这依然是实验科学。

问：训练你的模型花了多少钱？

霍尔兹：我想说的是，在这个领域的训练模型时，我不能透露具体成本，但我可以说些大致的东西。现在，每次训练图像模型大概要花5万美元。你不可能一次就成功，所以你必须尝试三次或10次或20次。有鉴于此，训练成本相当高昂。这比大多数大学的花费都要多，但也不至于贵到需要十亿美元或构造超级计算机的程度。

我相信训练和维护的费用都会降低，但现在运行它的成本实际上相当高。每张照片都要花钱，每张图片都是在价值2万美元的服务器上生成的，而我们必须按分钟租用这些服务器。我认为，从来没有任何服务能够让消费者在15分钟内不加思考地使用数千万亿次操作。我想说，它比普通消费者接触过的任何东西都有更强大的计算能力，这可能是它的10倍。这其实有点儿疯狂。

问：说到训练数据，一个有争议的方面是所有权的问题。美国现行法律规定，你不能对AI生成的艺术拥有版权，但我们不太清楚人们是否可以对用于训练数据的图像拥有版权。美工和设计师努力培养自己特定的风格，但如果他们的作品现在可以被AI机器人复制会发生什么？关于这个问题，你们讨论过很多次吗？

霍尔兹：我们的社区中确实有很多艺术家，我想说他们普遍对这个工具持积极态度，他们认为这将使他们提高效率，并大大改善他们的生活。我们不断地问他们“你还好吗？你感觉好吗？”我们也会在办公时间和1000个人一起录音，坐4个小时，回答问题。

很多使用这个平台的著名艺术家，他们都在说同样的事情，这真的很有趣。他们说：“我觉得Midjourney是一个艺术生，它有自己的风格，当你召唤我的名字来创作一幅图像时，就像让一个艺术学生从我的艺术中获得灵感来创作一些东西。总的来说，作为一名艺术家，我希望人们能从我的作品中获得灵感。”

问：但这其中肯定存在着巨大的自我选择偏见，因为活跃在Midjourney Discord中的艺术家一定会为之兴奋。那些说“这是胡扯，我不希望我的艺术被这些巨大的机器吃掉。”你会允许这些人从你的系统中消失吗？

霍尔兹：我们还没有相关的流程，但我们愿意接受。到目前为止，我想说这里没有那么多艺术家。这并不是一个深度的数据集。而那些成功的人给我们的答案是，“我们并没有被这个吓倒”。现在，它仍处于新生期，我认为随机应变和保持活力更有意义。所以我们一直在和人们交谈。事实上，我们现在从艺术家那里得到的第一个要求是，他们希望它能更好地窃取他们的风格，这样他们就能更好地将其作为自己艺术流程的一部分。这让我很惊讶。

其他的AI图像生成器可能会有所不同，因为它们试图让某些东西看起来像完全真实的东西。但我们有更多的默认风格，所以它真的看起来像一个艺术学生受到其他东西的启发。我们这样做的原因是，你总是有默认值，如果你说“狗”，我们可以给你一张狗的照片，但那很无聊。从人类的角度来说，你为什么要这样？转到谷歌图像搜索，我们试图让东西看起来更有艺术感。

问：这是你在对话中提到过几次的东西，Midjourney的默认艺术风格，我真的很着迷于这个想法，每个AI图像生成器都是自己文化的缩影，有自己的偏好和表达。你如何描述Midjourney的独特风格，你是如何有意识地发展它的？

霍尔兹：这有点儿特别！我们尝试了很多东西，每次我们尝试新的东西，我们渲染出一千张图片。这并不是真正的意图，它应该看起来很漂亮。它应该对具体的事情和模糊的事情做出反应，我们绝对不希望它看起来只像照片。我们可能会在将来的某个时刻制作一个现实版本，但我们不希望它是默认的。完美的照片现在让我有点儿不舒服，尽管我可以理解为什么你可能想要更真实的照片。

我认为它的风格会有点儿异想天开、抽象和怪异，它倾向于以你可能不会问的方式融合事物，以令人惊讶和美丽的方式进行。它倾向于使用大量的蓝色和橙色，也有自己最喜欢的颜色和面孔。如果你给它非常模糊的指示，它肯定会应用自己最喜欢的因素。所以，我们不知道接下来会发生什么，但它喜欢画某个特定的女人的脸，我们不知道它从哪里来，因此只能称它为“旅程小姐”。还有一个人的脸，有点方形，很有气势，他也出现过，但他还没有名字。但它就像有自己面孔和颜色偏好的艺术家。

问：说到这些默认值，图像生成领域的一个大挑战是处理偏见。有研究表明，如果你让某个AI图像模型生成CEO图像，可能会发现其总是白人男性形象；当你让它输出护士时，则以女性为主，而且通常是有色人种。你是如何应对这个挑战的？这是Midjourney所面临的大问题，还是那些想要从这些系统中盈利的公司所关心的问题？

霍尔兹：“旅程小姐”绝对是个问题，而不是一个功能，我们现在正在研究些东西，将尝试打破这些面孔，以便带来更多的变化。但这也有缺点。比如，我们有个版本，它完全摧毁了“旅程小姐”，但如果你真的想要阿诺德·施瓦辛格（Arnold Schwarzenegger）扮演丹尼·德维托（Danny DeVito），那么它也会完全摧毁这个要求。棘手的事情是在不破坏所有表达风格的情况下让它发挥作用。因为有个增加多样性的开关很容易，但很难只在它应该打开的时候才打开。我能说的是，用你想要的任何多样性来制作一张图片从来没有这么容易。

问：让我们稍微回顾一下，你已经说了很多，你不认为你在Midjourney所做的工作具有实用性。我的意思是，显然你已经亲身参与，但你的动机更抽象，主要是关于人类和AI之间的关系；关于我们如何以你所说的这种人文主义的方式使用AI。AI领域的一些人倾向于从最宏伟的角度来考虑这项技术；他们将其比作神，比作有知觉的生命。你对此有何感想？

霍尔兹：有一段时间，我一直试图弄清楚“Midjourney的AI图像生成器是什么”因为你可以说它就像一个“想象力的引擎”，但还有其他的东西。第一个诱惑是通过艺术的镜头来看待它，并且发问：这像摄影的发明吗？因为当照片被发明出来的时候，绘画变得更奇怪了，因为任何人都可以拍一张脸，所以我为什么要在现在画这幅画？

真是这样吗？不，不是那样的。这绝对是新鲜事物。现在，这感觉就像引擎被发明出来。就像，你每分钟都在制造一堆图像，你沿着想象的道路翻涌，这感觉很好。但如果你再往前走一步，不是一次拍四张照片，而是拍一千张或一万张，那就不一样了。将来有一天，我这样做了，我在几分钟内拍了4万张照片，突然之间，我面前有了这么广阔的大自然，我花了4个小时才全部看完，在这个过程中，我感觉自己快要淹死了。我觉得自己像个小孩子，看着水池的深处，知道自己不会游泳，却能感觉到水的深度。突然之间，Midjourney感觉不像引擎，而是像一股洪流。我花了几周的时间来消化，我想了又想，然后我意识到：你知道吗？这实际上就像水。

现在，人们完全误解了AI到底是什么。他们把它看成凶猛而危险的老虎，它可能会吃掉我们。当然，水也有危险，你可能会被淹死，但奔流的河水带来的危险和老虎带来的危险完全不同。你可以在水里游泳，可以造船，可以在水里筑坝发电。水是危险的，但它也是文明的驱动力，懂得如何与水共处和利用水的力量让人类过得更好。这是一个机会，它没有意志，没有恶意，是的，你可能淹死在里面，但这并不意味着我们应该禁水。当你发现了新的水源时，这真的是一件好事。

问：Midjourney是新的水源吗？

霍尔兹：当然！我认为作为一个物种，我们已经发现了一种新的水源，而Midjourney试图弄清楚的是：我们如何利用它为人们服务？我们怎么教人们游泳？我们怎么造船？我们怎么把它堵起来？我们如何从害怕溺水的人变成未来冲浪的孩子？我们是在制造冲浪板，而不是制造水。我认为这里面有些深刻的东西值得探索。（金鹿）

关键词：大卫霍尔兹说AI图像生成技术是水会成为人类文明发展的