AI艺术有什么独特之处?
目录
- 什么是AI生成图像和生成式机器学习?
- AI生成图像的独特之处
- GAN:生成对抗网络
- WikiGAN和Clip算法
- Semiotics:符号学重要性
- AI生成图像的局限性
- WikiGAN与Rudely的对比
- AI生成图像的创作应用
- 角色设计
- 与3D技术结合
- 图像合成与Photoshop
- 创作与故事结合
- 其他艺术家和品牌的应用案例
- AI生成图像的潜在滥用
- 结尾
AI生成图像的独特之处 🖼️
最近我一直在思考AI生成图像和生成式机器学习的特殊之处。它所创造的图像是如此神秘,你可以辨认出它是粉丝艺术,是一种受喜爱的角色,但仔细观察,你却无法辨认出通常应该存在的形状或形式。这些图像都是通过给AI一个文字提示,根据文字的含义,AI生成一个可以代表该句子或单词的图像。我已经在这个生成式机器学习领域进行了一年多的研究,并希望制作一个视频来阐述我的想法,谈谈这个工具的独特性以及为什么我认为它终于是一种令人耳目一新的新事物,我们可以使用和实验,并进行探索。
首先,我要使用术语AI、算法、机器学习等来定义我们所指的同一概念。我知道它们之间有微妙的区别,也许智能并不是最好的方式来引用它,但是为了更好地理解视频,我将仍然使用它们。我们将谈论GAN(生成对抗网络),这是一种从2014年开始出现的技术。这些年来有过几种变体,Steigenberg再次骑自行车,基本上是一种生成图像的算法。它的工作方式是通过拥有大量图像的数据集。如果我们给它很多我的脸的照片,都是同一个姿势,那么它将能够模拟并生成一个在特定姿势下的我的脸的图像。GAN的工作方式始终是相同的结构:始终有生成器和判别器,它们是两个不同的AI一起工作,或者也可以说是互相对抗的,因为它们是对手,就像GAN的名字所暗示的那样。生成器起初会生成一些随机噪声,因为它什么也不知道,判别器则会理解生成器产生的图像与它在数据集中的图像不同。因此,它会向生成器提供反馈,生成器会再次尝试。经过多次迭代和尝试,生成器会变得非常擅长理解判别器的要求,通过不断重复这个过程,算法能够生成一张看起来像我们给定的图像的图片。当然,这比我描述的要复杂得多,我也不是程序员,但这只是一个简单的理解它背后逻辑的方式。
我们已经了解到,GAN是基于特定类别的数据集运作的,如果给它许多相同图像的数据,它就能够创建具有特定特征的图像。但如果有一种方法,可以同时生成任何东西呢?确实有这样的方法,这就是WikiGAN-Clip,这是我们今天将重点讨论的主要算法。
WikiGAN和Clip算法 🎨
WikiGAN是由WikiGAN和Clip两个算法组成的。Clip是由OpenAI开发的算法,可以识别图像中的内容,并为图像提供文本描述。它所知道的事物的种类基本上是无限的,因为它是通过对Web上的图像及其描述进行训练而得到的。因此,它非常擅长识别任何类型的事物。之所以WikiGAN-Clip如此受欢迎,是因为人们可以免费在Google的Collab笔记本上使用它。Collab笔记本是Google提供的一项服务,而这个笔记本是由这些开发人员编写的,它为任何人提供了使用它来生成图像的可能性。
那么我们可以用WikiGAN-Clip生成什么呢?基本上可以生成任何我们可以用语言表示的事物。这真正突出了语言和单词的重要性,因为它与符号学有着很大的关联。符号学是研究符号如何携带意义的科学,对于这种工作来说非常重要,因为它让我们意识到,语言和我们使用语言的方式承载着意义,这取决于我们创建的句子。因为WikiGAN-Clip不仅擅长创建某种物理概念的表达,还擅长表示抽象的情感和感觉,这并不像你想的那样直截了当。我们如何教机器学习来学习所有这些复杂的事物,我们人类自己也不完全理解。机器不像我们一样理解符号学,它们没有清晰的分类方式,也许与我们的分类方式相比,更模糊。算法通过自己的方式建立这些联系并理解我们理解单词的方式,我喜欢将其看作是它能够以梦幻般的、思绪般的形象给我们展示我们熟知的事物的本质。它把它提炼到它的纯粹形式中,许多时候图像的构图并不合理,但当你看到它时,你完全可以认出它是什么,在第一眼就能认识到,但是如果你仔细观察,你就不会真正看到你以为你看到的东西。
对于这种生成式机器学习科技的技术进展,当然也要承认它也有其局限性。它的限制是基于它所训练的数据集。我之前说过数据集是巨大的,无限的,包含了互联网上的所有数据,因此这似乎是无限的,但实际上它所能表示的概念是有限的。数据集仅包含2019年之前的数据,它不理解我们对疫情的想象。这就是为什么如果我们要它生成与疫情相关的内容,它不会给出我们心目中想要的结果的原因。这是有道理的,如果它没有相关信息,那么它不会知道这个事物,并且在这样的前提下,它也不会了解关于这个事物的任何信息。还有一个例子是当我尝试让它生成我所在地的一家知名品牌的名称时,我以为这个品牌足够出名以至于被包含在数据集中,但显然不是的。这个品牌的名称是"loaca",也许你知道它,也许不知道,但我认为它足够出名以至于能够被包含在数据集中。但是当我让它生成"loaca"时,我得到的却是一个非常恶心的舌头图片,以及一个房间里头发乱七八糟的男孩。这让我着实搞不懂,如果我再让它生成一次这个名字,它会再次以不同的方式生成那些相同的主题的图片。它以某种方式建立了这个词与那些特定类型的图像之间的关联,而我不知道为什么它会这样做。这使我相信,在这个领域中可以做很多研究,探索那些以前从未想过要放入的术语。你会发现与此相关的一些非常有趣的图像,如果你从来没有搜索过那个特定的词,那你就永远无法找到它。
另一个我喜欢谈论的与符号学和图像背后的意义有关的例子是,当我告诉AI生成嫌疑犯的照片时,每次我让它生成一张嫌疑犯的照片,它都会在照片里加上一些咖啡渍。这可能是因为"mark"这个词在"mugshot"这个词里比实际的"mugshot"这个词更有重量,可能是因为它误解了,它在图像中看到了"mark"这个词并做出了我们不希望它做出的假设。我不知道为什么它会这样做,但对于它为什么这样做,我很感兴趣。这可以让我们思考这个领域中的哪些偏见,并且了解它对我们人类的意义。因为AI所做的只是模拟我们作为人类给事物和概念赋予意义的方式。
另一个我喜欢讨论的局限性是风格和图像的可视化,并没有那么真实,以至于可以欺骗人们相信它是真实的,或者至少不总是如此。有另一个算法叫做Rudely,它在这方面要好得多。它是一个由俄罗斯达利(Dali)开发的算法,而且并不是开源的。你可以在它的网站或使用Telegram机器人使用俄罗斯达利。Rudely比WikiGAN-Clip在这方面做得更好。现在,一些人在技术层面上认为这是我们未来应该追求的方向,我们正在以此为目标。例如,Zalando已经尝试使用GAN来创建穿着所选择衣物的逼真人物形象。你基本上可以为你想要的人物穿上衣服,并生成逼真的图像。但我认为这相当无聊和商业驱动,我对此不太感兴趣。我认为WikiGAN-Clip更有趣,因为它有限制,有它的优点。我个人的解释是,它非常擅长创造超现实的图像。所谓超现实,是指约翰·鲍德里亚在他的著作中所使用的术语。他将其定义为这种新的现实,这种新的现实来自于我们的现实被电视、现在是智能手机和电脑等屏幕所中介。例如,现在我们打电话是视频通话变得非常普遍,我们习惯了进行视频通话,我们一边打电话一边觉得自己正在与一个真实的人交谈,实际上你在做什么是与身前的计算机交谈,屏幕给你提供了光亮,你听到的声音是经过数字化处理的。所有这些东西都试图欺骗你相信你正在与一个真正的人进行真正的对话,但事实上存在着许多计算机在其中介导致了整个体验的变化。约翰·鲍德里亚说,“超现实不再是模仿、重复甚至是拙劣模仿的问题,而是要用真实的符号替代真实本身,真实无需再被再度产生。”他将超现实定义为由于数字图像的普及而产生的新现实的事物。
我的观点是,WikiGAN-Clip真正创造了超现实的图像,这些图像让你有一种认识到你在看什么,它是你熟悉的事物的一种形象化、表达,但当你仔细观察时,你会明白它并不是那样。它并不试图成为它不是的东西,不像我们通常使用的数字图像,例如下面这张图像,它试图欺骗你相信我确实在那里与你交谈,但实际上这只是一种对比于它们的真实性的方式。WikiGAN-Clip图像知道自己是什么,它们不会试图成为其他东西,它们的人工性质使我们意识到我们今天的世界是如何被媒介化的。
个人认为,AI可以成为伟大创意作品的工具。关于这是否是艺术的问题,因为它是由人类创建的,或者是否不是艺术,因为它是由机器创建的。这让我想起了一个由Lily Alexandre创作的一部非常棒的视频,我在下面放了链接。我从中得出的结论是,它不仅仅是我们使用的一种工具,就像我们使用一支笔和一张画布一样,但与此同时,这些机器自己不做任何事情,我们对它的作品进行自己的解释,因此,我认为这种AI应该被看作是一种伴侣,它能帮助你和你在艺术实践和创造性爱好中进行合作。如果我们进一步发展并将它应用于其他媒介,将故事性融入其中,或者通过将其融入其他媒介来增强它们,那么我们作为人类就有了更多的主动性,并且我们可以更好地看到两者之间的合作。
我现在想与你分享一些我个人使用这种AI的方式,以及其他人是如何运用它的。个人而言,我使用WikiGAN-Clip来进行角色设计,因为这是我最感兴趣的领域之一。我将这些图像实现到3D设置中,将图像作为纹理应用于3D对象。在这种角色设计中,我有很多主动性,因为我决定了形状和所需创建的环境。正如你所看到的,我尝试给这些角色添加动画,让它们更加栩栩如生。在决定什么是形状和什么不是形状时,因为WikiGAN-Clip的图像不太明确,我也尝试使用Photoshop进行图像合成,例如生成不同物体和事物的某些组合,然后将它们拼凑在一起,看看会得到什么结果。另一种我玩弄它的方式是通过增强我的动画,例如我的"Lost Japanese Video Game"视频中,我使用了它来生成Logo和一些镜头,这为它带来了特定的外观,我非常喜欢这一点。我看过Instagram上一位名叫Zybridge Studio的人的作品,很感谢他,因为我第一次接触到WikiGAN-Clip,并找到了可以通过它进行实验的笔记本,他是一位3D动画师,他做了一些很酷的东西,在Instagram上发布了一些他与GAN-Clip合作的视频,其中一些视频很吸引我的注意,他在视频中将动物和自然的图像与数字技术的本质进行了对比,然后在上面应用了WikiGAN-Clip的滤镜,使它们都看起来一样,让它们看起来好像属于自然的一部分。我认为这是一种非常有趣和发人深思的用法。
还有一个名叫Cold Cash 3D的人,我真的需要非常感谢他,因为他是我最开始接触WikiGAN-Clip并找到笔记本进行实验的人。他是一名3D动画师,做了一些非常酷的事情,他在Instagram上有时会发布一些他使用GAN-Clip制作的视频,其中一个视频尤其引起了我的注意,他将动物和自然的图像与我们数字技术的本质进行对比,并在它们上面应用WikiGAN-Clip的特定滤镜,使它们都看起来一样,并且看起来好像是自然的一部分。我认为这是一种非常有趣和发人深思的用法。
此外,还有一个叫做Monolama的品牌,它使用AI生成的图像制作徽章。这些徽章属于他们的神经网络系列,这其中其实也有很多人的自己的解释,因为他们需要简化图像才能制作成徽章。我相信还有很多艺术家在使用WikiGAN-Clip来增强他们的作品和艺术,如果你有其他有趣的用法或者你是使用这种方法的人,请在评论区告诉我,我很想看看你们的作品。
好了,让我们来谈谈AI生成图像的潜在滥用问题。我引用了一些人将AI生成图像贩卖成NFT的例子,并试图成为百万富翁之类的。作为NFT出售这样的艺术是可以接受的,但你不能仅仅创造大量的垃圾并称之为艺术。我认为这给那些真正使用这种生成式机器学习来实验和创造的创意人群蒙上了一层阴影。我正在谈论那些使用它来创建图像并将其作为NFT销售以快速获取利益的人们,这使外界的人们相信这是一种快速获得利益的简单方法,将艺术品出售并赚钱。这实际上也是我创建此视频的原因之一,因为我认为这种工具有着极大的潜力和创作力,看到人们以这种方式滥用它是非常伤心的。
我还认为,再过几年,大约五到十年左右,这种工具将成为主流,每个人都可以在手机上使用它,并且它将比现在更受限制和限制,我相信我已经看到了一些提供此类服务的应用程序和网站。通常这些服务你需要付费,或者可能在你对图像的实际控制上有一些限制,最终导致了相信使用它只能有限制的事物,我们有了它的能力并且认为我们只能在有限的范围内使用它,因此现在是时候深入挖掘,看看我们能做些什么了。
非常感谢您能一直看到现在观看这个视频,我非常欣赏。我认为探索这些领域非常有趣,我在下面提供了之前提到过的内容的所有信息,如果你想与我联系、看看我用WikiGAN-Clip做了些什么,请查看我的网站[链接],好了,就是这样。