AI图像生成的荒谬现状
目录
- 人工大V和AI影响力
- AI生成图像的发展历程
- 模型混合与融合技术
- 大师级AI生成图像技术
- Laura的新型演变
- Lora变种探索
- Sdxl的革命性突破
- 控制网和细节增强
- 文本到图像的变革
- Sdxl的未来发展
- Focus GUI的创新理念
1. 人工大V和AI影响力 👩💼
人工大V在当今社交媒体平台上已变得非常流行,甚至有一名拥有270万粉丝的Instagram模特,而她只是一个虚构的人物。尽管使用的技术并不新鲜,但仅仅几年时间,这种技术就能让一个AI账号获得如此多的关注,这让我开始质疑那些运营假AI影响力账号的人到底在不在努力。我们已经见证了文本生成AI图像的发展历程,从两年前美丽却难以理解的图像开始,到一年后迎来了大胸女性插图的热潮,再到六个月前出现了极度逼真的亚洲面孔。AI图像生成的能力正在不断提升,可能会在未来几年成为你值得关注的领域,这样你就不会意外地为一个看似真实的人物投入资金。
2. AI生成图像的发展历程 📈
AI生成图像的技术正在不断发展,其应用前景日益广阔。让我们回顾一下过去几年中AI生成图像的发展历程。两年前,我们首次看到了美丽但难以理解的图像,这引起了人们的浓厚兴趣。一年后,大规模的插图热潮掀起了对该领域的关注。六个月前,出现了极度逼真的亚洲面孔,并且相比几年前,图像的质量有了质的飞跃。现在,AI不仅能够生成逼真的面孔,还能生成整个图像,包括光照、阴影、颜色甚至相机镜头效果。因此,与其让一个3D Blender角色向您推销软糖,不如关注AI图像生成的潜力,以免意外地将资金浪费在虚拟人物身上。
3. 模型混合与融合技术 🔄
模型混合技术是将几种优秀的模型合并在一起,通过联合训练生成一种能够产生更多美学图像的模型。这种模型能够学习特定的风格、脸型、服装类型甚至任何文本描述所能描述的内容。通过少量的训练图像,AI现在能够生成几乎任何您无法想象的事物。虽然还有一些更复杂的模型混合和融合技术,但它们使用的技术大致相同,而且大多数流行的技术都对它们的真正构建方式非常保密。然而,Laura已经演变出多种不同形式,具有不同的优缺点,其中一个版本叫做"licorice",这是一个对动漫叫《拉曲热恋》中的动漫女孩版本的引用。这个方法正在AI图像生成领域悄然兴起并逐渐受到欢迎。
4. 大师级AI生成图像技术 🌟
AI生成图像的技术超越了简单地学习某人的艺术风格并复制它们。目前,图像生成技术已经发展到可以生成极具创造力的作品。在AI图像生成领域,Laura的应用已经远远超出了人们的预期。它被用于生成拍立得图像效果、提升对比度、修复图像光照等。Laura的应用已经超越了学习某人的艺术风格这个简单概念。那么,Laura和技术展示反转之间有何区别?简单来说,Laura能够理解概念和触发词之间的联系,并具备编辑生成噪声的能力,而文本反转只是将触发词转化为模型可使用的数字。因此,Laura可以自由应用于任何模型,因为它理解其触发词,而文本反转在模型之外无法保证有效性。一些人在创建所需输出时,使用了多种不同的Laura和负向文本反转,例如Easy Negative或Bad Hands。这使得文本提示在图像生成中看起来像乱码,而不是真正描述某物。然而,请放心,情况会变得更糟。文本生成图像已不仅仅是从文本到图像的转换,而是像文本加上其他20个扩展,以获取更好的结果。
5. Laura的新型演变 💫
Laura在AI生成图像领域已经演变出了多种不同形式,具有不同的优点和缺点。事实上,Laura的发展超越了预期。其中一个新型演变是低空(locon),该版本不仅训练了转换器块(即绿色部分),还训练了ResNet块(即黄色部分)。通常情况下,我们会训练ResNet块来改变去噪流的某些数学属性,例如噪声偏移或金字塔噪声。与Laura相比,Locon在训练过程中保留了原始参考图像的某些细节。因此,可以说Locon具有更好的身份保留机制。另一个新型演变是洛哈(Loha),它将两个Laura合并为一个模型,使用了一种称为Hadamard乘积的方法。从理论上讲,Loha比Laura具有更好的表达能力。更令人兴奋的是,Loha更擅长将风格与特定角色相结合,可以说Loha在训练风格方面比Locon更强大。尽管它们之间的差异可能很微小,但仍然可以明显地区分出来。已经有更多的方法出现,如Locker和Dilora,但在这一点上已经有太多类似方法了,并且没有太多的重要性。所以,它们被作为一个集体来对待。
6. Sdxl的革命性突破 🌠
最近,Stability AI发布了Sdxl,它是基于1024x1024分辨率的新基础模型,并配备了内置的细节修复器。Sdxl可能会彻底改变AI生成图像的格局,在未来几个月内产生深远影响。受限于硬件设备,目前Sdxl在运行时对于内存小于8 GB的计算机而言仍然有些困难。即使能够运行,它每分钟只能生成一张图像,这与原来运行5个Laura和10个其他扩展的SD 1.5相比,速度极慢。然而,如果你有一块390或以上的GPU,你将有机会体验Sdxl的伟大之处。它还使用了TensorRT进行了优化,因此我们很快就会看到速度的进一步提升。不过,值得注意的是,与Mid Journey V5一样,Sdxl通过滥用虚化效果来生成这些准伪造的逼真图像,将背景完美而方便地模糊掉,这通常是判断AI模型好坏和图像真实性的一个快速线索。这使得它能够给观众营造出完全的景深效果,使人们误以为质量更高。然而,这可能会影响到对模型的评估,因为大多数情况下,模型评估是基于用户评级的。如果将图像的瑕疵或细节问题融入到图像的初步印象中,模型就会偏向于那种生成方式,这只会让人们在审美上满意,而不是在生成细节方面具有实际能力。因此,当我们看到分辨率如此之高、逼真度极高的AI生成图像时,要注意其中可能存在的局限性。
7. 控制网和细节增强 🗝️
对于生成如此高分辨率的Sdxl,一些工具已经被应用了起来,用于修复和改善图像的主要特征,比如人脸、手部甚至身体。其中之一就是After Detailer,它是一种自动绘画工具,可以帮助你修复单独提供的细节。在生成主要图像后,它将改善这些区域。而对于未被修复或改善的图像部分,ControlNet Tile则会派上用场。在ControlNet Tile的辅助下,通过文本提示,它会以不同的切片对图像进行放大处理,以便知道它正在放大处理的是什么,并生成与更大图像相关的细节。令人惊叹的是,随着画布的变大,也需要更多的细节来填补。因此,动态阈值处理是一种让用户获得比正常更高分辨率的CFG比例的技术,以便AI能够创建更符合输入提示的图像,而不会完全变成一幅现代艺术作品。然而,当画布很大时,如何确保您的提示不会互相干扰?我们之前谈到过潜在耦合,可以将图像分成不同的区域,并根据需要进行提示。除此之外,还有一个叫做"break"的关键词,它可以将提示分成不同的块,这样描述一个事物时就不会干扰到另一个主题。然而,提示越长,模型错过的信息就越多,所以在灌输关键词和培养生成图像质量之间需要取得很好的平衡。然而,一个月前发布了Sdxl,带来了一线希望,并让我们有望回到一个更简单的时代。要运行Sdxl在GUI上,目前可能会遇到一些问题,大部分开源GUI没有加载扩展的能力。目前最稳定的GUI是Comfy UI,但Sdxl的作者特意为Sdxl开发了一种名为"Focus"的GUI,它有一个非常有趣的设定。与其他现有GUI完全相反,Focus专注于以尽可能短的提示生成高质量的图像。Focus已纳入了一些最先进的图像生成方法,正如我今天所提到的那些方法。你甚至不能选择自己的取样器或CFG值,这可能会受到一些人的厌恶。然而,对于新手来说,这绝对是一个很好的方式来开始体验Sdxl的伟大之处。怎么样,你对这位天才创建了一个高度优化的Sdxl GUI,并在几周内就做到了这一点,感到非常吃惊呢?
8. 文本到图像的变革 🚀
文本到图像的生成已经不再是简单的模式。事实上,在经过各种改进和扩展后,它更像是文本加上其他20个扩展,以获取更好的结果。当你看到如此高分辨率的AI生成图像的时候,它并不是直接从模型中生成的,而是经过一系列后期处理和优化的。当你看到这些主要特征如此真实的图像时,其中并不是单单通过微调模型和应用一些Lora就能够实现的。比如像After Detailer这样的工具经常用于改善图像的主要特征,比如面部、手部甚至是身体。ControlNet Tile则可以帮助处理其他未被修复或改善的图像部分。我之前在"ControlNet 1.1"的视频中简要提到了ControlNet Tile,但简单来说,它就是对超分辨率控制网络模型进行了切片放大处理,通过文本提示帮助生成与较大图像相关的细节。在这种方法下,根据图像的大小,需要更多的细节来填充画布,所以动态阈值处理是一个非常重要的技术。它可以让用户获得比正常更高CFG比例的技术,使AI创建更符合输入提示的图像。然而,文本生成图像已经不再是简单的文本到图像的转换。它更像是文本加上其他20个扩展,以获取更好的结果。
9. Sdxl的未来发展 📊
Sdxl作为一种新的基础模型,在发展初期已经引起了人们的浓厚兴趣,尤其是它的高分辨率特性。然而,目前Sdxl还处于一个相对不太适用于大多数人的阶段,因为它在8 GB的显存计算机上运行仍存在困难,而且即使能够运行,它每分钟只能生成一张图像,与之前运行SD 1.5的5个Laura和10个其他扩展相比,速度极慢。然而,如果你有一块390或以上的GPU,你将有机会体验Sdxl的伟大之处。而且据传它已经实现了tensor RT,因此我们很快就会看到进一步的速度提升。然而,需要注意的是,与先前的技术相比,Sdxl使用虚化效果来生成逼真图像,这可能会导致模型在生成方面的评估存在偏见。因此,我们需要更加审慎地评估模型的实际能力。
10. Focus GUI的创新理念 💡
Sdxl的发布使人们对该技术的未来发展充满了期待,因为它具有潜力改变整个AI生成图像领域。然而,目前针对Sdxl的扩展开发进展较慢,因为人们还没有找到合适的参数,尤其是针对这个庞大且昂贵的模型而言。因此,在接下来的几个星期里,我们可能不会听到太多的重大突破。同样地,Wifey Diffusion也面临着类似的挑战,因为它也在努力寻找合适的参数,但他们的一些早期测试结果还是给人一些希望,尤其是在整个调优过程中仅完成了大约10%,就已经超过了Waifu Diffusion 1.5。请记住,这将是未来所有Sdxl动画模型的基础模型,就像Waifu Diffusion 1.5为所有未来Sdxl动画模型打下了基础一样。所以,我们肯定可以期待看到更多令人印象深刻的结果。对于那些无法运行Sdxl的人来说,这是一个良好的方向。
FAQ
问题1: Sdxl是否能够在低配置计算机上运行?
回答1: 很遗憾,目前Sdxl在低于8 GB的显存计算机上运行还是有些困难。但很快我们可能会看到针对Sdxl的优化和改进,让更多的人可以体验到它的伟大之处。
问题2: Laura和Lora之间有什么区别?
回答2: Laura和Lora是AI生成图像领域中两个不同的模型,它们有不同的优点和特点。Laura在训练中保留了原始参考图像的一些细节,具有更好的身份保留机制。而Lora结合了两个Laura,具有更高的表达能力和更强大的风格融合能力。
问题3: Sdxl的未来发展前景如何?
回答3: Sdxl作为一个革命性的基础模型,具有巨大的潜力改变AI生成图像的领域。目前,虽然还存在一些技术和性能方面的困难,但随着时间的推移,我们有望看到更多的改进和优化。