AI图像生成的荒谬现状

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN AI图像生成的荒谬现状

AI图像生成的荒谬现状

人工大V在当今社交媒体平台上已变得非常流行，甚至有一名拥有270万粉丝的Instagram模特，而她只是一个虚构的人物。尽管使用的技术并不新鲜，但仅仅几年时间，这种技术就能让一个AI账号获得如此多的关注，这让我开始质疑那些运营假AI影响力账号的人到底在不在努力。我们已经见证了文本生成AI图像的发展历程，从两年前美丽却难以理解的图像开始，到一年后迎来了大胸女性插图的热潮，再到六个月前出现了极度逼真的亚洲面孔。AI图像生成的能力正在不断提升，可能会在未来几年成为你值得关注的领域，这样你就不会意外地为一个看似真实的人物投入资金。

2. AI生成图像的发展历程 📈

AI生成图像的技术正在不断发展，其应用前景日益广阔。让我们回顾一下过去几年中AI生成图像的发展历程。两年前，我们首次看到了美丽但难以理解的图像，这引起了人们的浓厚兴趣。一年后，大规模的插图热潮掀起了对该领域的关注。六个月前，出现了极度逼真的亚洲面孔，并且相比几年前，图像的质量有了质的飞跃。现在，AI不仅能够生成逼真的面孔，还能生成整个图像，包括光照、阴影、颜色甚至相机镜头效果。因此，与其让一个3D Blender角色向您推销软糖，不如关注AI图像生成的潜力，以免意外地将资金浪费在虚拟人物身上。

3. 模型混合与融合技术 🔄

模型混合技术是将几种优秀的模型合并在一起，通过联合训练生成一种能够产生更多美学图像的模型。这种模型能够学习特定的风格、脸型、服装类型甚至任何文本描述所能描述的内容。通过少量的训练图像，AI现在能够生成几乎任何您无法想象的事物。虽然还有一些更复杂的模型混合和融合技术，但它们使用的技术大致相同，而且大多数流行的技术都对它们的真正构建方式非常保密。然而，Laura已经演变出多种不同形式，具有不同的优缺点，其中一个版本叫做"licorice"，这是一个对动漫叫《拉曲热恋》中的动漫女孩版本的引用。这个方法正在AI图像生成领域悄然兴起并逐渐受到欢迎。

4. 大师级AI生成图像技术 🌟

AI生成图像的技术超越了简单地学习某人的艺术风格并复制它们。目前，图像生成技术已经发展到可以生成极具创造力的作品。在AI图像生成领域，Laura的应用已经远远超出了人们的预期。它被用于生成拍立得图像效果、提升对比度、修复图像光照等。Laura的应用已经超越了学习某人的艺术风格这个简单概念。那么，Laura和技术展示反转之间有何区别？简单来说，Laura能够理解概念和触发词之间的联系，并具备编辑生成噪声的能力，而文本反转只是将触发词转化为模型可使用的数字。因此，Laura可以自由应用于任何模型，因为它理解其触发词，而文本反转在模型之外无法保证有效性。一些人在创建所需输出时，使用了多种不同的Laura和负向文本反转，例如Easy Negative或Bad Hands。这使得文本提示在图像生成中看起来像乱码，而不是真正描述某物。然而，请放心，情况会变得更糟。文本生成图像已不仅仅是从文本到图像的转换，而是像文本加上其他20个扩展，以获取更好的结果。

5. Laura的新型演变 💫

Laura在AI生成图像领域已经演变出了多种不同形式，具有不同的优点和缺点。事实上，Laura的发展超越了预期。其中一个新型演变是低空（locon），该版本不仅训练了转换器块（即绿色部分），还训练了ResNet块（即黄色部分）。通常情况下，我们会训练ResNet块来改变去噪流的某些数学属性，例如噪声偏移或金字塔噪声。与Laura相比，Locon在训练过程中保留了原始参考图像的某些细节。因此，可以说Locon具有更好的身份保留机制。另一个新型演变是洛哈（Loha），它将两个Laura合并为一个模型，使用了一种称为Hadamard乘积的方法。从理论上讲，Loha比Laura具有更好的表达能力。更令人兴奋的是，Loha更擅长将风格与特定角色相结合，可以说Loha在训练风格方面比Locon更强大。尽管它们之间的差异可能很微小，但仍然可以明显地区分出来。已经有更多的方法出现，如Locker和Dilora，但在这一点上已经有太多类似方法了，并且没有太多的重要性。所以，它们被作为一个集体来对待。

6. Sdxl的革命性突破 🌠

最近，Stability AI发布了Sdxl，它是基于1024x1024分辨率的新基础模型，并配备了内置的细节修复器。Sdxl可能会彻底改变AI生成图像的格局，在未来几个月内产生深远影响。受限于硬件设备，目前Sdxl在运行时对于内存小于8 GB的计算机而言仍然有些困难。即使能够运行，它每分钟只能生成一张图像，这与原来运行5个Laura和10个其他扩展的SD 1.5相比，速度极慢。然而，如果你有一块390或以上的GPU，你将有机会体验Sdxl的伟大之处。它还使用了TensorRT进行了优化，因此我们很快就会看到速度的进一步提升。不过，值得注意的是，与Mid Journey V5一样，Sdxl通过滥用虚化效果来生成这些准伪造的逼真图像，将背景完美而方便地模糊掉，这通常是判断AI模型好坏和图像真实性的一个快速线索。这使得它能够给观众营造出完全的景深效果，使人们误以为质量更高。然而，这可能会影响到对模型的评估，因为大多数情况下，模型评估是基于用户评级的。如果将图像的瑕疵或细节问题融入到图像的初步印象中，模型就会偏向于那种生成方式，这只会让人们在审美上满意，而不是在生成细节方面具有实际能力。因此，当我们看到分辨率如此之高、逼真度极高的AI生成图像时，要注意其中可能存在的局限性。

7. 控制网和细节增强 🗝️

对于生成如此高分辨率的Sdxl，一些工具已经被应用了起来，用于修复和改善图像的主要特征，比如人脸、手部甚至身体。其中之一就是After Detailer，它是一种自动绘画工具，可以帮助你修复单独提供的细节。在生成主要图像后，它将改善这些区域。而对于未被修复或改善的图像部分，ControlNet Tile则会派上用场。在ControlNet Tile的辅助下，通过文本提示，它会以不同的切片对图像进行放大处理，以便知道它正在放大处理的是什么，并生成与更大图像相关的细节。令人惊叹的是，随着画布的变大，也需要更多的细节来填补。因此，动态阈值处理是一种让用户获得比正常更高分辨率的CFG比例的技术，以便AI能够创建更符合输入提示的图像，而不会完全变成一幅现代艺术作品。然而，当画布很大时，如何确保您的提示不会互相干扰？我们之前谈到过潜在耦合，可以将图像分成不同的区域，并根据需要进行提示。除此之外，还有一个叫做"break"的关键词，它可以将提示分成不同的块，这样描述一个事物时就不会干扰到另一个主题。然而，提示越长，模型错过的信息就越多，所以在灌输关键词和培养生成图像质量之间需要取得很好的平衡。然而，一个月前发布了Sdxl，带来了一线希望，并让我们有望回到一个更简单的时代。要运行Sdxl在GUI上，目前可能会遇到一些问题，大部分开源GUI没有加载扩展的能力。目前最稳定的GUI是Comfy UI，但Sdxl的作者特意为Sdxl开发了一种名为"Focus"的GUI，它有一个非常有趣的设定。与其他现有GUI完全相反，Focus专注于以尽可能短的提示生成高质量的图像。Focus已纳入了一些最先进的图像生成方法，正如我今天所提到的那些方法。你甚至不能选择自己的取样器或CFG值，这可能会受到一些人的厌恶。然而，对于新手来说，这绝对是一个很好的方式来开始体验Sdxl的伟大之处。怎么样，你对这位天才创建了一个高度优化的Sdxl GUI，并在几周内就做到了这一点，感到非常吃惊呢？

8. 文本到图像的变革 🚀

文本到图像的生成已经不再是简单的模式。事实上，在经过各种改进和扩展后，它更像是文本加上其他20个扩展，以获取更好的结果。当你看到如此高分辨率的AI生成图像的时候，它并不是直接从模型中生成的，而是经过一系列后期处理和优化的。当你看到这些主要特征如此真实的图像时，其中并不是单单通过微调模型和应用一些Lora就能够实现的。比如像After Detailer这样的工具经常用于改善图像的主要特征，比如面部、手部甚至是身体。ControlNet Tile则可以帮助处理其他未被修复或改善的图像部分。我之前在"ControlNet 1.1"的视频中简要提到了ControlNet Tile，但简单来说，它就是对超分辨率控制网络模型进行了切片放大处理，通过文本提示帮助生成与较大图像相关的细节。在这种方法下，根据图像的大小，需要更多的细节来填充画布，所以动态阈值处理是一个非常重要的技术。它可以让用户获得比正常更高CFG比例的技术，使AI创建更符合输入提示的图像。然而，文本生成图像已经不再是简单的文本到图像的转换。它更像是文本加上其他20个扩展，以获取更好的结果。

9. Sdxl的未来发展 📊

Sdxl作为一种新的基础模型，在发展初期已经引起了人们的浓厚兴趣，尤其是它的高分辨率特性。然而，目前Sdxl还处于一个相对不太适用于大多数人的阶段，因为它在8 GB的显存计算机上运行仍存在困难，而且即使能够运行，它每分钟只能生成一张图像，与之前运行SD 1.5的5个Laura和10个其他扩展相比，速度极慢。然而，如果你有一块390或以上的GPU，你将有机会体验Sdxl的伟大之处。而且据传它已经实现了tensor RT，因此我们很快就会看到进一步的速度提升。然而，需要注意的是，与先前的技术相比，Sdxl使用虚化效果来生成逼真图像，这可能会导致模型在生成方面的评估存在偏见。因此，我们需要更加审慎地评估模型的实际能力。

10. Focus GUI的创新理念 💡

Sdxl的发布使人们对该技术的未来发展充满了期待，因为它具有潜力改变整个AI生成图像领域。然而，目前针对Sdxl的扩展开发进展较慢，因为人们还没有找到合适的参数，尤其是针对这个庞大且昂贵的模型而言。因此，在接下来的几个星期里，我们可能不会听到太多的重大突破。同样地，Wifey Diffusion也面临着类似的挑战，因为它也在努力寻找合适的参数，但他们的一些早期测试结果还是给人一些希望，尤其是在整个调优过程中仅完成了大约10%，就已经超过了Waifu Diffusion 1.5。请记住，这将是未来所有Sdxl动画模型的基础模型，就像Waifu Diffusion 1.5为所有未来Sdxl动画模型打下了基础一样。所以，我们肯定可以期待看到更多令人印象深刻的结果。对于那些无法运行Sdxl的人来说，这是一个良好的方向。