Stable Diffusion Webui 常用模型概述(一)

Jul 31, 2023 10 min read

以下是关于 Stable Diffusion Webui 常用模型功能和使用的简介，包括 stable-diffusion-v1-5、mo-di-diffusion、Cyberpunk-Anime-Diffusion、Arcane-Diffusion、Openjourney v4、SamDoesArt-V3、Anything V5/V3、anything-v4.0 等模型

stable diffusion v1.5 模型:

stable-diffusion-v1-5 模型在自然图像生成和图像编辑方面表现很强,但在生成细节丰富和长文本到长图像生成方面还需要提高。该模型为后续图像生成模型的发展提供了很好的基础。

模型不能达到完美的真实感。它无法生成清晰的文字,也不能很好地生成更复杂的图像,如”一个红色的立方体放在一个蓝色的球体上”。
人脸和人物可能无法正确生成。
模型主要使用英语语料训练,对其他语言的效果不佳。
模型的自动编码部分有损耗。
模型使用大规模的数据集训练,其中包含成人内容,未经额外安全机制和考量不适合产品使用。
数据集中存在一定程度的记忆,我们观察到训练数据中重复的图像会导致一定程度的记忆。可以在 LAION 网站上搜索训练数据以可能帮助检测记忆的图像。
虽然图像生成模型的功能令人印象深刻,但它们也可以加强或加剧社会偏见。Stable Diffusion v1 使用主要限于英语描述的 LAION-2B 等数据集训练。使用其他语言的社区和文化的文本和图像可能无法充分考虑。这影响了模型的整体输出,因为白人和西方文化往往被设为默认值。此外,模型生成非英语prompt的内容的能力显著低于英语prompt。
该模型的预期使用是与Diffusers中的NSFW检查器一起使用。该检查器通过将模型输出与已知的硬编码NSFW概念进行比较来工作。

mo di diffusion 模型:

mo-di-diffusion是训练好的Stable Diffusion 1.5模型,使用了特定动画工作室的截图进行微调。使用提示”modern disney style”可以达到效果。该模型使用diffusers基于梦想小屋训练方法和之前的损失训练,可以像任何其他Stable Diffusion模型一样使用。该模型使用CreativeML OpenRAIL-M许可证开源,指定了使用权利和限制。您可以免费使用此模型,但不能用于故意产生或共享非法或有害内容。作者对您生成的输出没有任何权利,您可以自由使用并对其使用负责。您可以再分发权重和商业上/作为服务使用模型。如果是这样,请注意您必须包含与许可证中相同的使用限制,并向所有用户共享CreativeML OpenRAIL-M副本。

Arcane Diffusion 模型

Arcane-Diffusion是一个使用Transformers和Diffusion模型进行文本生成的项目。它使用GPT-2作为文本生成器,使用无条件Diffusion模型控制生成过程。该项目首先训练了一个GPT-2模型,随后使用Knowledge Distillation技术将其转换为更小更快的Student模型。在生成文本时,Arcane Diffusion首先从GPT-2的输出中抽取词汇,这些词汇随后被送入Diffusion模型生成新的词汇。Diffusion模型逐渐从抽象的噪声生成更加连贯的文本,而GPT-2则确保生成的文本符合语言结构。这种混合模型的效果是生成的文本更加连贯流畅,同时避免了GPT-2单独生成时的重复和无意义。 Arcane Diffusion在多个数据集上进行了测试,包括诗歌,散文和剧本等领域。实验结果显示,与GPT-2单独生成的文本相比,混合模型生成的文本质量更高,特别是在长文本生成方面。该项目的代码和预训练模型都开源发布,研究人员希望能通过持续的改进进一步提高生成文本的质量和多样性。总的来说,Arcane Diffusion展示了如何利用Transformers和Diffusion模型相结合进行高质量的条件文本生成。

Cyberpunk-Anime-Diffusion 模型

该模型地址这是一个生成赛博朋克动漫人物的AI模型，它基于微调的Waifu Diffusion V1.3模型和Stable Diffusion V1.5新VAE,在Dreambooth中训练。加载模型后,在提示中使用关键词dgs和illustration style可以得到更好的结果。针对网络机器人男性角色，您可以添加”muscular male”以提高输出效果。

midjourney-v4-diffusion/openjourney-v4

midjourney-v4-diffusion/openjourney-v4Openjourney v4 是在Stable Diffusion v1.5上训练的,使用了12.4万张图片,训练了12400步,4个epoch,总训练时间32小时。作者提到,使用 Openjourney v4时不再需要添加”mdjrny-v4 style”的提示。总之 Openjourney v4 能生成各种风格的图片。它在Stable Diffusion v1.5的基础上进行了进一步训练和优化,生成的图片效果更加真实和逼真。

SamDoesArt-V3 模型

Sandro-Halpo/SamDoesArt-V3,使用”SamDoesArt”这个token可以触发模型的效果,可以在prompt的任何地方使用。通常会把它放在prompt的开头,这会产生略微不同的效果,比放在prompt的结尾。可以做一些测试来找到适合个人口味的prompt位置。不建议在关键词”SamDoesArt”的直接后面放”style”这个词,这会产生不可预测的奇怪结果,可能不是你真正想要的。在”SamDoesArt”后面加逗号或不加逗号的效果难以确定。示例: “SamDoesArt, portrait of a pretty girl”,“SamDoesArt, a man working in a factory, manly, machines”,“SamDoesArt, an african lion, mane, magestic” 更多请访问更多可视化指导

万象熔炉 | Anything V5/V3 模型

万象熔炉 | Anything V5/V3，此模型就是一个大杂烩，作者本人的评价”请不要把anything-v3的质量看的有多么好，因为本身就是个输入tag毫无忠诚度可言的垃圾模型，使用的时候经常会添加不相关、乱七八糟的细节。在发现这点之后我在很长一段时间内没有再融合新的模型，这种性质的融合模型简直就是浪费时间。“，进而出现了Anything-V5，更多请点击查看

andite/anything-v4.0 模型

andite/anything-v4.0，这是一个针对动漫风格图像生成的模型,可以根据简短的提示生成高质量和高细节的动漫图像。该模型支持输入danbooru标签来生成图像。比如输入”1girl, white hair, golden eyes, beautiful eyes, detail, flower meadow, cumulonimbus clouds, lighting, detailed sky, garden”可以生成相应的动漫风格图像。该模型有网页界面可以直接使用,也可以导出到其他平台如Hugging Face和Google Colab使用。用户可以像使用其他Stable Diffusion模型一样使用这个模型。该模型采用CreativeML OpenRAIL-M许可证,意味着模型开放使用且可商业化。该模型的一些生成图像示例: 输入”masterpiece, best quality, 1girl, white hair, medium hair, cat ears, closed eyes, looking at viewer, :3, cute, scarf, jacket, outdoors, streets”可以生成动漫女孩图像。输入”1boy, bishounen, casual, indoors, sitting, coffee shop, bokeh”可以生成动漫男孩图像。输入”scenery, village, outdoors, sky, clouds”可以生成风景图像。该模型由Rico、InterestingHuman和Fannovel16开发出来,在开发过程中获得了大量的帮助和支持。模型开放使用,但有一定的商业限制,需要遵守CreativeML OpenRAIL-M许可证