知识分享 - 爱智岛（人工智能创作联盟）

秋和

回复于 2024-12-16 17:56

AI音乐生成工具——suno使用小技巧分享

技巧一、了解音乐背景知识：1. 音乐知识图谱：https://www.musicmap.info2. 网易云音乐的曲风标签分类详解：https://music.163.com/#/topic?id=53666538技巧二、利用标签指导AI创作歌词：歌词结构知识科普： Intro（引子或前奏）：歌曲的开始部分，通常用来建立歌曲的基调和氛围。引子可能包含一些基本的旋律或节奏元素，但通常不包括主要的歌词。 Verse（诗歌部分 / 主歌）：这部分是歌曲的主体，通常包含歌曲的主要故事或情感内容。每个诗歌部分可能有不同的歌词，但通常保持相同的旋律和节奏模式。 Chorus（合唱部分 / 副歌）：通常是歌曲中最具辨识度的部分，重复出现，包含主要的主题和旋律。合唱部分是歌曲中最易被记住的部分，往往包含 “钩子”（hook）—— 一种特别引人入胜的旋律或歌词。 Bridge（桥接部分）：这一部分出现在歌曲后半部，提供了与前面诗歌和合唱部分不同的旋律和节奏，用来增加歌曲的多样性和深度。 Outro（尾奏）：歌曲的结尾部分，与引子相似，但用来结束歌曲。尾奏可以是对引子的重复，或者提供一种平静下来的感觉，渐渐带出歌曲。 Pre-Chorus（前副歌）（可选）：在某些歌曲中，前副歌作为从诗歌部分到合唱部分的过渡。它可以增加歌曲的动态范围，为合唱部分的到来建立情感张力。间奏（Interlude）（可选）：间奏是歌曲中的一个部分，其中不包含歌词，只有乐器演奏，通常用于连接两个不同的歌唱部分，如两个诗歌部分或诗歌部分到合唱部分之间，提供歌曲的情感转换或增强歌曲的整体感觉。技巧三、善用官方资源：Suno官方Notion文档：https://suno-ai.notion.site/Docs-Guides-Resources-38e5ba5856d249a89dcea31655f4fb74

7

4

北邦

回复于 2024-11-08 08:53

腾讯网:开源图像模型Stable Diffusion入门手册

据腾讯网报道，在原版 Dreambooth 训练中,我们只能让 AI 学习 UNET 模型,XavierXiao 改进添加了额外训练 Text Encoder 6 ,在本文使用的仓库中就沿用了这种改进。 k. Network Rank(Dimension) 表示神经...本文为转帖，原稿地址：https://new.qq.com/rain/a/20230411A07U1V00 Stable Diffusion 是 2022 年发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像，能够在几秒钟内创作出令人惊叹的艺术作品，本文是一篇使用入门教程。硬件要求建议使用不少于 16 GB 内存，并有 60GB 以上的硬盘空间。需要用到 CUDA 架构，推荐使用 N 卡。（目前已经有了对 A 卡的相关支持，但运算的速度依旧明显慢于 N 卡，参见：Install and Run on AMD GPUs · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub过度使用，显卡会有损坏的风险。进行 512x 图片生成时主流显卡速度对比：环境部署手动部署可以参考 webui 的官方 wiki 部署：Home · AUTOMATIC1111/stable-diffusion-webui Wiki (github.com)stable diffusion webui 的完整环境占用空间极大，能达到几十 G。同时，webui 需要联网下载安装大量的依赖，在境内的网络环境下下载很慢，请自带科学上网工具。安装 Python安装 Python 3.10，安装时须选中安装 Git在 Git-scm.com 下载 Git 安装包并安装。下载 webui 的 github 仓库按下输入 cmd，调出命令行窗口。运行：请把代码中的替换为自己想下载的目录。装配模型可在如Civitai上下载标注有CKPT的模型，有模型才能作画。下载的模型放入下载后文件路径下的目录。使用双击运行。脚本会自动下载依赖，等待一段时间（可能很长），程序会输出一个类似的地址，在浏览器中输入这个链接开即可。详细可参见模型使用。更新按下输入 cmd，调出命令行窗口。运行：请把代码中的：替换为自己下载仓库的目录。整合包觉得麻烦的同学可以使用整合包，解压即用。比如独立研究员的空间下经常更新整合包。秋叶的启动器也非常好用，将启动器复制到下载仓库的目录下即可，更新管理会更方便。打开启动器后，可一键启动：如果有其他需求，可以在高级选项中调整配置。显存优化根据显卡实际显存选择，不要超过当前显卡显存。不过并不是指定了显存优化量就一定不会超显存，在出图时如果启动了过多的优化项（如高清修复、人脸修复、过大模型）时，依然有超出显存导致出图失败的几率。xFormers 能极大地改善了内存消耗和速度，建议开启。准备工作完毕后，点击一键启动即可。等待浏览器自动跳出，或是控制台弹出本地 URL 后说明启动成功如果报错提示缺少 Pytorch，则需要在启动器中点击配置：Stable Diffusion webui 的更新比较频繁，请根据需求在“版本管理”目录下更新：同样地，也请注意插件的更新：关于插件Stable Diffusion 可配置大量插件扩展，在 webui 的“扩展”选项卡下，可以安装插件：点击“加载自”后，目录会刷新，选择需要的插件点击右侧的 install 即可安装。安装完毕后，需要重新启动用户界面：文生图最简流程选择需要使用的模型（底模），这是对生成结果影响最大的因素，主要体现在画面风格上。在第一个框中填入提示词（Prompt），对想要生成的东西进行文字描述在第二个框中填入负面提示词（Negative prompt)，你不想要生成的东西进行文字描述选择采样方法、采样次数、图片尺寸等参数。Sampler（采样器/采样方法）选择使用哪种采样器。Euler a（Eular ancestral）可以以较少的步数产生很大的多样性，不同的步数可能有不同的结果。而非 ancestral 采样器都会产生基本相同的图像。DPM 相关的采样器通常具有不错的效果，但耗时也会相应增加。Euler 是最简单、最快的Euler a 更多样，不同步数可以生产出不同的图片。但是太高步数 (>30) 效果不会更好。DDIM 收敛快，但效率相对较低，因为需要很多 step 才能获得好的结果，适合在重绘时候使用。LMS 是 Euler 的衍生，它们使用一种相关但稍有不同的方法（平均过去的几个步骤以提高准确性）。大概 30 step 可以得到稳定结果PLMS 是 Euler 的衍生，可以更好地处理神经网络结构中的奇异性。DPM2 是一种神奇的方法，它旨在改进 DDIM，减少步骤以获得良好的结果。它需要每一步运行两次去噪，它的速度大约是 DDIM 的两倍，生图效果也非常好。但是如果你在进行调试提示词的实验，这个采样器可能会有点慢了。UniPC 效果较好且速度非常快，对平面、卡通的表现较好，推荐使用。Sampling Steps（采样步数）Stable Diffusion 的工作方式是从以随机高斯噪声起步，向符合提示的图像一步步降噪接近。随着步数增多，可以得到对目标更小、更精确的图像。但增加步数也会增加生成图像所需的时间。增加步数的边际收益递减，取决于采样器。一般开到 20~30。不同采样步数与采样器之间的关系：CFG Scale（提示词相关性）图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示，但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的 CFG Scale 体现为粗犷的线条和过锐化的图像。一般开到 7~11。CFG Scale 与采样器之间的关系：生成批次每次生成图像的组数。一次运行生成图像的数量为“批次* 批次数量”。每批数量同时生成多少个图像。增加这个值可以提高性能，但也需要更多的显存。大的 Batch Size 需要消耗巨量显存。若没有超过 12G 的显存，请保持为 1。尺寸指定图像的长宽。出图尺寸太宽时，图中可能会出现多个主体。1024 之上的尺寸可能会出现不理想的结果，推荐使用小尺寸分辨率+高清修复（Hires fix)。种子种子决定模型在生成图片时涉及的所有随机性，它初始化了 Diffusion 算法起点的初始值。理论上，在应用完全相同参数（如 Step、CFG、Seed、prompts）的情况下，生产的图片应当完全相同。高清修复通过勾选 "Highres. fix" 来启用。默认情况下，文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复，会型首先按照指定的尺寸生成一张图片，然后通过放大算法将图片分辨率扩大，以实现高清大图效果。最终尺寸为（原分辨率*缩放系数 Upscale by)。放大算法中，Latent 在许多情况下效果不错，但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。Hires step 表示在进行这一步时计算的步数。Denoising strength 字面翻译是降噪强度，表现为最后生成图片对原始输入图像内容的变化程度。该值越高，放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图，高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右，超过 0.7 和原图基本上无关，0.3 以下就是稍微改一些。实际执行中，具体的执行步骤为 Denoising strength * Sampling Steps。面部修复修复画面中人物的面部，但是非写实风格的人物开启面部修复可能导致面部崩坏。点击“生成”提示词提示词所做的工作是缩小模型出图的解空间，即缩小生成内容时在模型数据里的检索范围，而非直接指定作画结果。提示词的效果也受模型的影响，有些模型对自然语言做特化训练，有些模型对单词标签对特化训练，那么对不同的提示词语言风格的反应就不同。提示词内容提示词中可以填写以下内容：自然语言可以使用描述物体的句子作为提示词。大多数情况下英文有效，也可以使用中文。避免复杂的语法。单词标签可以使用逗号隔开的单词作为提示词。一般使用普通常见的单词。单词的风格要和图像的整体风格搭配，否则会出现混杂的风格或噪点。避免出现拼写错误。可参考Tags | Danbooru (donmai.us)Emoji、颜文字Emoji () 表情符号也是可以使用并且非常准确的。因为 Emoji 只有一个字符，所以在语义准确度上表现良好。关于 emoji 的确切含义，可以参考Emoji List, v15.0 (unicode.org)，同时 Emoji 在构图上有影响。对于使用 Danbooru 数据的模型来说，可以使用西式颜文字在一定程度上控制出图的表情。如：:-) 微笑 :-( 不悦 ;-) 使眼色 :-D 开心 :-P 吐舌头 :-C 很悲伤 :-O 惊讶张大口 :-/ 怀疑提示词语法根据自己想画的内容写出提示词，多个提示词之间使用英文半角符号 [ , ]，如：masterpiece, best quality, ultra-detailed, illustration, close-up, straight on, face focus, 1girl, white hair, golden eyes, long hair, halo, angel wings, serene expression, looking at viewer一般而言，概念性的、大范围的、风格化的关键词写在前面，叙述画面内容的关键词其次，最后是描述细节的关键词，大致顺序如：(画面质量提示词), (画面主题内容)(风格), (相关艺术家), (其他细节)不过在模型中，每个词语本身自带的权重可能有所不同，如果模型训练集中较多地出现某种关键词，我们在提示词中只输入一个词就能极大地影响画面，反之如果模型训练集中较少地出现某种关键词，我们在提示词中可能输入很多个相关词汇都对画面的影响效果有限。提示词的顺序很重要，越靠后的权重越低。关键词最好具有特异性，譬如 Anime(动漫)一词就相对泛化，而 Jojo 一词就能清晰地指向 Jojo 动漫的画风。措辞越不抽象越好，尽可能避免留下解释空间的措辞。可以使用括号人工修改提示词的权重，方法如：(word) - 将权重提高 1.1 倍((word)) - 将权重提高 1.21 倍（= 1.1 * 1.1）[word] - 将权重降低至原先的 90.91%(word:1.5) - 将权重提高 1.5 倍(word:0.25) - 将权重减少为原先的 25%(word) - 在提示词中使用字面意义上的 () 字符( n ) = ( n : 1.1 )(( n )) = ( n : 1.21 )((( n ))) = ( n : 1.331 )(((( n )))) = ( n : 1.4641 )((((( n )))) = ( n : 1.61051 )(((((( n )))))) = ( n : 1.771561 )请注意，权重值最好不要超过 1.5。还可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容，譬如在某阶段后，绘制的主体由男人变成女人。语法为：例如: a [fantasy:cyberpunk:16] landscape在一开始，读入的提示词为：the model will be drawing a fantasy landscape.在第 16 步之后,提示词将被替换为：a cyberpunk landscape, 它将继续在之前的图像上计算又例如，对于提示词为: fantasy landscape with a [mountain:lake:0.25] and [an oak:a christmas tree:0.75][ in foreground::0.6][ in background:0.25][shoddy:masterful:0.5]，100 步采样，一开始。提示词为：fantasy landscape with a mountain and an oak in foreground shoddy在第 25 步后，提示词为：fantasy landscape with a lake and an oak in foreground in background shoddy在第 50 步后，提示词为：fantasy landscape with a lake and an oak in foreground in background masterful在第 60 步后，提示词为：fantasy landscape with a lake and an oak in background masterful在第 75 步后，提示词为：fantasy landscape with a lake and a christmas tree in background masterful提示词还可以轮转，譬如在第一步时，提示词为“cow in a field”；在第二步时，提示词为"horse in a field."；在第三步时，提示词为"cow in a field" ，以此类推。Token实际上，程序是将输入的关键词以 Token 的形式传入模型进行计算的：“ (Medieval astronomer using a telescope with a cosmic starry sky in the background.sketch, hand draw style, con, uncomplicated background )”转换为 Token ID 即：263, 10789, 40036, 1996, 320, 19037, 593, 320, 18304, 30963, 2390, 530, 518, 5994, 8, 11, 263, 5269, 267, 2463, 4001, 1844, 267, 5646, 267, 569, 16621, 5994, 264 。一个单词可能对应一个或多个 Token，多个单词也可能对应同一个 Token。提示词模板可参考Civitai | Stable Diffusion models, embeddings, hypernetworks and more中优秀作品的提示词作为模板。类似的网站还有：Majinai：MajinAI | Home词图：词图 PromptTool - AI 绘画资料管理网站Black Lily：black_lilyDanbooru 标签超市：Danbooru 标签超市魔咒百科词典：魔咒百科词典AI 词汇加速器：AI 词汇加速器 AcceleratorI PromptNovelAI 魔导书：NovelAI 魔导书鳖哲法典：鳖哲法典Danbooru tag：Tag Groups Wiki | Danbooru (donmai.us)AIBooru：AIBooru: Anime Image BoardControlnetControlnet 允许通过线稿、动作识别、深度信息等对生成的图像进行控制。请注意，在使用前请确保 ControlNet 设置下的路径与本地 Stable Diffusion 的路径同步基本流程点击 Enable 启用该项 ControlNetPreprocessor 指预处理器，它将对输入的图像进行预处理。如果图像已经符合预处理后的结果，请选择 None。譬如，图中导入的图像已经是 OpenPose 需要的骨架图，那么 preprocessor 选择 none 即可。在 Weight 下，可以调整该项 ControlNet 的在合成中的影响权重，与在 prompt 中调整的权重类似。Guidance strength 用来控制图像生成的前百分之多少步由 Controlnet 主导生成，这点与[:]语法类似。Invert Input Color 表示启动反色模式，如果输入的图片是白色背景，开启它。RGB to BGR 表示将输入的色彩通道信息反转，即 RGB 信息当做 BGR 信息解析，只是因为 OpenCV 中使用的是 BGR 格式。如果输入的图是法线贴图，开启它。Low VRAM 表示开启低显存优化，需要配合启动参数“--lowvram”。Guess Mode 表示无提示词模式，需要在设置中启用基于 CFG 的引导。Model 中请选择想要使用解析模型，应该与输入的图像或者预处理器对应。请注意，预处理器可以为空，但模型不能为空。可用预处理/模型canny用于识别输入图像的边缘信息。depth用于识别输入图像的深度信息。hed用于识别输入图像的边缘信息，但边缘更柔和。mlsd用于识别输入图像的边缘信息，一种轻量级的边缘检测。它对横平竖直的线条非常敏感，因此更适用于于室内图的生成。normal用于识别输入图像的法线信息。openpose用于识别输入图像的动作信息。OpenPose Editor 插件可以自行修改姿势，导出到文生图或图生图。scribble将输入图像作为线稿识别。如果线稿是白色背景，务必勾选“Invert Input Color”fake_scribble识别输入图像的线稿，然后再将它作为线稿生成图像。segmentation识别输入图像各区域分别是什么类型的物品，再用此构图信息生成图像。如果想绘制一张符合 segementation 规范的图像，可以使用以下色表绘制。color_coding_semantic_segmentation_classes - Google 表格多 ControlNet 合成在 ControlNet 的设置下，可以调整可用 ControlNet 的数量。在多个 ControlNet 模式下，结果会将输入的信息合并生成图像：模型模型下载模型能够有效地控制生成的画风和内容。常用的模型网站有：Civitai | Stable Diffusion models, embeddings, hypernetworks and more > Models - Hugging Face > SD - WebUI 资源站 > 元素法典 AI 模型收集站 - AI 绘图指南 wiki (aiguidebook.top) > AI 绘画模型博物馆 (subrecovery.top)模型安装下载模型后需要将之放置在指定的目录下，请注意，不同类型的模型应该拖放到不同的目录下。模型的类型可以通过Stable Diffusion 法术解析检测。大模型（Ckpt）：放入 models\Stable-diffusionVAE 模型：一些大模型需要配合 vae 使用，对应的 vae 同样放置在 models\Stable-diffusion 或 models\VAE 目录，然后在 webui 的设置栏目选择。Lora/LoHA/LoCon 模型：放入 extensions\sd-webui-additional-networks\models\lora，也可以在 models/Lora 目录Embedding 模型：放入 embeddings 目录模型使用Checkpoint(ckpt)模型对效果影响最大的模型。在 webui 界面的左上角选择使用。一些模型会有触发词，即在提示词内输入相应的单词才会生效。Lora 模型 / LoHA 模型 / LoCon 模型对人物、姿势、物体表现较好的模型，在 ckpt 模型上附加使用。在 webui 界面的 Additional Networks 下勾线 Enable 启用，然后在 Model 下选择模型，并可用 Weight 调整权重。权重越大，该 Lora 的影响也越大。不建议权重过大（超过 1.2），否则很容易出现扭曲的结果。多个 lora 模型混合使用可以起到叠加效果，譬如一个控制面部的 lora 配合一个控制画风的 lora 就可以生成具有特定画风的特定人物。因此可以使用多个专注于不同方面优化的 Lora，分别调整权重，结合出自己想要实现的效果。LoHA 模型是一种 LORA 模型的改进。LoCon 模型也一种 LORA 模型的改进，泛化能力更强。Embedding对人物、画风都有调整效果的模型。在提示词中加入对应的关键词即可。大部分 Embedding 模型的关键词与文件名相同，譬如一个名为为“SomeCharacter.pt”的模型，触发它的关键词检索“SomeCharacter”。模型训练环境搭建以GitHub - bmaltais/kohya_ss为例，它提供了在 Windows 操作系统下的 GUI 训练面板。如果需要在 Linux 上部署且需要 GUI，请参考GitHub - P2Enjoy/kohya_ss-docker: This is the tandem repository to exploit on linux the kohya_ss training webui converted to Linux. It uses the fork in the following link需要保证设备拥有 Python 3.10.6 及 git 环境。首先，以管理员模式启动 Powershell，执行“Set-ExecutionPolicy Unrestricted”命令，并回答“A"。然后可以关闭该窗口。启动一个普通的 Powershell 窗口，在需要克隆该仓库的路径下，执行以下命令：在执行“accelerate config”后，它将询问一些设置选项。请按照以下选项依次选择：This machineNo distributed trainingNONONOallfp1630 系、40 系显卡可选择安装 CUDNN：环境更新如果需要更新仓库，请执行以下命令：界面启动在 Powershell 中执行：双击 gui.bat 也可以。弹出以下界面后，直接访问 URL 即可。训练流程模型训练主要有三种结果：欠拟合，效果好，过拟合。欠拟合：模型完全没有从数据集中学习到经验，对各种输入都得出差距很大的结果。效果好：模型不仅对训练集中的输入有接近的结果，对不来自训练集中的输入也有接近的效果。过拟合：模型只训练集中的输入有非常非常接近的结果，对不来自训练集中的输入给出差距很大的结果。1. 准备训练集图片尽可能高清，风格统一但内容形式多样（譬如动作多样、服装多样）。样本数量可能影响到拟合结果。样本量太少，模型可能欠拟合；样本量过大，模型可能过拟合。譬如让一个人学习英语，只给他几条例句去看，他可能什么都没学会【欠拟合】；给了它几十亿条例句去看，他可能只会根据别人说的话查字典一样回话，如果字典里没有就完全不会说了【过拟合】2. 图片裁剪将训练集裁剪为多个尺寸相同的图片。可以在 SD webui 界面中自动裁剪，也可以手动裁切。一般使用的图片尺寸是 512*512，也可更换为其他尺寸，尺寸越大占用显存越高，但对细节的捕捉也会越好。3. 图片打标关键词生成可以在训练环境的页面下打标：也可以在 sd webui 的页面下打标：比较这几种不同的打标器的效果，在同一输入下：【本义：一个在铁匠铺里打铁的男铁匠】打标对图片的描述越准越好，如果条件允许，尝试人工打标。关键词合并在生成出的关键词中，我们需要把与训练目标强相关的关键词划为一个统一的特征表述。以"1boy, cooking, frying pan, male focus, solo, gloves, apron, fire, brown footwear, black gloves, boots, stove, kitchen, holding, facial hair, bandana, blue shirt, shirt"为例，假如我们的训练对象就是一个男性大胡子，那么他必然始终携带着”男人、胡子“这两个要素，那么我们可以用一个词总结这个角色，例如用”Smith“替代”1boy,facial hair"，整条句子将变为：以此类推，我们需要为目标绑定什么要素，就将它从关键词中删去。而类似于动作、背景这种与对象绑定关系不紧密，在日后生成图期间需要改变的，就保留在关键词中。编组一些具有同组关系的图片可以利用关键词引导 AI 去归纳它们。譬如，我们训练的对象 Smith 有三张图，分别是全图、背景、前景，那么我可以如此处理：4. 正则化训练集中的每张图片通常能被分解为两大部分：“训练目标+其他要素”，依然以 Smith 为例：其中，”铁匠铺、打铁、铁匠“都是模型中已有的内容，称为“先验知识”。我们需要将这部分知识为 AI 指明，省去重新学习这部分内容的时间；也能引导 AI 明确学习的目标，让模型具有更好的泛化性。正则化通过降低模型的复杂性提高泛化能力。模型越复杂，模型的泛化能力越差，要达到相同的泛化能力，越复杂的模型需要的样本数量就越多，为了提高模型的泛化能力，需要正则化来限制模型复杂度。正则化的标签需要与训练集中的 Class 相对应，图片数量也要一致。正则化不是必须的，可以根据训练集的情况和训练目的的不同来调整。同一张图片不允许在训练集和正则化中同时出现。5. 文件路径组织在训练前，我们需要用特定的方式组织文件路径：譬如，训练目标是一群女孩，其中有一位名为 sls 的女孩好一位名为 cpc 的女孩，那么文件路径应该为：●train_girls----○10_sls 1girl----○10_cpc 1girl●reg_girls----○1_1girl其中，traingirls 目录下放置的是训练集，命名规则是“训练次数reggirls 目录下放置的是正则化内容。命名规则是“训练次数6. 训练参数在 kohya webui 界面训练时，ckpt 与 lora 训练方法类似。a. 底模它表明我们此次训练将以哪个模型为基础进行训练。这个模型需要根据自己的需求选择。如果很明确自己的目标是属于某一大类下的分支，那么可以用接近这一大类的模型进行训练。譬如想训练一个二次元角色，那么可以使用二次元的底模（如 NovelAI）进行训练。如果自己的像训练的目标需要比较好的泛化性，可以使用 sd 模型，因为它包含的人物、物品、风格最多。如果模型为 sd2.0，则需要勾选 v2 和 v_parameterizationb. 最大分辨率 Max resolutionTraining parameters 下的 Max Resolution 用于指定当前输入训练集图片的分辨率，请与文件夹内的保持一致。如果尺寸不一会被裁切。c. EpochEpoch 是指一次将训练集中的所有样本训练一次（即对每个样本完成一次正向传播与一次反向传播）的过程。有时，由于一个训练样本过于庞大，它会被分成多个小块分批学习，每个小块就叫 batch。在深度学习中，程序通过不断地将数据集在神经网络中往复传递来更新网络中的权重，以此建立对目标的拟合关系，因此只有反复地迭代才能增强数据集的拟合度。随着 epoch 的增加，模型将从欠拟合（右一，表示即便是来自于数据集中的输入，模型也很难达到它应该有的结果，类似于“只做题库里的题都做不对的差生”）变为过拟合（左一，表示模型对于来自于数据集中的输入，总能精确地达到对应的对结果，但是如果输入一旦有些许偏差，比如输入一些不是训练集中的输入，那结果就会很差，类似于“只会做题库里的题的书呆子”）。我们希望能达到中间的效果，即对训练集输出相对准确的结果，又对不在训练集里的输入也有较好的表现。这种特征就叫泛化。因此，我们需要不少于一个 epoch 才能建立起较好的拟合关系，当然也不能太多。对于不同的数据集，使用的 epoch 都可能有所不同。d. Batch sizebatch size 表示训练时的批量大小，也就是一次训练中选取的样本数量。这个参数对性能有一定要求，如果性能足够，增加 batch size 在理论上会提高模型的准确性。如果数据集样本量较小，Batch Size 可以等于样本数量，即把所有数据集一起输入网络进行训练，这样做的效果也很好；但是如果样本量较大，这肯定让设备吃不消，因此需要减小 Batch Size。但是，如果 Batch Size 太小，那么意味着在一个 Epoch 中迭代的次数也会减小，训练时权重的调整速度变慢，为了抵消这种影响，还得提高 epoch 才能有更好的效果。所以 Batch Size 与 Epoch 参数二者是相辅相成的，他们二者的关系就好比一次刷多少题和总共刷多少次题。合适的 batch size 应该让 GPU 正好满载运行。e. Save every N epochs每 N 个 Epoch 保存一次f. 学习率 Learning Rate学习率指的是一次迭代（即输入一个样本对它学习，并用此次学习的经验调整神经网络）的步长。这个值越大，表明一次学习对模型的影响越大。为了让学习循序渐进，学习率不应该太高，我们需要 AI 在训练中反复总结一点点经验，最后累积为完整的学习成果。合理的学习率会让学习过程收敛，Loss 达到足够低。学习率太低，容易出现局部最优解，类似于“一个开车的 AI 稀里糊涂地开完全程，车技很菜”；学习率太高，容易使得模型不收敛，找不到解，类似于“一个开车的 AI 完全不会开车，只会原地打圈瞎操作”。g. 学习率调度器 Learning Rate Scheduler学习率调度器是一种用于动态调整学习率的技术，它可以在训练过程中根据模型的表现自动调整学习率，以提高模型的训练效果和泛化能力。通常，学习率在训练开始时设置为比较高的值，允许 AI“在一次训练中学得更多更快”。随着训练的进行，学习率会降低，逐步收敛到最优。在训练过程中降低学习率也称为退火或衰减。adafactor：自适应学习率。constant ：恒定，学习率不变。constant_with_warmup：恒定预热。学习率在开始会增大一点，然后退回原学习率不变。Cosine：使用余弦函数来调整学习率，使其在训练过程中逐渐降低。常被称为余弦退火。cosine_with_restarts：余弦退火重启。在 consine 的基础上每过几个周期将进行一次重启，该值在选择后可以设定。linear：线性。学习率线性下降。Polynomial：使用多项式函数来调整学习率。h.学习率预热比例 LR warmup刚开始训练时模型的权重是随机初始化的，如果此时选择一个较大的学习率，可能会带来模型的不稳定。学习率预热就是在刚开始训练的时候先使用一个较小的学习率，先训练一段时间，等模型稳定时再修改为预先设置的学习率进行训练。例如，假设我们在训练神经网络时设置了一个学习率为 0.1，预热比例为 0.1。则在训练的前 10% 的迭代次数中，我们会逐渐将学习率从 0.01 增加到 0.1，然后在剩余的训练迭代次数中使用设定的学习率 0.1。i. 优化器 Optimizer在训练神经网络时，我们需要在反向传播中逐步更新模型的权重参数。优化器的作用就是根据当前模型计算结果与目标的偏差，不断引导模型调整权重，使得偏差不断逼近最小。Adafactor 和 Lion 是推荐使用的优化器。Adam：一种常用的梯度下降算法，被广泛应用于神经网络模型的优化中。它结合了动量梯度下降和自适应学习率方法的优点，既可以加快收敛速度，又可以避免学习率调整不当导致的振荡和陷入局部最优解。并且对于不同的参数有不同的学习率，更加适用于高维度的参数空间。AdamW：对 Adam 算法的改进方案，对惩罚项参数进行控制，能更好地控制模型的复杂度，防止模型过拟合，提高泛化性能。AdamW8bit：8bit 模式的 AdamW，能降低显存占用，略微加快训练速度。Adafactor：自适应优化器，对 Adam 算法的改进方案，降低了显存占用。参考学习率为 0.005 1 。DAdaptation2：自适应优化器，比梯度下降（SGD）方法更加稳定有效、使用时请将学习率设置为 1。Lion3：自适应优化器，节省更多显存、速度更快，与 AdamW 和 Adafactor 相比有 15%左右的加速。参考学习率为 0.001。SGDNesterov：一种常用的优化算法，基于梯度下降（SGD）方法进行优化，通过引入动量的概念加速收敛速度。SGDNesterov8bit：8bit 模式的 SGDNesterov，能降低显存占用，略微加快训练速度。j. Text Encoder 与 Unet机器不能直接识别人类的语言，Text Encoder 是一种用于将文本数据转换为机器可读形式的模型或算法。对于输入的一串提示词，程序会将它们分解为一个个标记（Token）输入给 Text Encoder（一个 Token 通常代表着一个特征），这样一句话就能被转为一个向量为机器所识别 4Unet 是一种用于图像分割的深度学习模型，它的作用是将图像分割为多个不同的构成部分。经过训练后，它可以来填充图像中缺失或损坏的部分，或者对灰度草图进行着色。5我们可以为它们设置不同的学习率，分别对应了“识别文字描述”和“识别图片”的能力。在原版 Dreambooth 训练中，我们只能让 AI 学习 UNET 模型，XavierXiao 改进添加了额外训练 Text Encoder 6 ，在本文使用的仓库中就沿用了这种改进。k. Network Rank(Dimension)表示神经网络的维度，维度越大，模型的表达能力就越强。如果训练 lora，该值不要超过 64；如果训练 loha，该值不要超过 32；如果训练 locon，该值不要超过 12 参考，但还是要根据具体的训练目标来定，如果目标比较简单，就完全不需要太高的 Rank。在神经网络中，每一层都由许多个神经元节点构成，它们纵横交错构成了一个 N 维空间。维度越大，代表模型中就越多的神经元节点可以处理各种要素。——当然，这也意味着模型的训练难度就越大，也可能变得更容易过拟合，它可能需要更多的、更准确的数据集，更大的迭代次数。l. Network Alpha对模型过拟合的惩罚权重。它表示对模型在训练时出现完全拟合（即输出结果与样本一致）时的惩罚的权重，适当提高它可以增加模型的泛化能力（当然也不能太高）。目前经验认为设置为 alpha 设置在 1 以下效果更好参考。举一个通俗的例子，一个学生在抄学霸的作业，为了不与学霸的结果完全相同，他需要对每个答案做一些小小的改动。对老师而言，一个完全照抄答案的学生约等于一个只会抄不会想的学生，而能稍作修改的学生说明还有对题目思考理解的能力。所以我们要稍微地“惩罚”那些只会照抄的学生，引导学生自己思考。因此这个值不能太低（完全不惩罚照抄），也不能太高（太大的惩罚让学渣完全不能从学霸的答案里获得参考）。m. Caption DropoutDropout 是在深度学习中一种防止过拟合的技术，在训练中，可能模型会反复计算某些节点，随着训练的进行，这可能导致错误的路径依赖，即模型会变得总是依赖这些节点解决问题，就像某个学生碰巧刷到了几道解题方法相似的题目，就误认为所有的题目都要用这种解题方法。Dropout 的解决方法是随机关闭某些神经元，迫使模型在训练时减少神经元之间的依赖关系，从而让神经网络的泛化能力更强。当然，在实际使用模型的时候，Dropout 是关闭的。在训练中，我们也可以随机将一些训练集的标记（Caption）剔除。在 Drop out caption every n epochs 中，我们可以指定每隔多少 epoch 就剔除一些标记；在 Rate of caption dropout 中，我们可以指定剔除几成的标记。n. Noise Offset在原版的 Stable Diffusion 中，模型得出的图片在亮度上总是很平均，亮的场景不够亮，暗的场景不够暗，而且用传统的训练方法也无法让它学会避免这个问题 7 。一般输入 0.1。通过 Noise Offset，我们可以让图像在亮和暗上的表现更加明显（右图）。o.xformersXformers 是一个用于加快图像生成速度并减少显存占用的库。p. Gradient checkpointing梯度检查点（Gradient checkpointing）是一种在训练模型时减少显存占用的方法，但是会增加训练时长。它避免在训练期间一次计算所有权重，而是逐步计算权重，从而减少训练所需的显存量。关闭它不会影响模型的准确性，但打开它后我们可以使用更大的 Batch Size。虽然单次训练的时长可能增加了我们单次训练的时长，但如果我们增大了 Batch Size，总的学习时间实际上可能会更快。q. shuffle caption打开它，可以让训练时训练集的标签被打乱（Shuffle，洗牌）。如输入"铁匠铺，工人，打铁"，可能被转换为”铁匠铺，打铁，工人“或”工人，铁匠铺，打铁“。这种操作通常用于增强模型对于不同文本顺序的鲁棒性，从而提高模型的泛化能力。打乱操作可以多次进行，从而更大程度地增加数据的随机性。Shuffle caption 可以在多种相似的图像中使用。如果差异较大，就不要使用了。在每一个 epoch 中，输入的前 4 个 token 会被当做触发词，此外的 token 会被当做排除集。ai 会将排除集中的元素在素材中删除后，把素材的剩余部分学进前 4 个 token 中。因此，如果不开启 keep tokens，在进行打乱后，打标中的每一个 tag 在足够多的 epoch 后，都将成为触发词。r. Token如果你的 Caption 比较长，那么可以扩充一次输入允许的 Token 量。如果不是必要，保持默认值 75。s. Clip SkipClip 是一个转换提示词为 Token 形式的神经网络，是模型理解文字的源头。它开启与否与底模有关。譬如，一些模型在第一层的神经网络将输入的词转换为 Token 读取，传输给下一层网络，但是通过 Clip Skip，我们可以手动控制跳过 Stable Diffusion 的 Clip 阶段，直接使用模型的 Tokenizer 对某些层级直接传输 Token 进去。有些时候调整这个参数可以让结果更好。默认情况下 SD2.0 使用倒数第二层接收 Token，因此不要在 SD2.0 学习中指定。风格训练训练集尽可能包含该画风对不同事物的描绘。● 尽可能对训练集进行正则化。如果数据足够大，可以将数据二分，一部分作为训练集，一部分作为正则化图集。如果数据不够大，可以先用高学习率快速训练出一个临时模型，用它产出接近于该画风的图片，然后将它投入训练集。● 如果是小模型，可以在生成时变更大模以调整生成效果；如果是大模型，可以通过模型融合以调整效果。● 模型效果不好不一定是模型不好，提示词与最终的效果有非常大的关系。人物训练训练集尽可能包含人物在不同角度的画面。如果人物图像很少，可以通过一下方式扩充训练集：● 镜像● 用高学习率快速训练出一个临时模型，用它产出人物的新图，将新图投入训练集

共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张
共56张

5

1

爱智岛官号

发布于 2024-09-28 11:09

邦主的大课：一丹一世界双脑智能时代的炼丹师（上集、下集）

一丹一世界双脑智能时代的炼丹师（上集、下集）爱智岛小编：邦主的最新公开大课，首次全方面的披露邦主的创作和炼丹思路，还有他对智能时代的展望和应对之道、最后还有神兽创作的提示词小福利！看过的伙伴们连呼这是我免费可以看的吗！！！全程3小时干货满满，视频号最多只能上传2小时内的，所以只能分上下集，大家找个安静的夜晚，倒一杯啤酒备上小本子，你一定会有收获的！感谢通往AGI之路提供的讲台，感谢中国神兽复兴计划，当然更要感谢邦主诚意满满的宣讲。邦主说这个ppt是他熬了两个大夜整理的，感动+心疼3秒嘻嘻嘻~ 最后还有邦主无私且贴心的小棉袄-讲稿ppt在这里哦：https://ai-dao-cn.feishu.cn/wiki/Sw8Ww0IO6iWzpgkjH5Dc7S3UnCd

共2张
共2张

5

北邦

回复于 2024-07-09 14:28

给新手用的爱智岛导航地图来了！

（一）首先欢迎诸位新入岛民入驻爱智岛！许多小伙伴反映dodo群上很容易迷路，确实爱智岛dodo群本来就是为了做更系统化的信息沉淀而建立的社区据点。所以信息繁复庞杂正是其主要特点之一。没关系，由我来为大家做个简单但较为系统的导航地图！如果你刚刚登岛，还未来得及展开探索。那我强烈建议你，先收藏此帖。点击自己头像-我的收藏，即可反复调阅。（二）现在你可以在爱智岛上干这些事儿：去#登岛 | 名册录登记身份信息，登记后去#登岛 | 新人问与答 - Q&A 写：名册录已登记，然后@岛委会成员，即可获得正式身份；去#签到 | hash值（正式岛民）签到赚Hash值（岛内积分，须正式岛民身份）去#商城逛逛，可用Hash值来购买特殊的身份、称号等虚拟资产~获得Hash的方式有很多，比如多发好作品哦被加精的帖字有奖励；参与#02 | 365天行健打卡每天加持打卡，每满百日获365hash值哦；多发原创作品，作品登榜（璇玑榜）也有hash值奖励...更多奖励规则详见：【爱智岛上的一些高阶玩法！必看哦~】- https://imdodo.com/p/433989202431184896新手可去#登岛引导 | AIGC入门（该区为整理收集的AIGC基础技巧和认知相关内容）以及#MJ入门课：莱森的不二高校@爱智岛（该区为岛委成员@莱森老师主讲的MJ入门的系统课程）进行新手入门学习，以及收集的网络学习资料：#SD入门课：Nenly同学的零基础学SD 更多可去#知识图谱 | 资讯枢纽（岛内专享）去看大神作品榜 #璇玑榜（爱智岛大神榜）随时上 #活动预告关注最新岛上的活动，或去#03岛内活动 | 行业资讯看更多资讯；如果你有疑问可以去 #新人问与答 - Q&A 提问，我们会尽量认真回答每一个问题，请尽量提有质量的问题；参与我们的每日AIGC打卡活动~ #04365天行健计划-每天用AIGC打卡！每打满100日和满1年都有hash值奖励！去更多作品专区观赏或发布作品展示： #01公共展馆 -所有作品都能在这里展示；也有国风题材专区： #国创馆1国服文化区 #国创馆2文玩珠宝区等； #三体馆这样的科幻区，#NIJI V5 二次元专区等等；还有我们之前举办的活动专题区：#00主题挑战馆 #05IP兔藏馆 #06【补完岛】百万IP兔比特大赛 #07爱智岛世界杯专题 #【归档】项目/展览/活动等；了解更多更全面的爱智岛资讯：爱智岛简介pdf（2023-9月新版）https://ai-dao-cn.feishu.cn/file/WHJSb5J2Qo8uQjxCuEUcbT9Mnpg?from=from_copylinkAIGC自习资料包：知识图谱 | 资讯枢纽（爱智岛内部专享）我们在飞书上整理爱智岛的知识图谱专区~https://ai-dao-cn.feishu.cn/wiki/QbYkwGXLyikUWEkyN7ScxBXan7c?from=from_copylink 以及更多AIGC相关教程、资讯和攻略文档等：#爱智岛智能学院—AI大师研修班 #知识分享 | 资讯中心 #进阶教程 | 攻略去Discord上的爱智岛共创区学习交流：https://discord.gg/hvTdczqEzC（需科学上网）（三）以下是最基本的入岛操作：改ID、登记名册录、获取正式岛民身份登岛第一件事：改ID昵称登岛第二件事：登记名册录第三件事：@岛委会成员或直接@北邦获取正式岛民身份---------手机端修改自己的id号-------2023.1 岛委宣最后（完）

共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张

25

6

北邦

发布于 2023-12-27 15:48

【桥水基金瑞·达利欧】《原则2》中文版动画，强烈推荐！

在看这个，做的很用心，信息量很大，达利欧的原则解说版，看过书的也值得再看一遍！桥水基金创始人——Ray Dalio瑞达利欧神作。《原则2》独家中文版动画正式上线！吐血推荐！洞悉当今世界变化中的世界秩序~[脱单doge] 官方出的最新中文版本，如果想预测未来，就要细心研读历史，并且从中发现经济社会与国家的演化规律，再基于该规律以及当下所处位置，预测未来发展。作者根据近500年来世界主要强国的发展规律(特别是经济领域)，揭示了国家竞争力的演化周期，以及决定这些周期的因素，是宏观经济学领域高屋建瓴的好书！

2

北邦

发布于 2023-08-24 17:09

在游戏3D领域，20家AI公司怎么做？

本文转载自Gary的《AI沉思录》，感谢Gary分享有价值的思考，原文地址https://aichensilu.com/2023/zyxdlyjagszmz/ 曾有开发者称因为自己的游戏中使用了AI生成内容，被拒绝上架Steam。Steam在发给开发者的邮件中称这部游戏有版权问题：“AI生成美术的法律所有权不明确，除非你拥有训练这些AI所使用的数据的知识产权，否则我们不能上架包含AI生成内容的游戏。”PS：Steam平台是全球最大的综合性数字发行平台之一(特别是游戏)。因此使用AI内容，更应该关注其版权问题，才能正常变现。今天跟大家分享20个游戏3D网站。本文是AI沉思录「1000AI」栏目的第二十四期，「1000AI」栏目专注研究有哪些AI产品，目标研究1000+AI产品(进度:816/1000)以下是整理的AI项目：1、Latent Labs网址：https://www.latentlabs.art 生成一个 3D 世界，你可以根据文本提示环顾四周。支持不同版本的Stable Diffusion 。2、Pixela AI网址：https://pixela.ai AI 生成的游戏纹理。所有这些图像都是使用Stable Diffusion生成的。3、GET3D (Nvidia)网址：https://nv-tlabs.github.io/GET3D/ 从图像中学习的高质量 3D 纹理形状的生成模型。4、GetFloorPlan网址：https://getfloorplan.com 使用AI将你的2D平面图转换为现代且设备齐全的3D布局，并提供360虚拟游览，每天可容纳数千人。5、Texture Lab网址：https://www.texturelab.xyz 借助 AI，在几秒钟内为你的游戏生成 3D 纹理。还提供了在网站上生成的即用型免费纹理的数据库。6、DeepMotion网址：https://www.deepmotion.com Animate 3D 允许你使用实时身体跟踪将视频转换为 3D 动画，以用于游戏、增强/虚拟现实和其他应用程序。7、Poly网址：https://withpoly.com /使用 AI 在几秒钟内生成纹理。只需文本提示即可创建无限的高分辨率、完全自定义、商业许可的纹理。8、Kinetix网址：https://www.kinetix.tech 免费创建3D动画的无代码平台。9、Kaedim网址：https://www.kaedim3d.com 2D 图像到 3D 模型。使用 AI 在线自动将 2D 转换为 3D10、Mirageml网址：https://www.mirageml.com 快速生成 3D 设计。只需使用文本来描述想要的内容，Mirage 的 AI 驱动平台即可生成 3D 网格和纹理11、Leonardo.Ai网址：https://leonardo.ai 创造力，革命性以 AI 驱动的速度和风格一致性为你的创意项目生成生产质量的资产12、PrometheanAI网址：https://www.prometheanai.com Promethean AI 是一个与艺术家合作的人工智能，协助他们构建虚拟世界，并通过提出想法来帮助创造性地解决问题。13、Ponzu网址：https://www.ponzu.gg 用 AI 生成的纹理对 3D assets 进行处理14、The Simulation网址：https://fablesimulation.com 一个以人工智能为中心的元宇宙。由复杂的机器学习、游戏设计、NFT 和 ERC20 代币提供支持。15、G3DAI 网址：https://g3d.ai 只需添加文本提示即可创建所需的任何 3D 资产。16、Imagine 3D网址：https://captures.lumalabs.ai 想象一下，Imageine 3D是用文本制作3D原型的早期实验。17、Masterpiece Studio网址：https://masterpiecestudio.com 使用 AI 简化 3D 创建。传统的 3D 创建工具过于复杂。现代创作者只想创作，而不是迷失在细节中。18、Plask网址：https://plask.ai 人工智能驱动的动作捕捉动画工具。19、Luma AI网址：https://lumalabs.ai 以逼真的 3D 方式捕获。无与伦比的照片写实感、反射和细节。20、Scenario网址：https://www.scenario.gg AI 生成的游戏资产。为你的游戏创建高质量、风格一致的专有资产。

3

北邦

发布于 2023-08-24 04:36

国产之光！ChatGLM2-6B发布，C-Eval超GPT4,支持32k上下文！

原文：https://baijiahao.baidu.com/s?id=1770163402965506701&wfr=spider&for=pc 前面刚说了（这篇最新LLM榜单出炉！PaLM（Bard）被开源LLM反超！Vicuna-33B发布！）国产开源模型后劲不足，ChatGLM以后得中文开原模型都是犹抱琵琶半遮面。这下子新的国产开源就来了，你猜是谁，哎，还是ChatGLM，惊不惊喜？意不意外？自清华大学数据挖掘实验室（THUDM）3月开源ChatGLM-6B已经过去了3个多月，最近他们又带来了性能全面提升的“船新”版本-ChatGLM2-6B。别看名字变化小，其实更新的模型性能是又有量又实用。不了解ChatGLM的小伙伴可以看我这篇文章（ChatGLM：一个开源的中英双语大语言模型）。更新要点惯例，我们先总结下本次的更新要点：上下文从2k扩展到了32k：这个更新在整个LLM开源届都是相当炸裂，目前绝大多数开源模型的上下文都只有2k，而GPT3.5已经升级到了16k，GPT4目前支持8K，Claude的特殊版本极限可以支持100k。因此仅就多轮对话能力来讲，开源模型和私有模型还存在代差。而这次ChatGLM2的上下文直接提升到了32k，直接到了私有模型水平，无疑是极大的提高了模型的多轮对话能力。当然，不出意外，很快开源模型的上下文能力就会有整体提升了，具体原因后面再展开说。性能极大提升，C-Eval超GPT4：ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，基座模型获得了极大的提升。在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升。这里尤其耀眼的是CEval（这是一个由上海交通大学语言智能技术实验室提出的中文基础模型评估套件）成绩，ChatGLM2-6B目前已经超越了GPT4，跃居榜首。这里简单解释下，CEval并不是一个没有含金量的大模型评估套件，相反在中文评估能力上CEval还是我认为目前最权威的指标之一。所以ChatGLM2-6B的CEval成绩超过GPT4确实提升巨大。但是，经过实际体验后，客观的说ChatGLM2-6B依然还和GPT4有一定差距，但是提升也确实很大。这并不是说CEval评估的不准，主要是一个评估的侧重点问题，这个也放到后续具体讨论。推理效率提高：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。说白了，使用门槛进一步降低了，本来ChatGLM就是入门显卡（如3060TI）玩大模型的最好选择，现在ChatGLM2-6B成了最好的上位替代。有条件的商业开源：ChatGLM2-6B 权重对学术研究完全开放，在获得官方的书面许可后，亦允许商业使用。虽然还是有条件的，但是还是开了商用的口子，下次说不定就完全商用开源了，在国内环境下，还是非常有魄力的。简单谈谈GLM这里我觉得还是有必要在简单介绍下GLM，虽然它和GPT都姓G，但实际上并不是一家子。GLM是清华大学和腾讯AI Lab联合提出的一种基于自回归空白填充的通用语言模型（GLM）。GLM的核心思想是，在预训练阶段，将输入文本中的一些连续或不连续的片段替换为特殊的空白符号，并按照任意顺序预测这些空白处的内容。这样做有两个好处：一是可以增加模型对文本结构和语义的理解能力；二是可以通过调整空白的数量和长度，适应不同类型的任务。例如，如果空白很少且很短，那么就相当于进行掩码语言建模（MLM），适合NLU任务；如果空白很多且很长，那么就相当于进行完全自回归建模（ARM），适合无条件生成任务；如果空白在文本前后分布不均匀，那么就相当于进行部分自回归建模（PARM），适合有条件生成任务。GLM在多个数据集和任务上进行了实验验证，结果显示，在相同的模型大小和数据下，GLM均优于BERT、T5和GPT，并且使用比BERT Large少1.25倍的参数，就能达到单个预训练模型的最佳性能。这证明了GLM对不同下游任务的泛化能力和效率。GLM本身模型构架上的优势还是很明显的，ChatGLM-6B 的性能几乎同等于很多开源的13B的模型。更长的上下文本次ChatGLM2-6B上下文从2k扩展到了32k主要是应用了一种叫做 FlashAttention 的技术。flash-attention是一种快速、高效、可扩展的注意力机制，它利用了一种称为哈希感知（hash-aware）的技术，可以根据它们的相似性将输入序列中的元素分配到不同的桶（bucket）中。这样，模型只需要计算桶内元素之间的注意力权重，而不是整个序列。这大大减少了计算量和内存需求，同时保持了较高的精度和表达能力。ChatGLM2-6B虽然可以支持32k，但是在对话阶段使用的8K 的上下文长度训练，因此其多轮对话能力大大增强了，但是对单轮超长文档的理解能力依然有限。整体测试下来确实比大部分开源模型的体感要强，尤其是在长文本问答和总结方面，优势明显。但是，本次ChatGLM2-6B长上下文的先发优势可能也无法维持太久，因为最新在上下文领域的新技术也是层出不穷。尤其是Meta的新作《Extending Context Window of Large Language Models via Positional Interpolation》，该论文提出了一种位置插值（Position Interpolation，PI）的方法，可以在最小的微调（1000步以内）的情况下，将基于RoPE的预训练LLMs（如LLaMA模型）的上下文窗口大小扩展到32768，并保持整体性能几乎不变。不出意外，LLaMA家族的众多模型很快将会具备32k上下文能力。性能极大提升这里我直接放ChatGLM2-6B官方的对比，可以看出来本次版本的性能提升还是非常显著的。数理逻辑知识推理长文档理解C-Eval这里还是再稍微多介绍几句C-Eval。C-Eval数据集包含13948个多选题，涵盖52个不同的学科领域，如语文、数学、物理、化学、生物、历史、地理、政治、经济、法律等。这些题目分为四个难度等级，分别对应小学、初中、高中和大学的教育阶段。每个题目都有四个选项，其中一个是正确答案，另外三个是干扰项。每个题目还有一个问题类型标签，表示该题目考察的是事实性知识、推理能力、应用能力还是创新能力。C-Eval数据集旨在全面地评估基础模型在中文领域的表现，包括语言理解、知识获取、逻辑推理和跨领域迁移等方面。该数据集已经在Hugging Face平台上公开发布，并提供了一个可视化的网页，方便用户浏览和使用。该数据集也已经被用于测试了多个主流的基础模型，如BERT、RoBERTa、ERNIE等，发现它们在该数据集上的表现还有很大的提升空间。下图是目前最新的C-Eval测评结果榜单：首先，从测试结果上看，我认为ChatGLM2-6B超越GPT4是比较真实的，大家从榜单的具体成绩可以看出，ChatGLM2-6B主要赢在Social Science,Humanities 和 Others 这三项上。而这三项实际上和训练的语料关系是比较大的，其中的很多项目是和国家的国情相关的，而非世界通识。因此，虽然我们不知道GPT4的中文语料占比，但是按照GPT3.5来推测的话，中文语料应该不会超过2%。而ChatGLM2-6B的语料是以中文为主的，所以在这几项上ChatGLM2-6B也并不足为奇。其次，ChatGLM2-6B的C-Eval评分高并不代表其中文能力已经超过GPT4了，因为大家看到了C-Eval测试其实就是单选题。做题做的好只能说明中文知识储备丰富，并不等于中文能力更强。这和我个人的测试体感也是相符的，即ChatGLM2-6B确实进步很大，但也就是类似Vicuna-13B英文这个级别的能力。如果加上多轮对话和更复杂的任务，GPT4还是完胜。推理效率提高加速推理方面，ChatGLM2-6B主要应用了Multi-Query Attention技术。Multi-Query Attention 是一种新颖的注意力机制，它可以有效地提高 Transformer 模型的推理速度，同时保持高质量的序列表示。它的核心思想是将多个注意力头的键和值合并为一个共享的张量，从而减少了内存访问的开销。这样，每个注意力头只需要计算自己的查询向量，然后与共享的键和值进行点积运算，得到输出向量。Multi-Query Attention 可以看作是一种权衡，它牺牲了一些模型的容量和表达能力，换取了更快的推理速度和更低的资源消耗。在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。本次的效率提升还是挺大的，确实降低了其使用门槛。再加上其又放松了模型的开源限制，目前是可以有限制的商用的。因此，其实在很多类似客户或者文档问答的任务中，目前已经可以考虑用ChatGLM2-6B来代替GPT3.5了。结语ChatGLM2-6B的发布无疑震撼了表面歌舞升平，实际死气沉沉的国产开源LLM社区。希望在ChatGLM2-6B的鲶鱼效应下，我们能看到越来越多，也越来越好的国产开源LLM。博览AI的奥秘，博学AI的知识，博交AI的朋友，我是博而不士，欢迎加入我的AI探索之旅。关注我，一起玩转AI。!

共5张
共5张
共5张
共5张
共5张

1

袁锐钦

发布于 2023-07-15 15:34

ps制作无版权产品摄影图

共5张
共5张
共5张
共5张
共5张

2

北邦

发布于 2023-07-09 01:33

【SD进阶】Embeddings | LoRa | Hypernetwork概念简析

注：此教程为转载内容，在此感谢B站UP主：Nenly同学的分享课程~原教程地址：https://www.bilibili.com/video/BV1th4y1p7fH/?spm_id_from=333.788 很不错的课程，深入浅出地解释了这几类SD小模型，Embeddings（词嵌入）、LoRa（低秩适应模型）、Hypernetwork（超网络）这三种“小模型”，从原理出发，并探究它们在SD WebUI中的一系列应用。这对我们理解和服用SD小模型很有帮助，特别是混合使用的高阶服用需求。(Nenly同学SD系列课非常适合入门同学来学习，难得比较系统化的SD教程。)岛上也有转帖入口，戳这里：#SD入门课：Nenly同学的零基础学SD 教程中提到的Embeddings（词嵌入）是我们很容易忽略的部分，很推荐这个c站的嵌入模型Deep Negative，是一个对修手很有帮助的应用：Deep Negative V1.xhttps://civitai.com/models/4629?modelVersionId=5637 TOP Q&Ahow to use TI model? / 如何使用TI模型？https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion what is negative prompt? / 什么是否定提示？https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Negative-prompt

共3张
共3张
共3张

2

北邦

回复于 2023-07-04 22:29

国产AI作画引擎集合！

国内AIGC产业正日益昌盛，同时资讯更迭速率也日益加快，导致诸多大家信息盲区，特收集相关资讯，以期为诸君一解对齐信息之忧。注：以下内容皆非完全原创，多为收集整理而来！国内一、Tiamat工具内测网址:https://tiamat-ai.feishu.cn/share/base/shrcn2uXL8wNiveykIFYqWSzsPf 简介：国内团队出品，相当于支持中文的强化版 Disco Diffusion，可以说是国产AI绘画之光。功能：Tiamat生成图片的速度非常快，操作也很简单，只要输入你想要的画面关键词，然后等待5分钟就可以一幅不错的艺术画作。这款工具还有一个更高阶的玩法，可以以某张照片或草稿图作为垫图，让AI基于这张垫图进行再创作。关于这款工具，站长之家此前也作出详细介绍，可点击《国产AI绘画之光!AI生成艺术工具Tiamat上线5分钟就能出图!》一文查看。国内二、6pen.art工具网址:https://6pen.art/简介:同样是国内团队出品，用户无需内测，打开后直接可以使用。注：图片来自官网截图功能:这款工具使用方法十分简单，在文本框中输入自己想要描绘画面的文字描述，点击生成即可。6pen 支持图像尺寸，参考图，随机种子等核心功能。另外，6pen支持中文，而且汇总了不同的绘画风格，用户在输入文字描述的同时，还可以选择水墨画、油画、素描等风格，同时还可以选择仙境、赛博朋克、超现实等风格修饰。具体内容可访问站长之家文章《手残党福音!支持中文的AI生成绘画工具来了》。国内三、文心·一格工具网址:https://yige.baidu.com/ 简介：百度出品，基于百度文心大模型能力的AI艺术和倡议辅助平台，不仅使用简单，图像生成速度也极快。功能：画作由人工智能生成，用户只需输入语言描述就可以生成不同风格、独一无二的创意画作，为设计提供灵感、为创作带来更多创意。只需要输入一句话，并选择方向、风格、尺寸，AI就可以生成画作。不同的文字、方向、风格，会带来不同的效果。不同方向下AI擅长的能力不同，可以结合你的需要选择合适的方向。如果不知道选什么，大家可以试试【智能推荐】，工具会自动生成多种风格画作供参考。平台还提供了生成画作的应用场景。国内四、Draft网址:https://draft.art 这款国产Ai绘画产品中英文都支持，让大家轻松。创作使用非常简单，移动端/pc端输入网址即可使用，无需下载。生成速度也相当不错，快的话，只要十秒就能出图。另外，社区提供瀑布流素材，可以带来灵感创意。国内五、盗梦师体验网址：https://www.printidea.art/ 它是西湖心辰联合西湖大学深度学习实验室最新发布的一款AI绘画微信小程序，对新手十分友好。操作便捷，微信打开小程序就能用。中文输入，五到十秒就能出图，不用调节各种参数。平台内有赛博朋克、水彩、油画、中国风、动漫、游戏场景、像素艺术等十几种绘画风格，另外还有8位世界级画作大师笔风可供选择和参考。指定风格或艺术家之后，就可以模仿该画家的笔触和个人特色生成固定风格的画面。国内六、画宇宙nolibox体验网址：https://creator.nolibox.com/ 作为国内最早在AI生成设计（区别于Canva等模板设计的智能设计）领域深度布局的初创企业之一，「Nolibox」的核心团队一直在持续探索AI与创造力的深度融合，并以AIGC作为核心进行了产品化的布局。其产品前身图宇宙是一个在线智能设计服务平台，在此开发基础上，将设计服务群体的需求挖掘并加强设计类人群的垂直应用体验是其亮点和优势。其推出「无限画板」和「生产力工具」的概念都是很好的设计思维的应用。“作为一个画板，它可以让用户在同一个交互界面上看到自己历史生成过的所有作品，也可以像Figma一样，在画布内对这些作品进行自由编辑。作为生产力工具来说，我们除了集成、优化了SD模型以外，也集成了各种各样的技术，而不是简单的给一段文本，生成，然后就结束了。用户可以先用文本生成很多张图，然后选中其中觉得比较好的图，再用超分辨率把它变成一张高清的图，进行后续的自由编辑和创造。这样的话，其实可以给予用户一个更加自由的创作环境，而不是一次性的创作。”国内七、站酷AI实验室体验地址：https://www.zcool.com.cn/ailab 为国内首屈一指的原创聚集地站酷网旗下研发的基于SD模型的AI应用，目前上海测试阶段，支持中文输入，目前功能较为单一，好处是可以快捷的作为原创内容在站酷上发布AI作品。国内八、无界版图体验地址：https://www.zcool.com.cn/ailab 是基于Stable Diffusion的模型研发而成，基本上可以实现Stable Diffusion的所有功能，而且支持中文输入，操作上更加简便，为没有代码基础的创作者提供了便利。国内九、YUAN初体验地址：https://yuan.zmoai.cn/ 基于研优化的Implicit style diffusion技术，为户提供从AI辅助内容创作到AI完全成的技术引擎与创作平台。近日，ZMO的中文平台“YUAN初”、以及同名小程序全新上线，用户可以便捷体验AI图像生成。“在ZMO 所开发的新一代AIGC引擎加持下，YUAN初不仅可以生成逼真的照片、自然的光影效果，还可以生成插画、动漫、游戏、艺术品等内容。”YUAN初已经具备3D内容的生成能力，其AIGC引擎可以生成3D、二次元的卡通形象，包括塑料、棉布、亚克力等常见的3D材质，YUAN初能够基于不同材质的特性在光影下生成真实的反射率，折射率。国内十二、画derApp应用平台：Android比较简易的AI生成工具，目前只是刚刚上线的1.0版本。国内十一、爱作画十月底开始内测，暂无体验地址目测应该也是基于SD的开源版本的垂直类应用针对从事艺术工作的专业创作者或者AI绘画的资深玩家，爱作画也推出了更多更专业的进阶玩法来帮助用户激发创意，提升内容多样性。首先，在参数设置上，爱作画加上了生成步骤、相似程度、采样器、种子等更专业细致的参数，让专业人士能够详尽地把控图片的质量、细节、色彩等方面。如果你对生成的图片不满意，还可以进行二次修改，爱作画有一项遮掩功能，可以选择你想调整的区域，对生成的图片进行特定内容增减以及修改。同时，爱作画还支持以图生图，你可以以某张照片或草稿图作为垫图，让AI基于这张垫图进行再创作。在最新更新的版本中，爱作画还新增加了一键抠图和图片像素增强功能。目前，爱作画平台一幅作品最快可以在4秒内完成。同时为了让出图质量更好，爱作画训练了自动翻译和补全优化，系统可以自动帮助还不太会描述的新手玩家优化描述词以达到更好的创作效果。更多见--爱智岛（AI.DAO）- -

共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张
共11张

5

3

北邦

发布于 2023-07-01 23:51

【SD采样方法】完整教程

感谢B站Up主-ET白宝箱的教程分享~采样方法对比图,我两个网盘内容都一样,我喜欢阿里是因为不限速。阿里：https://www.aliyundrive.com/s/UXXPZnTVi7x 提取码: kz12 百度：链接：https://pan.baidu.com/s/1raib0i7D2JrpFC_wJoD8yg?pwd=Et51 提取码：Et51

2

北邦

发布于 2023-07-01 21:50

【SD-Controlnet】插件⚡️多模型组合技能分享

全部资料下载（模型，课件，全部tag等，课件仅供学习，禁止商用）夸克（推荐）链接：https://pan.quark.cn/s/2b4299f106b5 提取码：FxPu 百度：链接：https://pan.baidu.com/s/1xaiKchmXdijD-WvZ3JW2-w?pwd=erha 提取码：erha

2

北邦

发布于 2023-07-01 21:41

【loRA】分层控制与融合教程~特别牛逼实用的教程~

B站最通俗易懂的loRA分层控制与融合教程⚡️5分钟解决污染视频内的两个插件： https://github.com/hako-mikan/sd-webui-lora-block-weight https://github.com/hako-mikan/sd-webui-supermerger 视频内的模型： https://civitai.com/models/8484/yae-miko-or-realistic-genshin-lora https://civitai.com/models/12597/moxin 也可以在国内版C站下载：https://www.liblibai.com/#/ 全部资料下载（模型，课件，全部tag等，课件仅供学习，禁止商用）夸克（推荐）链接：https://pan.quark.cn/s/2b4299f106b5 提取码：FxPu 百度：链接：https://pan.baidu.com/s/1xaiKchmXdijD-WvZ3JW2-w?pwd=erha

3

北邦

发布于 2023-06-18 16:11

Mj九阴真经：MJ艺术家风格可视化资料

一份详尽的有关预览MJ艺术家风格的可视资料，非常详尽，每一位受益的小伙伴都应该感谢作者的用心付出。它有个很有煽动性的名字：Mj九阴真经链接：https://pan.baidu.com/s/1eL2fmjkWcMU1BPQn9n-Fyg?pwd=y938 提取码：y938 --来自百度网盘超级会员V8的分享

共3张
共3张
共3张

2

AlanQ

回复于 2023-06-09 22:44

AI辅助设计-StableDiffusion学习路径

感谢 AI建筑研究室的收集整理。非常棒的针对设计领域（建筑，景观，室内）的细化SD的学习路径及工具工作流的逻辑图。分享给大家。再次感谢大佬们的辛苦付出！！！

共4张
共4张
共4张
共4张

6

2

北邦

发布于 2023-05-31 14:32

神器！专治SD里的面部崩坏

注以下视频内容为B站转载：感谢up主 @娜乌斯嘉的分享原帖来自b站：https://www.bilibili.com/video/BV13s4y197cK/?spm_id_from=333.337.search-card.all.click&vd_source=8c2a86ab53df9752cdd75679f58834a6 GitHub插件地址：https://github.com/Bing-su/adetailer在线安装：https://github.com/Bing-su/adetailer.git模型下载地址：https://huggingface.co/Bingsu/adetailer

2

AlanQ

发布于 2023-05-27 23:53

分享【Lora训练核心参数心得】

from ：B站朱尼酱赛博炼丹炉整体对于炼丹的认知做了总结和细致的分析，还是非常有益的。更多内容可以去B站朱尼酱的频道学习。

5

灰

回复于 2023-05-19 10:33

Insight face bot 命令合集

insight face bot 命令合集： /idname 创建一个ID /setid 设定主ID /swapid 本地图像换脸 /saveid name upload-ID-image 上传图片并注册ID /setid name(s) 从上下文菜单中轻松设置图像生成的身份名称。您可以通过用逗号分隔来指定多个 ID。 /swapid name(s) upload-ID-image 用目标图像上的注册身份名称替换面部。 /listid 列出所有注册的身份名称。您最多可以创建 10 个不同的 ID！ /delid name 删除特定身份名称。 /delall 删除所有注册的名称。

2

1

北邦

发布于 2023-05-16 11:58

赶紧马克！108个AIGC创作生态资源导航~

108个当下最新最实用！AI人工智能创作网站涵盖了10个领域！你肯定用得到 → https://hao.uisdc.com/ai/?wb

共6张
共6张
共6张
共6张
共6张
共6张

5

北邦

回复于 2023-05-11 21:55

一键换脸！有点惊喜的是支持MJ哦~

注：以下为转载内容，原作者：网黑哥，公众号：网罗灯下黑原文地址：https://mp.weixin.qq.com/s/1uA7fYVLPRNCtYL0DwAFig AI 换脸这个词放到 2023 年的今天，可以说是恶名远扬了，不同于 AI 绘画的出圈，当你在新闻里见到这项技术的时候，往往跟着的都是些越来越刑的造谣事件。这就直接导致了关于 AI 换脸的工具，总是昙花一现，对于绝大多数人来说，门槛颇高。有没有机会，可以让小白也能一键换脸呢？当然有，事情是这样的，前段时间有朋友想让我用 AI 绘画帮他搞几张头像，要求就一个，和自己长得像。所以我就去稍微研究了一下，但无论是 Stable Diffusion 也好，Midjourney 也罢，垫图确实能让人物脸型保持 80% 的相似度，可五官总是差点意思。所以我把目光放到了换脸工具上，给大家展示一下效果：从左到右，花了大概 5 分钟吧，整体思路就是用 AI 绘画生成一张人物图，然后再用换脸工具把五官给 Copy 过去。没有任何门槛，一键就能搞定，踩了一些坑和大家分享一下。InsightFaceSwapAI 换脸的老玩家，看到这一小节的标题肯定不陌生，InsightFace 其实是早两年的开源项目，主攻方向是 2D 和 3D 的面部分析，GitHub 上斩获了 14.3K Star。地址：https://github.com/deepinsight/insightface这次被我挖出来，主要是因为 Discord 上多了一个名为 InsightFace 的机器人，如果你在玩 Midjourney，是可以无缝把 AI 换脸功能应用在 AI 绘画里的。当然，如果你单纯的想体验它的换脸，也是可以在 Discord 上体验的，需要我们给自己的服务器绑定上 InsightFaceSwap bot。PS：Discord 虽然没办法直连，但类似原 Steam++ 这样的本地反代是可以改善现状，免翻访问的，有兴趣的小伙伴可以搜搜看，这里不展开了。第一次知晓 Discord 的小伙伴看到这或许很蒙，形象点比喻，Discord 是微信平台，里面有很多微信群，今天的主角和 Midjourney 都只是其中之一。这些微信群里有提供服务的客服机器人，我们只要把这些机器人拉到自己的群里，就可以实现各种操作。具体准备需要你有一个 Discord 的账号，然后找左侧「+」创建自己的聊天群。依次选择「亲自创建-仅供我和我的朋友使用」，然后起个名字，并上传头像。最后访问下面这个链接，选择创建好的聊天群，就搞定 InsightFaceSwap 的机器人了。地址：https://discord.com/oauth2/authorize?client_id=1090660574196674713&permissions=274877945856&scope=bot回到 Discord，你会见到 InsightFaceSwap 加入了队伍的提示。具体操作在 Discord 上使用 InsightFaceSwap，需要你提前知道几个关于这个工具的指令，不多，一共就 6 个。在 Discord 输入框输入「/」触发，我们挑几个核心的来介绍。「/saveid」：保存人脸特征，其实就是需要你上传一张人脸的图片，然后在 idname 那起一个后面调用这个人脸特征的名字。我这里选的是寡姐的经典照片：但需要注意的是——1、ID 名不能超过 8 个字符，且仅支持中英文；2、对上传的照片有要求，清晰、正脸、无遮挡，过度美颜、清晰度低、戴眼镜（有遮挡）的图片都会导致效果差，这也是为啥我没选三上老师的原因，实在找不到了。。。如果你只想换这一张脸，用了「/saveid」指令后，所有的配置都已经搞定了，是的，就是这么简单。你可以向 Discord 上发一张图，鼠标右键的菜单里「APP-INSwapper」就可以完成换脸。也可以用「/swapid」的指令完成换脸，此时上传的图片是待换脸的图片，idname 选之前我们起的那个名。不管那种方式，你都能得到一张，脸部特征替换过的图片。至于怎么选两种调用换脸的方式，我的建议和 Midjourney 结合，用第一种方式；用 Stable Diffusion 或者自己的图需要换脸，用第二种。原因嘛，不妨试试「/listid」的指令，即当你向 InsightFaceSwap 上传多张图片时，每一张图内的脸部特征都会对应的一个 ID，最多保留 10 个特征/ID。这时想要对着 Discord 右键换脸，就需要设置默认的特征/ID 了，用到的指令是「/setid」。如果你聊天群里有 Midjourney，文生图后，直接右键就好。原图是这样的：换脸后是这样的，效果喜人。总的来说，用这个换脸机器人没啥难的，真的是有手就行，剩下的多尝试，这个工具还能把脸部特征迁移到二次元上，玩法更多。无奖竞猜环节，以下蒙娜丽莎又是谁呢？结语对了，在使用这个换脸机器人的时候，我发现真正适合 InsightFaceSwap 的底图，一定是脸型相像的，毕竟它主打一个替换五官特征。绑定 InsightFaceSwap 机器人后，每个账号每天有 50 次的使用限制，按官方的说法，是为了防自动化脚本。。。不过 50 次，对于个人来说，也绝对够体验了。可以说这是当前，对小白最优化，也最简单的换脸工具了，不过还是那句话，这玩意稍有不慎就太刑了，所以歪脑筋千万不要动，更别有什么大胆的想法。想体验的还等什么，快去试试吧。PS：爱智岛Discord专区（https://discord.gg/hvTdczqEzC）已经假设好换脸机器人，可以直接上去按教程操作了哦：