AI大模型学习笔记,记录一些AI大模型相关的基础知识
- Python
- 6天前
- 13热度
- 0评论
Flux 模型
Flux 模型是由 Black Forest Labs 开发的一款前沿的文本到图像生成模型,旨在通过高质量的图像生成能力满足多种创作需求。
Flux 模型基于 Diffusion Transformer 架构,结合了多模态处理能力和并行扩散机制的 Transformer 技术,并扩展至高达 120 亿参数。它采用了流匹配技术进行训练,这种方法通用性强且概念简洁,特别适用于扩散过程。
Flux 模型包含三个版本,分别针对不同的使用场景和需求:
- FLUX.1 Pro:闭源模型,提供最佳性能,适合商业应用,仅通过 API 使用。
- FLUX.1 Dev:开源模型,不可商用,基于 Pro 版本蒸馏而来,图像质量和提示词遵循能力与 Pro 版本相似,但更高效。
- FLUX.1 Schnell:开源模型,基于 Apache 2.0 协议,专为本地开发和个人使用设计,具有最快的生成速度和最小的内存占用。
Stable Diffusion
Stable Diffusion 是一种基于深度学习的文本到图像生成模型,能够根据用户输入的文本描述生成高质量的图像。它属于潜在扩散模型(Latent Diffusion Model),通过逐步去除噪声的方式生成图像。
- 文本到图像(txt2img):输入文本描述,生成对应的图像。
- 图生图(img2img):基于已有图像进行修改或变形,生成新的图像。
- 开源免费:模型和代码完全开源,用户可以自由使用和扩展。
- 高效出图:本地部署后,生成图像的速度由硬件性能决定
stable-diffusion-webui:https://github.com/AUTOMATIC1111/stable-diffusion-webui
Stable模型:https://civitai.com/
ControlNet
ControlNet 是一个强大的插件,用于控制和引导 Stable Diffusion 生成图像的过程。它通过添加额外的条件输入(如线稿、姿势、深度图等),帮助用户更精准地生成符合需求的图像。
ComfyUI
ComfyUI 是由开发者 comfyanonymous 开发的一个基于节点的图形用户界面(GUI),专门用于 Stable Diffusion。它通过节点式编程的方式,让用户可以通过连接不同的功能模块(节点)来构建复杂的图像生成工作流。
ComfyUI 的开发初衷是为了提供一种更直观、灵活且高效的方式来管理和操作 Stable Diffusion 的图像生成过程。
相关名词
1.Checkpoint
在大模型中,Checkpoint 是指在模型训练过程中保存的中间状态和结果,通常包括模型的权重、优化器状态、训练进度(如当前的 epoch 和 batch 编号)以及其他相关的元数据。
Checkpoint 的作用:
- 防止训练中断导致的损失:训练大模型通常需要大量时间和计算资源,Checkpoint 可以在训练过程中保存模型状态,防止因意外中断(如断电、程序崩溃)导致训练进度丢失。
- 支持断点续训:当训练过程中需要暂停(如调整超参数或手动停止训练)时,Checkpoint 允许从最近的状态恢复训练,而无需从头开始。
- 保存最佳模型版本:在训练过程中,可以通过保存多个 Checkpoint 来记录不同阶段的模型表现,从而选择最优的模型版本。
- 支持迁移学习:预训练模型的 Checkpoint 可以作为新任务的起点,进行微调(fine-tuning),从而提高训练效率。
- 调试和验证:Checkpoint 可以用于调试模型性能,帮助开发者更好地理解模型在不同阶段的表现。
一个典型的 Checkpoint 文件通常包含以下内容:
- 模型权重:模型的所有参数(如权重和偏置)。
- 优化器状态:优化器的状态(如学习率、动量等)。
- 训练状态:当前的训练轮数(epoch)、批次(batch)编号等。
- 其他元数据:如学习率调度器的状态、自定义指标等。
Checkpoint 的使用通常涉及以下步骤:
- 保存 Checkpoint:在训练过程中定期保存模型的状态。
- 恢复 Checkpoint:在训练中断或需要时,从 Checkpoint 文件中恢复模型的状态。
- 继续训练或推理:使用恢复后的模型进行继续训练或进行推理。
2.LoRA
LoRA(Low-Rank Adaptation)是一种高效的参数微调方法,主要用于在不改变预训练模型架构的前提下,通过引入少量可训练的低秩矩阵来适应特定任务或风格。这种方法在大语言模型(LLMs)和生成式模型(如Stable Diffusion)中得到了广泛应用。
3.SFT
AI领域,SFT通常指“监督微调”(Supervised Fine-Tuning),这是一种对预训练模型进行优化的技术。
监督微调是在预训练模型的基础上,利用标注好的特定任务数据对模型进行进一步训练的过程。预训练模型通常在大规模通用数据集上进行无监督训练,学习语言的基本结构和知识。通过SFT,模型可以学习特定任务的特征和模式,从而提高在该任务上的表现 。
4.RL
RL(Reinforcement Learning,强化学习),强化学习是一种机器学习方法,通过让智能体(Agent)在环境中进行试错,根据环境的反馈(奖励或惩罚)来学习最优行为策略。在大型语言模型(LLM)中,强化学习可以用于优化模型的推理能力,使其在特定任务上表现得更好。
在DeepSeek R1模型中,强化学习被用于从基础模型出发,通过试错机制自主发展推理能力,无需监督微调。例如,DeepSeek R1-Zero版本完全依赖强化学习进行训练,展现了自我验证、长链推理(CoT)等新兴能力。
5.CoT
CoT(Chain-of-Thought,思维链),思维链是指模型在输出最终答案之前,以自然语言的形式生成思路或推理链,使得结果更具可解释性。例如,在解决数学问题时,模型不仅输出最终答案,还会像人类一样逐步展示计算或推导过程。
6.多模态
多模态(Multimodality)是指通过融合多种不同类型的信息或数据(如文本、图像、视频、音频、传感器数据等)来增强数据理解和处理能力的技术。在机器学习和人工智能领域,多模态技术的目标是利用来自多种模态的信息,提高任务性能,提供更丰富的用户体验,或获得更全面的数据分析结果。
7.NSFW
NSFW 是 Not Safe For Work 的缩写,意为“不适合在工作场合展示或讨论的内容”。它通常用来标记包含色情、暴力、血腥或其他可能令人不适的内容。