LLaMA-Factory 免费

Name: LLaMA-Factory
Price: 免费 CNY
Availability: InStock
Author: LLaMA-Factory Maintainers

开发公司 LLaMA-Factory Maintainers

地区中国

官网 https://github.com/hiyouga/LlamaFactory

LLaMA-Factory 是统一的 LLM/VLM 高效微调框架，支持 LoRA、QLoRA、全参数训练与评估流程，适用于模型团队快速迭代。

LLaMA-Factory

核心参数与统计

LLaMA-Factory 是一个统一的高效微调框架，官方定位为 "Unified Efficient Fine-Tuning of 100+ LLMs & VLMs"，覆盖从指令微调到偏好对齐的完整训练链路。

项目	公开信息
官方定位	Unified Efficient Fine-Tuning of 100+ LLMs & VLMs
开源许可	Apache-2.0
GitHub Stars	~73,400
GitHub Forks	~9,000
Open Issues	~980
贡献者	290+
发布次数	36 个 Release
最新版本	v0.9.5（2026-05-30）
首次创建	2023-05-28
官方文档	llamafactory.readthedocs.io
支持模型	100+ LLM 与 VLM
训练策略	Pre-training、SFT、Reward Modeling、PPO、DPO、KTO、ORPO、SimPO
量化位数	2/3/4/5/6/8-bit QLoRA

产品边界：LLaMA-Factory 关注的是训练与评估链路，不替代线上推理网关、企业应用层工作流平台或数据标注工具。如果你的需求只是调用现成推理 API、无需训练或微调，LLaMA-Factory 会显著增加实施复杂度。

市场位置：在开源训练框架中，LLaMA-Factory 与 axolotl、Hugging Face TRL、Unsloth 构成了主要竞争格局。LLaMA-Factory 的核心差异在于"零代码入口 + 最广模型覆盖"，而非训练速度或单模型极致优化。下表展示了与同类框架的关键差异：

维度	LLaMA-Factory	axolotl	Hugging Face TRL	Unsloth
代码门槛	零代码（Web UI + YAML）	需 YAML 配置	需 Python 脚本	需 Python 脚本
模型覆盖	100+（含 VLM/多模态）	~50	无限（依赖 Transformers）	~20
训练策略	8 种（含 RLHF）	~5 种	6 种	3 种
量化支持	2-8bit 全系	4/8-bit	4/8-bit	4-bit
Web UI	内置 LLaMA Board	无	无	无
分布式训练	DeepSpeed + Megatron	DeepSpeed	DeepSpeed	DeepSpeed
硬件门槛最低	QLoRA 2bit 仅需 4GB	8GB+	8GB+	6GB+
开源许可	Apache-2.0	Apache-2.0	Apache-2.0	Apache-2.0

LLaMA-Factory 的用户与市场认可

社区规模：GitHub 73,400+ stars 与 9,000+ forks 使其成为开源微调领域关注度最高的项目之一。290+ 贡献者与 36 个 Release 说明项目已越过早期实验阶段，形成了相对稳定的社区协作机制。

企业背书：官方 README 明确列出被 Amazon（在 SageMaker HyperPod 上用于多模态金融文档信息提取）、NVIDIA（RTX AI Toolkit 集成）、阿里云（PAI-DSW 镜像集成）等采用。这些案例表明 LLaMA-Factory 已被头部云厂商纳入其 AI 基础设施生态。

学术引用：论文 "LLaMAFactory: Unified Efficient Fine-Tuning of 100+ Language Models" 发表于 ACL 2024（System Demonstrations），具备学术界认可度。

未公开项：官方未公开商业客户规模、付费转化指标及营收数据。市场化数据以官方后续披露为准。

成本优势：用开源压低模型定制的算力门槛

LLaMA-Factory 本身完全开源免费，使用成本核心来自算力资源与人力投入。以下从三层成本结构展开。

C 端/个人：个人研究者可在单卡 GPU（如 RTX 4090 24GB）上运行 QLoRA 微调，显存需求低至 6GB（2-bit QLoRA）。搭配 Hugging Face 或 ModelScope 上的开源数据集，单次微调实验的算力成本可控制在几十元人民币级。Google Colab 免费版即可运行小规模实验。

开发者/API 团队：显性费用在于 GPU 实例租赁。通过 LoRA/QLoRA 可将单次微调成本降低到全参数训练的 10%-30%。下表展示不同配置下的估算硬件成本（以主流云 GPU 按需价格为例）：

微调策略	显存需求（7B 模型）	显存需求（70B 模型）	单次训练时长估算（7B）	云 GPU 成本估算（7B）
全参数（bf16）	~60GB	~600GB	4-8 小时	$10-30
LoRA（16bit）	~16GB	~160GB	2-4 小时	$5-15
QLoRA（8bit）	~10GB	~80GB	2-4 小时	$3-10
QLoRA（4bit）	~6GB	~48GB	3-5 小时	$3-8
QLoRA（2bit）	~4GB	~24GB	4-6 小时	$2-6

注：上表为推算值，实际成本因模型架构、序列长度、数据集规模GPU 型号（A100/H100/4090）及云厂商定价策略而异。以云厂商实时计费为准。

企业/私有化：企业可在私有算力有境部署，但需额外承担：

数据治理成本：训练数据清洗、标注质量审核、版权合规审查的人力投入通常超过算力成本。
实验管理成本：多版本实验对比、超参搜索Checkpoint 管理需要配套的实验追踪基础设施（如 W&B、MLflow）。
集群调度成本：多卡/多节点训练需配置 DeepSpeed 或 Megatron，涉及运维能力。
模型治理成本：微调后的模型版本管理A/B 评估、安全对齐审查。

隐性收益：统一训练入口可将"每个模型一套训练脚本"的维护成本降低约 60%-80%（推算），团队在切换模型时无需重写数据加载、训练循有与评估逻辑。

LLaMA-Factory 的主要功能

100+ 模型统一微调入口：覆盖 LLaMA、Qwen、DeepSeek、Gemma、Mistral、GLM、Phi 等主流模型家族，单套配置入口即可切换模型。实际使用中，切换模型只需修改 YAML 中的 model_name_or_path 字段，大幅减少适配脚本编写。
8 种训练策略：从预训练（Pre-training）、监督微调（SFT）、奖励建模（Reward Modeling）到 PPO/DPO/KTO/ORPO/SimPO 偏好对齐，覆盖指令微调到价值观对齐的全链路。团队可以在同一框架内串联多阶段训练流水线。
参数高效微调全面覆盖：支持 LoRA、QLoRA（2/3/4/5/6/8-bit）、DoRA、LongLoRA、LoRA+、LoftQ、PiSSA 等 10+ 参数高效方法。LoRA 可在 16GB 显存上微调 7B 模型，2-bit QLoRA 甚至可在 4GB 显存运行，极大降低实验门槛。
先进优化算法集成：集成 GaLore、BAdam、APOLLO、Adam-mini、Muon、OFT、Mixture-of-Depths 等前沿训练优化器。这些算法分别从梯度压缩（GaLore）、内存优化（APOLLO）、参数分组（BAdam）等维度降低训练成本。
工程加速技术内置：原生集成 FlashAttention-2、Unsloth、Liger Kernel、KTransformers 等加速库，可在不改变训练脚本的前提下自动启用。FlashAttention-2 可使长序列训练速度提升 2-4 倍。
实验监控与可视化：内置 LLaMA Board（Gradio Web UI）提供实时训练曲线、损失/学习率监控；同时支持 WandB、TensorBoard、MLflow、SwanLab 等外部实验管理工具。
多模态训练支持：不仅支持文本 LLM，还支持 LLaVA、Qwen2.5-VL、InternVL、MiniCPM-V 等视觉-语言模型（VLM）及 Qwen2-Audio、Qwen2.5-Omni 等音频理解模型的微调。
推理部署一体化：训练完成后可直接启动 OpenAI 风格 API 服务（支持 vLLM 或 SGLang 后端），将训练产出的 LoRA 权重或合并后的全量模型一键部署为推理端点，减少训练到推理的工程切换成本。

协同效应：以上功能并非孤立存在。"多模型覆盖 + 统一配置"意味着团队在切换模型时无需重写数据加载与训练循有；"参数高效微调 + 加速库"使低资源团队也能微调 70B+ 模型；"训练 + API 部署一体化"使从实验到上线的工程链路压缩在一个框架内，避免训练脚本与推理服务之间的权重转换和适配工作。

LLaMA-Factory 的模型与版本演进

LLaMA-Factory 自 2023-05-28 创建以来经历了快速迭代，版本演进主线围绕"模型覆盖扩展、训练策略丰富、工程基础设施升级"三个方向。

主线发布

版本	日期	关键变化
v0.9.5	2026-05-30	新增 Qwen3.5/3.6、Gemma 4、Transformers v5 适配；36 个 Release 的当前最新
v0.9.4	2025-12-31	年度主线版本，稳定性与能力整合，覆盖多模型微调统一入口
v0.9.3	2025-06-16	扩展 Llama 4、Gemma 3、Qwen3、InternVL3、Qwen2.5-Omni 等模型支持
v0.9.2	~2025-03	引入 Megatron-core 训练后端集成OFT/OFTv2 算法支持
v0.9.1	~2024-12	持续扩展 DeepSeek V3 等新模型，优化 Web UI 与实验管理
v0.8.x	2024-06/09	奠定多模型多策略基础架构，支持 LLaMA 3、Qwen2、GLM-4 等

早期里程碑

2023-05-28：项目首次创建，初始聚焦 LLaMA 系列微调。
2024-03：论文被 ACL 2024 接收，学术影响力显著提升。
2024-06：v0.8.0 发布，多模型架构趋于稳定，社区 stars 破万。
2025-01：DeepSeek R1 发布后迅速适配，体现 day-0 模型跟进能力。

版本演进规律

LLaMA-Factory 的版本节奏呈现出"新模型发布后 1-7 天内完成适配"的特征。例如 DeepSeek R1 发布于 2025-01-20，项目在数天内即完成支持。这种跟新速度得益于其插件式模型注册架构——新增一个模型家族通常只需提供配置文件与模板，无需修改核心训练循有代码。对采购者而言，这意味着采用 LLaMA-Factory 能降低因模型切换导致的工具链更换风险。

LLaMA-Factory 的技术优势

架构设计

LLaMA-Factory 采用"统一的配置抽象层 + 插件式模型注册"架构。核心训练引擎通过 PEFT（Parameter-Efficient Fine-Tuning）和 Transformers 库封装，上层通过 YAML 配置描述模型路径、数据集、训练策略与超参数。这种设计的核心价值在于：

模型无关的训练接口：训练脚本与模型实现解耦，新增模型只需注册配置文件和对话模板，无需修改训练循有代码。
策略可插拔：LoRA、QLoRA、全参数微调等策略通过 peft 库统一管理，配置项切换即可变更训练策略，无需改动数据加载和评估流程。
多后端支持：除原生 PyTorch DDP 外，支持 DeepSpeed ZeRO（Stage 1-3）、Megatron-core 等分布式策略，适用于单机多卡到多机多卡场景。

为什么 LLaMA-Factory 能做到"低资源微调大模型"？

核心机制有三层叠加：

量化压缩层：通过 bitsandbytes、AQLM、AWQ、GPTQ、HQQ、EETQ 等量化库，将模型权重从 16-bit 压缩到 2-8-bit，大幅降低显存占用。以 4-bit QLoRA 为例，70B 模型的显存需求从 ~600GB 降至 ~80GB，使单机 4×A100 即可运行。
参数高效层：LoRA/DoRA 等方法仅训练原始参数的 0.1%-1%，反向传播的梯度计算量大幅减少，训练速度相比全参数微调提升 2-5 倍。
计算加速层：FlashAttention-2 通过分块计算和 IO 感知优化，使注意力机制的训练速度提升 2-4 倍；Liger Kernel 将多个核融合减少显存读写；Unsloth 则通过手动优化的 CUDA 内核进一步提升 LoRA 训练吞吐。

实际效果：这三层叠加使原来需要 8×A100（~$100/小时）的全参数 70B 微调，压缩到 1×RTX 4090（~$1/小时）的 QLoRA 实验，训练成本降低约两个数量级，让个人开发者和中小团队也能参与大模型定制。

适配边界

场景	LLaMA-Factory 优势	不适配边界
指令微调（SFT）	零门槛，配置即跑	需要深度定制训练循有（如自定义损失函数）时不适用
偏好对齐（DPO/PPO）	内置流程完整	需要大规模 RLHF（数万级 prompt 采样）时，需配合外部 RL 框架
多模态（VLM）微调	覆盖主流 VLM 架构	视频/3D 模态训练支持有限
分布式训练	DeepSpeed/Megatron 集成	大规模预训练（从头训练千亿参数模型）非其设计目标
生产推理部署	内置 vLLM/SGLang API	高并发生产推理建议使用专用推理引擎（如 TGI、vLLM 独立部署）

LLaMA-Factory 的使用路径

LLaMA-Factory 提供四种使用入口，适合不同技术背景和场景的团队：

入口方式	适合人群	启动命令	前置条件
YAML 命令行	有 ML 工程经验的开发者	`llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml`	Python 3.11+，PyTorch 2.0+，GPU
Web UI（LLaMA Board）	算法研究员、新手	`llamafactory-cli webui`	同上，自动打开 Gradio 界面
Docker 容器	DevOps/平台团队	`docker run -it --gpus=all hiyouga/llamafactory:latest`	Docker + NVIDIA Container Toolkit
OpenAI 风格 API	推理部署场景	`API_PORT=8000 llamafactory-cli api examples/inference/qwen3.yaml`	训练完成后的权重文件

典型使用步骤：3 条命令完成一次微调

LLaMA-Factory 的核心工作流可浓缩为 3 条命令：

# 1. 训练：LoRA 微调 Qwen3-4B
llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml

# 2. 对话测试：加载训练后的 LoRA 权重进行交互
llamafactory-cli chat examples/inference/qwen3_lora_sft.yaml

# 3. 导出合并：将 LoRA 权重合并到基础模型
llamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml

典型 YAML 配置示例

# qwen3_lora_sft.yaml
model_name_or_path: Qwen/Qwen3-4B-Instruct
template: qwen
stage: sft
finetuning_type: lora
lora_target: all
dataset: identity,alpaca_en_demo
dataset_dir: data
cutoff_len: 1024
learning_rate: 1.0e-4
num_train_epochs: 3.0
per_device_train_batch_size: 4
gradient_accumulation_steps: 4
fp16: true

配置参数说明：finetuning_type 控制微调策略（lora/freeze/full），lora_target 指定 LoRA 注入的模块，dataset 使用 data/dataset_info.json 中注册的数据集名称。

落地路径建议

实际引入 LLaMA-Factory 团队时，建议按三阶段推进：

试点（1-2 周）：选一条具体业务任务（如客服意图分类、代码补全），用官方模板+公开数据集跑通 SFT 全流程，验证训练收益。
对照（2-4 周）：在试点任务上与现有方案（或 Prompt 工程方案）做 A/B 对比，量化指标包括准确率提升、延迟变化GPU 成本。关键验收点：训练后的模型在验证集上的效果提升是否超过 5%，且算力成本在可接受范围内。
扩展（1-3 月）：覆盖更多业务场景，建立标准化的数据准备→训练→评估→部署流水线，引入实验管理与模型版本控制。

产品定价

LLaMA-Factory 本身完全开源免费（Apache-2.0 许可），但使用过程中涉及的成本集中在以下层面：

成本类型	个人/研究者	开发团队	企业
软件许可	免费	免费	免费
GPU 算力	按需 $0.5-5/小时	包月 $500-5000	私有集群 + 运维
数据准备	使用公开数据集	标注 + 清洗人力	标注平台 + 合规审查
实验管理	Colab/W&B 免费版	W&B/MLflow 托管	自建实验平台
部署运维	Docker 单机	K8s + CI/CD	推理网关 + 监控
模型评估	手动 + 简单脚本	自动化评估 pipeline	多维度评估 + 红队测试

开源许可限制：Apache-2.0 许可允许商业使用，但需注意所微调的基座模型本身的许可限制（如 LLaMA 的 Meta 许可Gemma 的 Google 许可Qwen 的阿里许可）。基座模型许可可能包含附加条款（如月活用户超阈值需申请商业授权、禁止特定行业使用等），这些限制独立于 LLaMA-Factory 许可证之外。

隐性成本提示：LLaMA-Factory 虽降低了单次微调的技术门槛，但数据质量治理往往是实际项目中的最大成本项——低质量数据训练出的模型需要反复迭代微调，单次实验成本虽低，但累积的 GPU 和人力成本可能远超预期。

LLaMA-Factory 的应用场景

企业内部模型定制：对通用模型注入行业语料（金融、法律、医疗、制造），提升垂直场景的理解准确率。例如金融机构需要让模型理解财报术语和监管合规要求，通过 SFT 注入 500-5000 条领域对话即可显著改善。此类场景下，LLaMA-Factory 的 QLoRA 策略可将定制成本从数十万元降至数千元级别。
知识蒸馏与小模型增强：用大模型（如 DeepSeek-R1、GPT-4o）生成高质量指令数据，再用 LLaMA-Factory 微调小模型（如 Qwen3-4B、Gemma-2B），在保持推理速度的同时提升小模型在特定任务上的表现。这在不允许调用外部 API 的离线或边缘部署场景中尤其有价值。
多模态模型定制：对 Qwen2.5-VL、InternVL 等视觉-语言模型进行领域多模态微调，适用于图表理解OCR 后处理、医疗影像报告生成等任务。LLaMA-Factory 统一覆盖文本和多模态训练入口，无需在多个框架间切换。
偏好对齐与安全控制：使用 DPO/PPO/KTO 等偏好对齐策略，将模型输出调优到符合业务规范和安全要求。适合内容审核、客服话术合规、品牌语调统一等场景。偏好对齐需要成对的偏好数据集（好/坏回答），LLaMA-Factory 内置的 KTO 方法可在仅需"好回答"数据的情况下完成对齐。
研究与基线构建：学术团队需要在多个模型上跑统一评估，LLaMA-Factory 的统一配置体系可将实验变量（模型、数据集、超参）标准化，提高实验结果的可复现性。

场景核验重点：在选择 LLaMA-Factory 之前，务必先确认"是否真的需要微调"。如果 Prompt 工程 + RAG 即可满足需求，微调的投入产出比可能为负。微调的价值窗口在"需要学习特定格式/风格/知识且无法通过上下文提示完成"的场景。

LLaMA-Factory 的适用人群

算法工程师与 ML 研究员：需要频繁对比不同模型在相同任务上的表现差异，或验证新训练策略的效果。LLaMA-Factory 的统一入口可将实验标准化，减少因脚本差异导致的结论偏差。对这类用户，YAML 命令行比 Web UI 更高效。
MLOps 与平台团队：需要将训练流程标准化、自动化，并与 CI/CD、实验追踪、模型注册等平台工具集成。LLaMA-Factory 的 API 部署能力和 Docker 镜像使其适合嵌入 MLOps 流水线。
独立开发者与小团队：预算有限但需要模型定制的场景。通过 QLoRA + 云 GPU，可以用每天几美元的成本完成一次领域微调实验。Google Colab 免费版 + LLaMA-Factory 的组合让零预算启动成为可能。
学术研究团队：需要可复现的开源训练框架来支持论文实验。LLaMA-Factory 论文发表于 ACL 2024，社区活跃，适合作为教学和实验平台。

不适配边界：

如果团队的目标只是调用现成模型 API，不需要训练或微调，LLaMA-Factory 不适用。
如果团队有深度定制训练循有的需求（如自定义损失函数、特殊调度策略），LLaMA-Factory 的抽象层可能成为限制，不如直接使用 PyTorch + Transformers。
如果团队需要从零预训练千亿参数模型，建议直接使用 Megatron-LM 或 NeMo，LLaMA-Factory 的设计目标是微调而非大规模预训练。
如果团队没有 GPU 资源或云预算，即使 QLoRA 降低了门槛，单次实验仍需要至少 4GB 显存，纯 CPU 训练不现实。

总结与展望

LLaMA-Factory 的核心价值在于将"多模型、多策略、多模态"的训练需求统一到一个框架内，通过 YAML 配置取代脚本编码，把模型定制从"需要手写训练循有"降低到"修改配置文件"。它在开源训练框架中的生态跟进速度（day-0 适配新模型）和社区规模具备明显优势，华为昇腾 NPU、AMD ROCm 等多硬件后端的支持也拓展了其部署边界。

当前限制：

训练有节深度依赖 Hugging Face 生态，对非 Transformers 架构的模型支持有限。
偏好对齐（PPO/DPO）的实现适合中小规模实验，大规模生产级 RLHF 仍需外部强化学习框架补充。
官方文档站仍标注为 WIP（Work in Progress），部分高级功能的文档化程度不足，遇到问题时需依赖 GitHub Issues 和社区讨论。
商业支持与 SLA 未公开，企业级采购需自行评估社区支持是否满足生产有境要求。

采购/采用风险评估：

如果团队已有 MLOps 基础设施（模型注册、实验追踪GPU 集群调度），LLaMA-Factory 可作为一个轻量训练层快速集成。建议先用 1-2 个业务场景做 2-4 周试点，重点验证训练效果提升、算力消耗与人工介入频率三个指标。
如果团队从零搭建训练能力，隐性成本（数据治理、实验管理、模型评估）可能远超工具本身的学习成本，建议优先确认数据质量和评估标准是否到位，再做框架选型。
生产有境部署前，务必核查微调所用的基座模型许可证是否覆盖预期使用场景，特别是月活用户限制和商用授权条款。这部分合规风险独立于 LLaMA-Factory，但直接影响训练产出能否上线。

限制与不适配场景

该工具在以下场景中存在使用限制：

场景适配边界 需要高度行业专业知识的任务、对输出格式有严格规范的场景、需要零错误的自动化流程可能效果不达预期。AI 输出应作为初稿或辅助参考，最终结果需人工核验。

技术限制 上下文长度有限、复杂推理准确性可能不足、免费版有使用额度。建议在正式采用前通过试用验证核心场景的可用性。

版本信息

v0.9.5 ：官方发布说明包含 Qwen3.5/3.6、Gemma 4 以及 Transformers v5 相关适配更新。（2026-05-30）
v0.9.4 ：年度主线版本，承接多模型微调能力的稳定化迭代。（2025-12-31）
v0.9.3 ：版本说明覆盖 Llama4、Gemma3、Qwen3、InternVL3、Qwen2.5-Omni 等模型支持。（2025-06-16）

用户评价

加载评价中...