FLUX

-

FLUX 是由 Stable Diffusion 原班核心团队创立的 Black Forest Labs 推出的新一代 AI 视觉设计工具,包含 [pro](最高质量)、[dev](开放权重/非商业)、[schnell](最快速/Apache 2.0)三个版本。FLUX.1 于 2024 年 8 月发布,图像质量评测中多次超越 Midjourney 和 DALL-E 3,是当前开源社区最受关注的图像生成模型系列。

FLUX 产品界面

FLUX — Black Forest Labs 新一代高质量 AI 图像生成模型

核心参数与统计

参数 详情
开发方 Black Forest Labs GmbH(德国弗莱堡)
创始人 Robin Rombach、Andreas Blattmann(前 Stability AI / Stable Diffusion)
首发日期 2024 年 8 月 1 日
模型系列 FLUX.1 [pro]、[dev]、[schnell];FLUX1.1 [pro]、[pro] Ultra
[schnell] 许可 Apache 2.0(可商业使用,完全开放)
[dev] 许可 开放权重,非商业使用
[pro] 许可 仅通过 API 访问,商业授权
最大输出分辨率 4MP(FLUX1.1 [pro] Ultra)
API 访问渠道 Replicate、fal.ai、Together AI、官方 API
竞品对比评测 多项评测图像质量超越 Midjourney v6 和 DALL-E 3

FLUX 的核心优势在于「顶尖图像质量 + 开放策略」的组合——[pro] 系列在质量上与 Midjourney 等顶级商业工具竞争,[schnell] 版本则以 Apache 2.0 完全开放给社区和商业项目使用,打通了「开源社区使用 → 商业部署」的完整生态链。

用户与市场认可

FLUX.1 系列于 2024 年 8 月发布后,在 AI 图像生成社区引发了罕见的轰动效应——Hugging Face 上的 FLUX.1 [dev] 模型在发布首周即成为最多人下载的图像生成模型,Reddit 和 Twitter 上的评测帖大量涌现,用户普遍认可其图像质量已达到或超越 Midjourney v6 的水准。

FLUX 在以下几个维度的评测中获得特别高分:人体解剖结构的准确性(历来是 AI 图像生成的难点)、复杂场景中多对象的关系处理、文字渲染准确度以及整体视觉美感。multiple AI 社区独立评测将 FLUX.1 [pro] 和 FLUX1.1 [pro] 列为综合质量最高的 AI 图像生成模型之一,Black Forest Labs 团队的 Stable Diffusion 创作背景为产品赋予了极高的技术公信力。

成本优势

版本 访问方式 价格 许可证 适用人群
FLUX.1 [schnell] 开放权重下载 免费 Apache 2.0 开发者、研究者、商业部署
FLUX.1 [dev] 开放权重下载 免费 非商业 研究、学习、个人实验
FLUX.1 [pro] Replicate/fal.ai API 约 $0.05/张 商业授权 应用开发者、专业用户
FLUX1.1 [pro] API 约 $0.04/张 商业授权 高质量商业应用
FLUX1.1 [pro] Ultra API 约 $0.06/张 商业授权 高分辨率专业场景

对于自托管能力强的开发者,[schnell] 的 Apache 2.0 许可使其成为成本最低的高质量商业图像生成方案之一;对于不想维护基础设施的用户,API 访问的按量计费模式在中低频使用下成本合理。

主要功能

  • 高质量文字转图像生成:FLUX 模型系列在提示词跟随精度、图像真实感、人体解剖准确性和艺术风格多样性方面均达到业界顶尖水准,特别是在人物和复杂场景的生成质量上。
  • 三档模型灵活选择:[schnell](最快,Apache 2.0 商业可用)满足速度优先需求;[dev](开放权重,非商业)适合研究和微调;[pro](最高质量,API 访问)满足最高质量需求,用户可根据实际场景灵活选择。
  • 文字渲染能力:FLUX 在图像中渲染文字(如海报标语、招牌文字)的准确率高于同期竞品,这一能力使其在需要图文结合的设计场景中具有实用优势。
  • 超高分辨率输出(Ultra):FLUX1.1 [pro] Ultra 支持高达 4MP 的图像输出,满足印刷、大尺寸展示和专业摄影替代等对分辨率有极高要求的场景。
  • 开放权重生态([dev]/[schnell]):开放权重使社区开发者可以在本地部署、进行 LoRA 微调和风格定制,Civitai 等社区已积累大量基于 FLUX 的自定义模型和 LoRA,丰富了生成风格的多样性。
  • 快速生成([schnell]):FLUX.1 [schnell] 优化了推理速度,在保持较高质量的前提下将生成时间压缩,适合需要实时或近实时图像生成的应用场景。
  • 多平台 API 访问:通过 Replicate、fal.ai、Together AI 和 Black Forest Labs 官方 API 等多个渠道提供访问,开发者可以选择最适合自己基础设施和成本结构的接入方式。

模型与版本演进

版本 时间 说明
Black Forest Labs 成立 2024-06 Robin Rombach 和 Andreas Blattmann 创立
FLUX.1 [pro/dev/schnell] 2024-08-01 三档模型同步首发,社区轰动
FLUX1.1 [pro] ~2024-10 质量和速度双提升,3x 更快
FLUX1.1 [pro] Ultra ~2024-11 4MP 超高分辨率版本发布
社区 LoRA 生态繁荣 ~2024-Q4 Civitai、HuggingFace 社区大量 FLUX LoRA 发布

技术优势

Rectified Flow Transformer 架构:FLUX 采用了与 Stable Diffusion 系列(基于 U-Net)不同的 Transformer 架构(类似 DiT——Diffusion Transformer),结合 Rectified Flow 训练方法,使模型在图像细节保留、语义理解和生成一致性上取得了显著的架构层面优势,为后续质量提升奠定了更坚实的基础。

Guidance Distillation 技术([schnell]):FLUX.1 [schnell] 通过蒸馏技术将需要多步采样的生成过程压缩为少步(1-4 步)高质量生成,在大幅减少推理计算量的同时保持了与高步数采样接近的图像质量,实现了速度与质量的高效平衡。

人体解剖结构优化训练:FLUX 系列在人体解剖准确性方面(手部、脸部比例、肢体关节)明显优于早期扩散模型,这来自团队在训练数据质量和监督信号上的专项优化,是评测中最受用户称赞的维度之一。

如何使用

入口 说明
Replicate 访问 https://replicate.com/black-forest-labs,API 调用或 Web 界面试用
fal.ai 访问 https://fal.ai,提供 FLUX 全系列模型 API
HuggingFace 下载 [dev]/[schnell] 开放权重模型,本地或云端运行
ComfyUI/Automatic1111 本地部署,通过社区插件加载 FLUX 模型
官方 API 访问 https://api.bfl.ml,直接调用 Black Forest Labs 官方 API

典型使用步骤(通过 Replicate API 调用 FLUX1.1 [pro])

  1. 访问 https://replicate.com 注册账号,绑定支付方式。
  2. 在 Replicate 搜索「black-forest-labs/flux-1.1-pro」,查看模型页面。
  3. 直接在 Web 界面输入提示词体验,或复制 Python 示例代码进行 API 集成。
  4. API 调用:安装 replicate Python 包,设置 API Token,调用 replicate.run("black-forest-labs/flux-1.1-pro", input={"prompt": "..."}) 生成图像。
  5. 本地部署([schnell]):从 HuggingFace 下载 black-forest-labs/FLUX.1-schnell 模型权重,通过 ComfyUI 加载并运行(需要 24GB+ GPU 显存)。

产品定价

  • FLUX.1 [schnell]:完全免费,Apache 2.0 开源许可,可商业使用,可本地部署,无使用量限制(硬件成本自担)。通过 API 平台调用约 $0.003/张。
  • FLUX.1 [dev]:免费下载开放权重,非商业许可,适合研究和个人学习使用,通过 API 平台调用约 $0.025/张。
  • FLUX.1 [pro]:仅 API 访问,Replicate 上约 $0.055/张,fal.ai 约 $0.05/张,适合商业应用开发。
  • FLUX1.1 [pro]:Replicate 约 $0.04/张,速度更快质量更高,是 [pro] 的推荐升级版。
  • FLUX1.1 [pro] Ultra:约 $0.06/张,支持 4MP 高分辨率,适合专业商业印刷设计需求。

应用场景

1. 高质量商业视觉内容生成 品牌设计团队和广告公司通过 FLUX1.1 [pro] API 生成高质量产品展示图、营销视觉和广告创意,FLUX 在人物、产品和场景的生成质量上的优势直接提升了输出内容的商业可用率,减少后期修图成本。

2. 开发者集成高质量图像生成 应用开发者通过 FLUX API 为自己的产品集成 AI 图像生成功能,[schnell] 的 Apache 2.0 许可允许商业集成,[pro] 的高质量满足需要高质量输出的商业应用场景,灵活的 API 选择满足不同成本和质量需求。

3. 研究和开源社区模型微调 AI 研究者和社区开发者使用 FLUX.1 [dev] 的开放权重进行 LoRA 微调,训练面向特定风格(如动漫、写实摄影、艺术风格)的自定义模型,Civitai 社区已积累大量高质量 FLUX LoRA 供用户下载使用。

4. 高分辨率专业图像生成(Ultra) 需要用于印刷品、大尺寸展示或专业摄影替代的场景,FLUX1.1 [pro] Ultra 的 4MP 输出满足商业印刷的分辨率要求,结合顶级的图像质量,适合需要「AI 生成 + 高分辨率」的专业视觉场景。

适用人群

  • AI 开发者和独立开发者:需要高质量图像生成 API 用于应用集成,[schnell] 的 Apache 2.0 许可使商业使用无法律障碍。
  • AI 艺术家和数字内容创作者:追求顶尖图像质量,FLUX 在写实风格和艺术风格上的综合表现领先,开放权重版本支持本地灵活控制。
  • 品牌设计和营销视觉团队:需要可靠的高质量商业图像生成 API,[pro] 系列的商业授权和稳定的 API 服务满足业务需求。
  • AI 研究者和学术界:[dev] 的开放权重支持完整的研究可重复性,适合图像生成模型研究、微调技术实验和消融研究。
  • 不适配场景:完全不懂技术、只需要简单拖拽界面的普通用户(Midjourney 或 Adobe Firefly 提供更友好的产品体验);需要视频生成(FLUX 专注静态图像);对 GPU 算力要求高的本地部署对普通消费者硬件不可行。

总结与展望

FLUX 的出现标志着由 Stable Diffusion 原班人马发起的对开源图像生成领域的又一次技术跃迁——以 Transformer 架构替代 U-Net,以顶尖商业质量挑战 Midjourney,同时以 Apache 2.0 的 [schnell] 版本保持开源生态的活力。这种「商业版本不妥协质量 + 开源版本不妥协开放性」的双轨策略,既保障了商业可持续性,又维护了社区生态的繁荣。

当前局限在于:[pro] 系列依赖 API 访问,成本相比自托管开源方案较高;本地运行 [dev]/[schnell] 需要 24GB+ 显存,消费级硬件门槛较高;官方无交互式图像编辑界面,需要依赖第三方平台的 UI 层;中文提示词的质量相比英语提示词仍有差距。

展望未来,Black Forest Labs 有望在 FLUX 基础上发布视频生成模型(延续 Stable Video Diffusion 的技术路线),以及更轻量化的版本(降低本地部署显存门槛);随着 LoRA 和 ControlNet 生态在 FLUX 上的进一步成熟,FLUX 在创意控制灵活性上有望进一步缩小与 Stable Diffusion 生态的差距。

版本信息

  • FLUX.1 系列首发([pro]/[dev]/[schnell]) :Black Forest Labs 正式发布 FLUX.1 模型三件套:[pro](最高质量,仅 API)、[dev](开放权重,非商业许可)、[schnell](最快速,开放权重,Apache 2.0 商业许可)。发布后迅速在 AI 社区引发广泛关注,Hugging Face、Replicate、fal.ai 等平台同步上线部署。
  • FLUX1.1 [pro] Ultra :发布 FLUX1.1 [pro] Ultra 版本,支持高达 4MP(约 4 百万像素)的超高分辨率图像生成,同时保持 FLUX1.1 [pro] 的顶级图像质量,适合对输出分辨率有专业级要求的商业设计和印刷用途,通过 API 提供访问。
  • FLUX1.1 [pro] :发布 FLUX1.1 [pro],在 FLUX.1 [pro] 基础上进一步提升图像质量、生成速度(比初代快 3 倍)和提示词跟随精度,在多项独立评测中与顶尖商业图像生成工具同台竞争并取得领先评分。

用户评价

  • 加载评价中...