Captions
Captions 是面向移动端创作者的 AI 视频工具,以自动字幕、眼神接触校正(Eye Contact Correction)和 AI 语音增强为核心功能,帮助独自出镜的创作者快速制作专业感视频内容。拥有超过 1000 万注册用户,2024 年推出 AI 数字人(AI Avatar)功能,无需真人出镜即可生成对口型视频。
Captions — 移动端 AI 视频创作,专为独自出镜创作者打造
核心参数与统计
| 参数 | 详情 |
|---|---|
| 注册用户数 | 1000 万+ |
| 创立时间 | 2021 年,总部纽约 |
| 支持平台 | iOS、Android、Web |
| 字幕支持语言 | 28+ 语言 |
| 核心功能 | 自动字幕、眼神校正、AI 语音增强、AI Avatar |
| 免费计划 | 有(基础字幕,有水印) |
| Pro 计划 | $14.99/月 |
| Creator 计划 | $29.99/月 |
| 目标用户 | TikTok/Reels 创作者、播客主、知识博主 |
| 特色技术 | Eye Contact Correction(眼神接触校正) |
Captions 的核心用户场景是「一个人独自完成视频拍摄和后期」——没有摄影师帮忙对焦眼神、没有录音师处理杂音,AI 功能补齐了独立创作者在专业设备上的缺失。
用户与市场认可
Captions 是 App Store 视频创作类目中评分最高的 AI 工具之一,长期维持 4.7+ 星评分,拥有超过 1000 万注册用户。眼神接触校正功能上线后迅速在 TikTok 上引发病毒式传播,多名百万粉丝创作者公开分享使用体验,带动大量自然增长。
平台在 Product Hunt 多次获得当日最高评分,AI Avatar 功能的推出进一步扩大了产品影响力。Captions 被 Forbes、TechCrunch 等媒体多次报道,被认为是「最懂移动端创作者需求」的 AI 视频工具。公司已完成多轮融资,投资方包括 a16z 等顶级风险投资机构。
成本优势
| 计划 | 价格 | 主要权益 | 适用人群 |
|---|---|---|---|
| 免费版 | $0/月 | 基础自动字幕,视频带水印,有限导出时长 | 初次体验 |
| Pro | $14.99/月(年付) | 无水印,高级字幕样式,眼神校正,语音增强,720p | 活跃创作者 |
| Creator | $29.99/月(年付) | 全功能解锁,AI Avatar,4K 导出,优先处理 | 专业创作者 |
对于高频内容生产的 TikTok 和 Reels 创作者,$14.99/月的 Pro 计划相比每次外包字幕制作(通常 $5-15/条)在长期成本上极具优势,且眼神校正等 AI 功能是外包工作室无法轻易复制的差异化价值。
主要功能
- 自动字幕生成(Auto Captions):支持 28+ 语言的高准确率实时语音转字幕,提供动画、弹出、标亮等多种字幕样式和自定义颜色/字体,一键为视频添加吸引眼球的字幕效果。
- 眼神接触校正(Eye Contact Correction):Captions 最标志性的功能,AI 分析视频中说话人的眼睛位置并实时调整,使说话人看起来始终注视镜头而非屏幕上的脚本,大幅提升视频的亲和力和专业感。
- AI 语音增强(Voice Enhancement):一键消除视频录制中的背景噪声、回声和音量不均,将手机/普通麦克风录制的音频提升至接近专业录音室的质量。
- AI Avatar(AI 数字人):通过录制 5-10 分钟的参考视频训练个性化 AI 数字人,此后输入文字脚本即可生成与本人高度相似的说话视频,适合批量内容生产。
- 多语言字幕翻译:将已有字幕一键翻译为 28+ 语言,帮助创作者轻松触达多语言受众,国际化内容分发无需手动翻译。
- 视频剪辑工具:内置基础视频剪辑功能,支持裁剪、拼接、添加转场和文字,满足移动端短视频的基础后期需求,无需切换至其他应用。
- 屏幕尺寸一键适配:将视频在 9:16、16:9、1:1 等多种尺寸格式间一键转换,适配不同平台的发布要求。
- 品牌模板与样式:提供多种专业字幕模板和品牌颜色设置,保持频道视觉风格的统一性。
模型与版本演进
| 版本/里程碑 | 时间 | 说明 |
|---|---|---|
| iOS 公开发布 | ~2022-01 | 自动字幕核心功能上线 |
| Android 版本发布 | ~2022-09 | 扩展至 Android 平台 |
| 眼神校正 + 语音增强 | ~2023-06 | 两大标志性 AI 功能上线,引发病毒式传播 |
| 100 万用户里程碑 | ~2023-09 | 注册用户突破 100 万 |
| 多语言字幕翻译 | ~2024-03 | 支持 28+ 语言字幕翻译 |
| AI Avatar 发布 | ~2024-09 | 个性化 AI 数字人功能上线,1000 万用户突破 |
技术优势
眼神追踪与视线重定向技术:Eye Contact Correction 基于计算机视觉中的眼部关键点检测和视线方向估计,结合生成模型对眼部区域进行实时重绘,使视线方向从屏幕转向镜头。这一技术在自然感和处理速度上的平衡是 Captions 的核心技术壁垒,对移动设备的算力限制有专项优化。
移动端 AI 性能优化:Captions 针对 iOS 和 Android 设备的 NPU(神经网络处理单元)进行了深度优化,多项 AI 处理(字幕生成、语音增强、眼神校正)能在手机端本地实时执行,减少云端上传等待时间,提升创作流畅度。
个性化数字人建模(AI Avatar):用户提供的参考视频通过人脸建模、表情捕捉和语音特征提取生成个性化数字人模型,推理阶段输入文字脚本后,模型生成与参考视频风格一致的口型动画和面部表情,实现高自然度的 AI 生成说话视频。
如何使用
| 入口 | 说明 |
|---|---|
| iOS App | App Store 搜索「Captions」下载,主力平台 |
| Android App | Google Play 搜索「Captions」下载 |
| Web 端 | 访问 https://www.captions.ai,支持在浏览器中上传和处理视频 |
典型使用步骤(为 TikTok 视频添加 AI 字幕和眼神校正):
- 下载 Captions iOS 或 Android App,注册登录账号。
- 点击「New Project」,从相册选择已拍摄的视频,或直接在应用内录制新视频。
- 等待 AI 自动生成字幕(通常 30-60 秒),检查字幕准确性并手动纠正错误。
- 在字幕样式选项中选择动画效果、字体颜色和大小,匹配个人频道风格。
- 开启「Eye Contact Correction」,AI 自动处理视频中的眼神方向(Pro 及以上计划)。
- 点击「Voice Enhancement」消除背景噪声并提升语音清晰度。
- 预览完整效果,点击「Export」导出视频,可选择直接分享至 TikTok、Instagram 或保存至相册。
产品定价
- 免费版($0/月):基础自动字幕生成,有限导出时长,导出视频带 Captions 水印,字幕样式选项有限,适合初次体验。
- Pro($14.99/月,年付约 $9.99/月):无水印导出,720p 视频质量,眼神校正、语音增强全开放,高级字幕样式和颜色自定义,适合活跃的短视频创作者。
- Creator($29.99/月,年付约 $19.99/月):Pro 全部功能 + AI Avatar 个性化数字人,4K 视频导出,优先处理队列,字幕翻译(28+ 语言),适合以视频内容为职业的专业创作者。
应用场景
1. TikTok 和 Instagram Reels 快速出镜 独自拍摄的创作者无需外接麦克风和打光设备,用 Captions 的语音增强和眼神校正功能,手机拍摄的视频即可达到专业级质量。自动字幕大幅提升无声观看时的留存率,在竞争激烈的短视频平台获得更高的完播率。
2. 知识博主和课程内容批量生产 AI Avatar 功能让知识博主在训练好数字人后,后续只需输入文字脚本即可生成说话视频,批量生产课程介绍、知识卡片等内容,大幅降低持续出镜的时间和精力成本。
3. 多语言受众内容分发 国际创作者使用字幕翻译功能,将一条英语视频一键生成西班牙语、法语、中文等多语言字幕版本,覆盖不同语言的受众群体,不需要重新录制多语言版本,最大化内容触达。
4. 企业品牌短视频矩阵 企业社交媒体团队使用 Captions 快速为产品展示、员工介绍和品牌故事视频添加专业字幕,统一品牌字幕样式,无需外包字幕制作,在保持视觉一致性的同时大幅缩短内容发布周期。
适用人群
- TikTok、Reels 和 YouTube Shorts 创作者:最核心用户群,自动字幕和眼神校正直接提升短视频的专业感和传播效果。
- 知识博主和在线教育创作者:AI Avatar 功能降低持续出镜负担,字幕翻译帮助触达国际受众。
- 企业社交媒体运营人员:需要快速为大量视频内容添加品牌字幕,统一视觉风格,减少外包依赖。
- 独立播客视频版制作者:将音频播客扩展为视频版本,字幕和语音增强是核心需求。
- 不适配场景:需要复杂多轨道视频剪辑的专业影片制作;不出镜的纯素材视频创作;对 AI 生成眼神校正效果真实感有极致要求的专业级广告制作。
总结与展望
Captions 以「移动优先,创作者优先」的产品理念,精准解决了独立内容创作者在没有团队支持情况下独自出镜的核心痛点——眼神校正、字幕和语音增强三大功能形成了独特的产品护城河,在 TikTok 创作者社区引发的口碑传播证明了其精准的产品市场契合度。AI Avatar 功能的推出将产品从「视频后期增强」延伸至「AI 生成视频」,进一步扩大了可服务的创作场景。
当前局限在于:AI Avatar 生成的视频自然感在复杂表情和长时段内容上仍有明显的 AI 生成痕迹;眼神校正在快速移动头部或强烈侧脸时准确度下降;免费版的功能限制较为明显,核心 AI 功能需要付费解锁。
展望未来,随着设备端 AI 算力的提升和多模态模型的进步,Captions 的 AI Avatar 质量预计将持续接近真实录像的效果,而实时视频生成(直播中实时应用眼神校正)等功能或将成为下一个增长方向。
版本信息
- AI 数字人(AI Avatar) :推出 AI Avatar 功能,用户可通过录制自己的形象训练个性化 AI 数字人,此后输入文字脚本即可生成与本人高度相似的说话视频,无需再次出镜录制,极大降低视频内容的持续产出成本,适合品牌主播和知识创作者批量生产内容。
- 眼神校正 + 语音增强功能发布 :推出眼神接触校正(Eye Contact Correction)功能,AI 自动调整视频中说话人的眼神方向使其看向镜头;同步发布语音增强功能,一键消除背景噪声并提升语音清晰度,两项功能在 TikTok 创作者社区引发病毒式传播。
- Captions 公开发布 :Captions iOS App 正式向公众开放,以高准确率自动字幕生成为核心功能上线,支持 10+ 语言的实时字幕,提供多种字幕动画样式,迅速在短视频创作者社区建立口碑。
用户评价