Text-to-Edit — Video Ad Auto-Editing（MLLM广告自动剪辑）

Skill-Text-to-Edit-Video-Ad · 20-AI视频生成

causalexperimentpricingvisual_generation广告与投放客服与VOC定价与利润视觉内容生成WF-B 广告优化WF-C 客服分诊WF-D 选品扫描WF-E Review监控WF-F 动态定价WF-G Listing内容优化

业务视角

适用角色内容运营 / 品牌负责人 · 社媒运营 · CMO

适用平台TikTok Shop LIVE · Instagram Reels · 多语言虚拟主播（英/西/阿/日）

什么情况下用TikTok/Reels 需要大量视频，拍摄成本高周期长产能跟不上；想做直播带货但真人主播成本高语言是障碍

成功是什么样的视频内容产能提升 5-10 倍，单条视频成本降低 80%，多语言市场内容本地化快速覆盖

业务痛点

视频内容来不及做拍视频成本太高主播太贵或不稳定多语言内容没有人拍TikTok 更新频率要求太高

1. 解决的问题

端到端广告视频生成：输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿（镜头序列 + 配音脚本 + 装饰标签）。

2. 核心算法逻辑

端到端广告视频生成：输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿（镜头序列 + 配音脚本 + 装饰标签）。

3. 业务应用场景

运营输入："把吸奶器产品视频的 5-8 秒换成使用场景，加'Mother's Day Sale'标签，背景音乐换成温馨风格"。MLLM 理解需求 → 自动从素材库匹配使用场景片段 → 输出 JSON 剪辑稿 → 渲染。从"需求→成品"从 2 天缩短到 10 分钟。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

未自动抽取；请查看原始 Skill 卡片。

7. 代码模板

代码块数量：1 · 路径：未检测到

class TextToEditPipeline:
    def edit_video(self, product_info: str, edit_instruction: str, 
                   raw_clips: list) -> dict:
        timeline = []
        for i, action in enumerate(["intro_product", "feature_highlight", "use_scene", "price_cta"]):
            timeline.append({"time": f"{i*3}-{i*3+3}s", "action": action, 
                            "clip": f"clip_{i}.mp4" if i < len(raw_clips) else "generated"})
        return {"timeline": timeline, "estimated_time": "10 min", "vs_manual": "2 days"}

if __name__ == '__main__':
    pipe = TextToEditPipeline()
    r = pipe.edit_video("breast pump S2", "add use scene at 5-8s, Mother's Day Sale overlay", ["intro.mp4", "feature.mp4"])
    print(f"Timeline: {len(r['timeline'])} segments, {r['estimated_time']} vs manual {r['vs_manual']}")
    print("[✓] Text-to-Edit 测试通过")

8. 论文来源

2501.05884