Skip to content

[Feature]: 场景和语义理解。 #810

@zhjygit

Description

@zhjygit

需求描述 | Problem Statement

之前部署和使用过comfyui+wan2.1,输入脚本是那种导演级的,生成视频时根据脚本又细分为叙事、镜头、动作行为等具体分脚本,最终生成的视频和脚本文字对应性比较强。缺点是算力要求高,16G的显卡生成5秒钟视频用了一个半小时。
当前这个框架设计思路也是不错的,个人认为更适用于心灵鸡汤或者对帧映射关系不强的短视频。

建议的解决方案 | Proposed Solution

改进思路:当前是基于关键词搜索视频、剪辑也是较为粗糙和随意,可能的改进点:
1)视频片段的精准定位;
2)转场的细化;
3)输入脚本的场景模板化:首尾帧、分镜头、转场等等。

期待大佬的作品。

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions