[Feature]: 场景和语义理解。

### 需求描述 | Problem Statement

之前部署和使用过comfyui+wan2.1，输入脚本是那种导演级的，生成视频时根据脚本又细分为叙事、镜头、动作行为等具体分脚本，最终生成的视频和脚本文字对应性比较强。缺点是算力要求高，16G的显卡生成5秒钟视频用了一个半小时。
当前这个框架设计思路也是不错的，个人认为更适用于心灵鸡汤或者对帧映射关系不强的短视频。



### 建议的解决方案 | Proposed Solution

改进思路：当前是基于关键词搜索视频、剪辑也是较为粗糙和随意，可能的改进点：
1）视频片段的精准定位；
2）转场的细化；
3）输入脚本的场景模板化：首尾帧、分镜头、转场等等。

期待大佬的作品。