基äº�YOLOv8/YOLOv7/YOLOv6/YOLOv5的水æ�œè¯†åˆ«ç³»ç»Ÿï¼ˆPython+PySide6界é�¢+训练代ç �)

核心内容摘要

Asian Beauty Z-Image Turbo 开发入门:C语言基础与模型底层调用原理浅析
Bootstrap4 面包屑导航

Qwen3-TTS-Tokenizer-12Hz语音质量优化:PESQ 3.21的实现方法

当今时代AI的视频制作能力已经能够满足短片制作的要求甚至在一些院线电影中都能看到AI视频的片段。

比起传统影视制作流程AI的出现极大的降低视频制作的门槛本质上是一种技术平权。

那么普通人要如何用AI制作影片呢首先要明确一下影片的定义影片指的是由多段视频拼接起来的视频具备一定的故事性而不是一句话生成的那种视频碎片。

本文我将以这段练手的短片作为示例分享一下我所用到的制作流程。

重岳完全体这段短片除了为数不多的时间成本外经济成本为0用的全部是免费的视频生成平台的额度所以未经仔细打磨纯用于熟悉流程。

影片剧本做影片的第一步是确定影片时长。

影片时长决定了影片剧本的长度。

比如如果是5分钟时长的片子那就需要考虑在剧本上多花点时间设计连贯性的剧情发展。

如果是1分钟时长的片子那就可以简单很多只需要考虑简单的人物交互。

剧本创作的第一步是有一个大致方向然后就可以让AI参与进来。

ChatGPT、Gemini等文本型AI都是剧本丰富的好手。

剧本不需要很详细只需要能表述完整的故事就行。

像是我的这个一分钟短片整个故事用一句话就能概括重岳大战石头人所攻皆御之悉数歼灭。

设计分镜有了剧本之后下一步是考虑影片的美术风格是写实、水墨、动画亦或是其他风格。

之后就是设置具体的分镜分镜就是表现每一个镜头该如何设计。

在传统的影视制作流程中导演画分镜时往往需要画参考图以及考虑镜头的景别相机参数等信息以便于后期拍摄。

但AI创作不需要做得这么细只需要写清楚每一个镜头在表现什么就行了这一步也是可以让文本型AI来辅助根据剧本故事来拆解。

如何记录下每个镜头的表现内容呢这里可以用到我开发的极速分镜[1]。

在每个分镜中把画面描述写清楚。

AI生成的视频长度基本在

s左右对于一分钟左右的短片大概需要设计

个镜头。

我的这个短片中总共设计了9个分镜。

生成参考图参考图分两部分场景参考和人物参考。

生图模型的选用有很多选择最好用的还是 Nano Banana Pro 和 Midjourney。

Midjourney在大场景构建上特别是游戏CG场景有非常独特的美感而 Nano Banana Pro 更加全能有更好的泛用性。

关于 Nano Banana Pro免费使用的方式在前文中已经

总结过 20 种方法。

如果额度仍然不够可以考虑为此付费或者用 Seedream

5 平替。

场景参考图的生成方式很容易只需要把剧本丢进去让AI自己脑补或者让文本AI先优化一下提示词再输入到生图AI中去生成。

场景参考奠定了影片的基调包括场地、天气、画风的元素在后面生图的时候可以随时喂给AI当参考图之一。

人物参考的方法类似但需要让AI去在一张图中去生成前向、侧向和背向的三视图如果故事涉及人物表情还可以进一步去让AI生成各种表情图。

为什么要做多角度的参考图呢因为在多个镜头中AI视频的人物一致性存在很大问题对此有效的方案是先生成镜头分镜。

生成分镜图时人物的三视图可以拆开来使用比如要生成人物的正面动作就传正视图侧视、背视同理。

生成分镜图准备好之后下面就开始生成剧本的分镜图。

为什么要生成分镜图呢因为制作AI视频的四种形式文生视频、图生视频、视频生视频、音频生视频文生视频通过纯提示词来生成视频一般用于制作短片段或测试模型性能图生视频通过参考图配提示词来生成视频也有多图参考、首尾帧等玩法视频生视频根据一段视频配提示词来生成视频通常用于动作/表情/风格迁移音频生视频根据音频配提示词来生成视频几乎用不到所以要做多镜头短片镜头间的一致性是需要提前限定的最好的方式就是先生成分镜图作为视频的参考约束。

我做的这个短片的人物原型取自《明日方舟》游戏中的重岳角色。

因此在上面生成人物的时候就让AI根据这张游戏立绘图去生成3D风格的角色。

AI第一次出的风格就很不错但是脸部太过于动漫化了。

再结合人物IP的人设和年龄进行修改修改一两次之后就正常多了。

生成分镜就以人物作为参考图根据分镜设计去生成分镜动作。

有时候没想好动作设计也可以让 AI 自行脑补多生成一些然后挑一些合适的动态修改分镜。

最终做完分镜图之后影片就算是做完一半了。

生成视频片段有了分镜图之后下面就来根据每个镜头去生成视频。

AI视频模型可选项有很多我之前的文章做过横向比较分别用下面几款模型来生成片段并让读者进行投票结果如下总体来看各家的模型都各有特点Veo

1比较全能但生成的素材会偏西化做中式风格题材不适合使用Sora2/Sora2 Pro分镜能力特别强但指令遵循能力较弱(不太听话)偏自由派Kling Omni V1一个比较独特的模型多数情况下效果不好但在某些特定情况(可参考官方说明)效果很好属于偏科生如果要让它综合一点Kling

6 是一个更好的选择Vidu Q2指令遵循能力很强首尾帧能力出色在这个短片的制作过程中参考图和设定都做了限制因此选择了最听话的Vidu Q2来生成视频片段。

Vidu 的新用户会有一些试用积分如果积分用完可以再找其它中转站。

在薅完各平台的试用积分之后就得到了9个分镜的相关视频。

各家的平台得到的视频很散乱怎么汇总整理呢极速分镜就可以解决这个问题把视频直接上传到对应的分镜行然后再可以添加一些备注比如后期制作时需要做的变速需要添加的音效等信息。

生成视频音效虽然 Vidu Q2 的指令遵循能力出色但它的缺陷是生成的视频是没有声音的。

声音包括两部分音效和配乐。

这一节先来搞定音效。

经过实验发现腾讯的 HunyuanVideo-Foley 这个视频配音模型效果不错它是一个开源模型参数量不大有稍微好一点显卡的话可以本地部署使用。

如果不进行本地部署也有云端调用的方案。

huggingface上有该项目的云部署[2]每天可以免费调用

次。

wavespeed[3]上也可以用它新用户有$1的赠送额度运行一次花费$

05可以免费用20次。

这个模型是根据上传视频和文本提示词来生成带有音效的视频。

把每个镜头都配上音效后下面再来搞定音乐。

生成视频音乐当前最流行的AI音乐制作网站是Suno[4]。

它每天有50积分可以生成5次。

它可以根据提示词以及歌词去生成歌曲。

要生成无歌词的背景音乐那就不写歌词只告诉AI具体的片子基调让它生成。

它一次性能生成多首找到一首最契合的下载下来即可。

调节音乐时长有了视频素材和音乐就可以进行粗剪我通常是先把画面搞定哪些地方需要剪切哪些地方需要变速都先进行处理。

另外还有一个小点需要注意AI在生成视频时第一帧往往是高清参考图后面才是生成的内容默认连在一块清晰度和色彩会有跳变因此需要把每段视频的第一帧给切掉。

处理完之后往往会发现一件事音乐和视频时长不匹配。

在Suno里面生成的音乐无法准确地控制时长对此需要对音乐进行裁剪。

如果直接生硬地将音乐截断会有明显的中断感听感较差。

因此需要用其它方式自然地去对音频进行时长调整。

Adobe AU可以对音频进行重新混合。

但是AU的软件不是免费的免费的方案可以用 Audjust[5]这个网站它可以将一旦音频生成近似输入时长的多种组合方案可以通过试听的方式选择效果最好的一段进行下载。

台词配音如果是原创角色可以用AI配音、语音克隆的方式进行配音。

由于我这个主角存在原始来源那就直接采用的角色官方的CV配音配音可以从PRTS[6]上直接下载。

插入完配音后可以选择配上相关字幕字幕可以手动编辑也可以采用语音转字幕的方案。

最后导出1080p的影片就行了。

影片超分我使用的是剪映这款剪辑软件它导出的时候可以选择2K/4K但需要注意的一点是AI生成的影片是1080p如果用默认导出的2K/4K出来的是插值放大的结果并不会让画面看起来更清晰。

因此要提高影片的质量需要先导出1080p然后用超分辨的方式去让视频变得更高清。

一个比较简单的方式是用Topaz Video AI这个软件但该软件是收费的且不便宜。

免费的方案也是有的可以用REAL Video Enhancer[7]这个开源软件它支持Windows/Linux/MacOS三个不同的操作系统。

它支持以下超分辨模型这些模型怎么选主要看两个类Realistic现实题材Animation动画题材比如我这个影片是3D动画风格就可以选JaNai V3这个模型。

它把影片的每一帧长和宽都放大到2倍1080p的影片就变成了4K的影片。

至此整个操作流程结束。

进阶操作

总结上述工作流只是一个基本的影片创作流程对于更专业的创作者来说还有以下更高阶的操作Comfy UI工作流Comfy UI是一套基于节点的工作流框架有些工作流可以实现更加精确的图像控制从而弥补AI在生图或处理视频时灵活性过高的短板。

一图多镜参考图为了让分镜参考图之间更有关联性有一种方法是一次性让AI生成4张/9张拼接起来的分镜图这也是一个比较巧妙的技巧。

参考图超清在生成完参考图之后可以增加一步对参考图进行超分。

为什么要超分参考图目的就是改善信息分布。

同样一块2K屏幕屏幕上有2K个像素但看2K图和看4K图还是会有差别原因就是4K图在映射成2K图时每个像素点是有多个像素点加权平均得到从而在边缘连续性、抗混叠和噪声抑制方面表现更好。

AI视频模型也是同理虽然它输入的图像可能最多只有1080p但输入原生1080p和超分后再下采样的图像结果也会有差异。

因此追求品质的可以对参考图进行超分。

一些常见的网站/软件比如Magnific和Topaz Photo都支持图像超分但两个价格都偏贵后面我会补充免费的方案。

绿幕合成法AI 对于文本的处理存在缺陷特别是显示一些带屏幕的场景时屏幕上的文字可能会崩掉。

一个比较有效的方案就是让AI在屏幕上生成绿幕。

然后自己通过后期软件把另一段单独的AI生成屏幕信息的视频合成上去。

换脸法虽然有参考图进行约束人物的一致性能够得到一定保证但仍有翻车的可能性。

一个比较“邪修”的方案就是AI换脸通过换脸将人物的一致性做到极致。

后期调色当处理长片时不同镜头之间的风格差异往往会让观众觉得“出戏”和“不自然”。

此时可以通过后期调色的方式比如用达芬奇来做多级调色增加一些胶片质感和边缘模糊来增强影片的真实感必要时甚至可以加入一些手持晃动的特效来增加沉浸感。

总结虽然AI让每个人都能成为导演但精品的AI视频仍然不多。

核心原因不是方法的缺失而是审美的匮乏。

审美偏主观很难像方法论一样去

总结但审美是影片的灵魂主题审美、故事审美、画面审美、音乐审美构成了一部影片是精品还是俗品的关键。

因此AI时代并不会“杀死”导演反而会让审美品味更好的导演有了更好的创作土壤。

AI和人的最大区别就是审美AI的本质是模仿它不知道哪些镜头是好的哪些是不好的筛选的过程就是审美品味的体现。

在未来的两个月内我将尝试制作一部真人写实风格的微电影拭目以待。

参考[1] https://xdxsb.top/mediastory[2] https://huggingface.co/spaces/tencent/HunyuanVideo-Foley[3] https://wavespeed.ai/zh-CN/models/wavespeed-ai/hunyuan-video-foley[4] https://suno.com/invite/harmonictriangle059[5] https://www.audjust.com[6] https://prts.wiki/w[7] https://github.com/TNTwise/REAL-Video-Enhancer

红桃17c·c18怎么下载安装-红桃17c·c18怎么下载安装应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123