首页速度优化9191.gov.cn：开启智慧政务新篇章，一站式服务触手可及

网站优化

91小视频：点亮你的视界，开启无限可能

探索身体的奥秘：日本美学与甘草的奇妙交织

2026-06-09 15:14:19

阅读时长:4分钟

562次阅读

核心内容摘要

当顶级颜值遇上科学备孕：美女帅哥的“高质量人类”通关手册

引言迟到的巨人带着核武器来了在 AI 视频生成领域Google 一直给人一种“起了个大早赶了个晚集”的印象。

早期的 Phenaki 和 Imagen Video 虽然发论文早但效果总感觉差口气。

直到 OpenAI 发布 Sora那种物理世界的连贯性、长达 60 秒的稳定性直接把 Google 逼到了墙角。

但 Google 毕竟是 Google。

它拥有全球最大的视频数据库——YouTube。

Veo 的发布标志着 Google 正式利用其“数据霸权”进行反击。

它不仅仅是生成视频它是在模拟物理世界。

它能生成超过 1 分钟的 1080p 视频且在时序一致性、光影渲染、物理模拟上展现出了令人咋舌的能力。

分Veo 的核心黑科技——它为什么能“懂”电影很多 AI 模型比如早期的 Runway Gen-2生成的视频画面很美但动起来很假。

人物会瞬移背景会扭曲。

Veo 最大的突破在于两点对电影术语的理解和对物理规律的遵循。

1 压缩潜在空间变换器Compressed Latent Video Transformers虽然 Google 没有完全公开 Veo 的论文但从其前身 Lumiere 和 VideoPoet 的技术路线可以推断Veo 极有可能采用了改进版的 Latent Diffusion Transformer (DiT) 架构。

• 空间压缩它将高分辨率的视频帧压缩到一个低维的潜在空间Latent Space大大降低了计算量。

• 时空注意力机制Space-Time Attention不同于传统的“先生成图再生成动效”Veo 在生成的瞬间是同时考虑空间画面内容和时间动作连贯性的。

这意味着它生成的每一帧都“记得”前一帧的状态。

2 懂“行话”的 AICinematic Control这是 Veo 最让好莱坞导演恐惧的地方。

你可以直接在 Prompt 里写专业的摄影术语• “A timelapse (延时摄影) of a flower blooming.”• “An aerial shot (航拍) of a coastline.”• “A dolly zoom (希区柯克变焦) on the character’s face.”Veo 能精准理解这些词汇对应的摄像机运动轨迹。

这说明 Google 在训练数据中标注了极其丰富的元数据Metadata这很可能得益于 YouTube 上海量的专业摄影教程和电影片段。

3 物理模拟与蒙版编辑Masked EditingVeo 引入了极强的局部重绘Inpainting和蒙版编辑能力。

你可以圈选视频中的一只狗输入“变成一只狮子”Veo 能在保持狗的运动轨迹、光影遮挡关系不变的情况下完美替换物体。

这需要模型对 3D 几何结构有深度的理解而不仅仅是像素级的拼凑。

⚔️

分巅峰对决——Veo vs Sora vs 可灵 (Kling)深度点评• Sora 是开创者但在产品化上太慢了。

• 可灵 (Kling) 是目前的“卷王”国内用户能直接玩到且支持 2 分钟超长生成非常务实。

• Veo 的优势在于生态。

它不仅是一个模型它被集成在 YouTube Shorts 和 Google Workspace 里。

Google 的野心是让你在写 PPT、剪视频的时候随手就能调出 Veo。

️

分开发者视角——VideoFX 与生态落地Google 推出 Veo不仅仅是为了炫技而是为了构建一个新的内容创作生态——VideoFX

1 什么是 VideoFX这是一个基于 Veo 模型的实验性工具。

它采用了**“故事板Storyboard”**的交互模式。

不同于传统的“抽卡”输入 Prompt - 等待 - 不满意重来VideoFX 允许创作者先生成一段视频。

对这段视频进行**“音乐生成”**Music Loop。

对视频进行**“扩展”**Outpainting比如把竖屏变横屏。

利用 Director Mode导演模式微调镜头角度。

2 对开发者的启示多模态融合Veo 的出现告诉我们未来的 AI 应用绝对不是单一模态的。

Video Image Audio Text Time。

Google 正在把 Gemini文本/代码、Imagen 3图像、Veo视频、Lyria音乐打通。

作为开发者我们未来的机会在于利用 Google Cloud Vertex AI将这些能力串联起来。

想象一个场景用户上传一本小说 - Gemini 提炼剧本 - Imagen 生成分镜图 - Veo 生成视频片段 - Lyria 配乐 - 最终合成一部电影。

这在 Veo 出现之前是天方夜谭但现在技术闭环已经完成。

分AIGC 视频的“阿喀琉斯之踵”虽然 Veo 很强但我们也要清醒地看到当前技术的局限性这也是 CSDN 读者技术人员需要关注的难点。

1 算力成本的黑洞生成 1 分钟的 1080p 视频消耗的算力是生成一张图片的几千倍。

Google 虽然有 TPU v5p 集群但要将 Veo 免费开放给几十亿 YouTube 用户成本依然是天文数字。

推测未来 Veo 可能会推出“轻量版Distilled Version”运行在 Pixel 手机端而“完整版”作为 Google One 的付费增值服务。

2 时序一致性的“恐怖谷”虽然 Veo 解决了大部分物理问题但在处理复杂交互比如两个人握手、吃面条时依然会出现手指融合、物体穿模的现象。

这是扩散模型Diffusion Model的固有缺陷——它是在概率空间里“猜”像素而不是真的理解原子结构。

结语好莱坞的黄昏程序员的黎明Google Veo 的发布不仅仅是 AI 圈的一次狂欢更是内容产业的一次地震。

唐纳德·格洛弗Donald Glover美剧《亚特兰大》导演已经开始使用 Veo 制作短片了。

这预示着一个趋势视频制作的门槛正在被无限拉低。

对于 CSDN 的开发者来说这或许是最好的时代。

以前你想做视频应用你需要懂 OpenGL懂编解码懂渲染引擎。

现在你只需要懂Prompt Engineering懂 API 调用懂 Agent 编排。

Veo 是一把钥匙它打开了通往“个人导演时代”的大门。

不要只做一个观众去申请 Waitlist去研究它的 API去成为那个手握钥匙的人。

91小视频：点亮你的视界，开启无限可能

核心内容摘要

当顶级颜值遇上科学备孕：美女帅哥的“高质量人类”通关手册

分Veo 的核心黑科技——它为什么能“懂”电影很多 AI 模型比如早期的 Runway Gen-2生成的视频画面很美但动起来很假。

1 压缩潜在空间变换器Compressed Latent Video Transformers虽然 Google 没有完全公开 Veo 的论文但从其前身 Lumiere 和 VideoPoet 的技术路线可以推断Veo 极有可能采用了改进版的 Latent Diffusion Transformer (DiT) 架构。

2 懂“行话”的 AICinematic Control这是 Veo 最让好莱坞导演恐惧的地方。

3 物理模拟与蒙版编辑Masked EditingVeo 引入了极强的局部重绘Inpainting和蒙版编辑能力。

分巅峰对决——Veo vs Sora vs 可灵 (Kling)深度点评• Sora 是开创者但在产品化上太慢了。

分开发者视角——VideoFX 与生态落地Google 推出 Veo不仅仅是为了炫技而是为了构建一个新的内容创作生态——VideoFX

1 什么是 VideoFX这是一个基于 Veo 模型的实验性工具。

2 对开发者的启示多模态融合Veo 的出现告诉我们未来的 AI 应用绝对不是单一模态的。

分AIGC 视频的“阿喀琉斯之踵”虽然 Veo 很强但我们也要清醒地看到当前技术的局限性这也是 CSDN 读者技术人员需要关注的难点。

1 算力成本的黑洞生成 1 分钟的 1080p 视频消耗的算力是生成一张图片的几千倍。

2 时序一致性的“恐怖谷”虽然 Veo 解决了大部分物理问题但在处理复杂交互比如两个人握手、吃面条时依然会出现手指融合、物体穿模的现象。

b站9.1游戏-b站9.1游戏应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

91小视频：点亮你的视界，开启无限可能

核心内容摘要

当顶级颜值遇上科学备孕：美女帅哥的“高质量人类”通关手册

分Veo 的核心黑科技——它为什么能“懂”电影很多 AI 模型比如早期的 Runway Gen-2生成的视频画面很美但动起来很假。

1 压缩潜在空间变换器Compressed Latent Video Transformers虽然 Google 没有完全公开 Veo 的论文但从其前身 Lumiere 和 VideoPoet 的技术路线可以推断Veo 极有可能采用了改进版的 Latent Diffusion Transformer (DiT) 架构。

2 懂“行话”的 AICinematic Control这是 Veo 最让好莱坞导演恐惧的地方。

3 物理模拟与蒙版编辑Masked EditingVeo 引入了极强的局部重绘Inpainting和蒙版编辑能力。

分巅峰对决——Veo vs Sora vs 可灵 (Kling)深度点评• Sora 是开创者但在产品化上太慢了。

分开发者视角——VideoFX 与生态落地Google 推出 Veo不仅仅是为了炫技而是为了构建一个新的内容创作生态——VideoFX

1 什么是 VideoFX这是一个基于 Veo 模型的实验性工具。

2 对开发者的启示多模态融合Veo 的出现告诉我们未来的 AI 应用绝对不是单一模态的。

分AIGC 视频的“阿喀琉斯之踵”虽然 Veo 很强但我们也要清醒地看到当前技术的局限性这也是 CSDN 读者技术人员需要关注的难点。

1 算力成本的黑洞生成 1 分钟的 1080p 视频消耗的算力是生成一张图片的几千倍。

2 时序一致性的“恐怖谷”虽然 Veo 解决了大部分物理问题但在处理复杂交互比如两个人握手、吃面条时依然会出现手指融合、物体穿模的现象。

b站9.1游戏-b站9.1游戏应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐