核心内容摘要
Qwen3-Reranker开源可部署:离线环境ModelScope模型包预置方案
这项由香港科技大学艺术与机器创意学院、计算机科学与工程学院以及香港科技大学广州计算媒体与艺术学院联合开展的研究发表于2026年CHI会议CHI 26, April 13–17, 2026, Barcelona, Spain论文编号为ACM ISBN
/2026/04。
有兴趣深入了解的读者可以通过DOI:
1
1145/
3
3791071查询完整论文。
想象你正在向朋友解释一个复杂的科学概念比如光的反射定律。
通常你可能会在纸上画几条线用箭头标出光的路径甚至画个小太阳和镜子。
这些涂涂画画看起来毫不起眼却能清晰地传达出你的想法。
现在香港科技大学的研究团队想要解决一个有趣的问题能否让计算机像人类一样理解这些随意的涂鸦并且自动将它们转化为专业的动画视频传统上制作动画需要复杂的软件技能和大量时间。
即使是制作一个简单的解释性动画普通人也需要学习专业软件掌握关键帧、时间轴、图层等复杂概念。
这就像要求每个想画画的人都必须先成为专业画家一样门槛实在太高。
更令人沮丧的是现有的一些sketch-based系统虽然允许用户通过简单绘制来创建动画但它们往往将草图局限于预定义的符号或命令就像只能说固定短语的翻译机无法表达复杂或创新的想法。
这项研究的核心创新在于让计算机真正理解自由形式的草图涂鸦。
研究团队没有像以前那样告诉系统箭头等于移动圆圈等于对象这样的固定规则而是利用最新的视觉语言模型VLM让系统自己学会理解涂鸦的含义。
这就像教会计算机用常识来解读人类的涂鸦语言而不是死记硬背符号含义。
研究团队开发了一个名为SketchDynamics的系统这个系统的工作流程就像一个善解人意的动画助手。
用户只需要画几幅简单的故事板系统就能理解其中的动画意图并生成相应的矢量动画代码最终渲染成完整的视频。
更重要的是当系统对用户的意图不确定时它会主动询问澄清问题而当用户对生成结果不满意时还可以直接在视频帧上进行修改。
为了验证这个系统的有效性研究团队设计了一个分为三个阶段的用户研究每个阶段都有8名参与者参与总共24人。
这个研究过程就像逐步改进一个新产品从最初的原型测试开始逐步添加新功能最终形成完整的解决方案。
从随意涂鸦到精彩动画系统如何读懂你的想法第一阶段的研究专注于探索人们如何自然地用草图表达动画想法以及计算机能在多大程度上理解这些草图。
研究团队为参与者提供了一个简洁的网页界面就像一个数字画板用户可以自由绘制多张草图来构成故事板。
这个过程完全不受限制用户可以画任何他们想到的东西。
研究结果令人惊喜又发人深思。
参与者们展现出了极其丰富的表达方式。
有人用箭头表示物体移动的方向有人用虚线圈圈表示物体的未来位置还有人用数字标记来显示动作的先后顺序。
更有趣的是同样的符号在不同人手中可能代表完全不同的含义。
比如一个箭头在工程专业的学生看来可能表示力的方向而在其他人眼中可能只是简单的移动指示。
这种多样性既展现了人类表达的丰富性也揭示了草图解读的复杂性。
系统在处理这些多样化的输入时表现出了令人印象深刻的能力。
它不是简单地复制草图的几何形状而是试图理解草图背后的语义意图。
当参与者画了一条歪歪扭扭的正弦波时系统生成的动画中显示的是一条平滑的正弦曲线。
当用户用粗糙的箭头指示运动轨迹时系统会产生连贯而自然的运动路径。
这种美化处理让很多参与者感到惊喜他们发现系统能够理解他们的核心意图并以比他们的草图更加精美的形式呈现出来。
然而这种智能解读也带来了新的挑战。
由于系统偏向于理解语义意图而非几何精确性当用户需要精确控制动画细节时就可能出现偏差。
一位参与者试图绘制一个特定角度的轨迹但系统将其理解为一般性的运动方向。
另一位用户想要表达特定的时序关系但系统按照自己的理解重新安排了动作顺序。
这些问题揭示了草图本身的模糊性以及系统理解能力的局限性。
更深层的观察显示参与者在绘制草图时采用了两种截然不同的策略。
一些人倾向于详细绘制几乎像制作传统动画那样逐帧描绘场景力图让意图尽可能清晰。
这种方法虽然能提高系统理解的准确性但参与者也抱怨这样做太费劲了失去了草图应有的快捷性。
另一些人则偏爱抽象标记用最少的笔画表达最多的信息比如用简单的箭头和圆圈就能表示复杂的物理过程。
这种方法虽然高效但增加了系统误解的风险。
这个阶段的研究揭示了一个根本性的平衡问题草图的表达力和模糊性是一体两面的。
正是因为草图允许快速、灵活、创造性的表达它们才具有了天然的模糊性。
而这种模糊性既是草图的魅力所在也是计算机理解的最大挑战。
化解疑惑的智能对话当AI不确定时如何聪明提问基于第一阶段发现的模糊性问题研究团队在第二阶段引入了一个巧妙的解决方案澄清提示机制。
这个机制的核心思想是将模糊性从缺陷转化为资源通过人机协作来逐步明确用户的真实意图。
研究团队将草图的模糊性分为四个不同程度并为每个程度设计了相应的澄清策略。
对于轻度模糊的情况比如一条略显不清晰的线条系统会采用快速确认方式就像问这条线是不是表示运动路径这样简单的是非问题。
对于中度模糊的情况比如一个弯曲箭头可能表示旋转也可能表示装饰系统会提供多选题展示不同的动画预览让用户选择。
当遇到需要具体参数的情况时系统会使用填空题方式。
比如用户画了一个球沿着路径移动系统可能会问球需要几秒钟走完这条路径这种询问只针对真正影响动画效果的关键参数避免让用户被琐碎细节困扰。
对于高度抽象或符号化的草图系统则允许用户提供文字说明或上传参考图像比如当用户画了一个粗糙的星形图案时系统可能建议上传一个标准的五角星图标来美化最终效果。
这种分层澄清策略的巧妙之处在于它的自适应性。
系统不会对每个草图都提出问题而是只在真正存在歧义的地方寻求澄清。
这就像一个善解人意的翻译只在关键的理解分歧点才停下来确认而不是逐字逐句地打断对话流程。
第二阶段的用户测试显示这种澄清机制获得了参与者的普遍好评。
在24次创作尝试中系统总共触发了87次澄清提示平均每次创作需要约
6次澄清。
参与者并没有将这些提示视为打断反而认为它们是有用的检查点和让系统回到正轨的方法。
一位参与者评论说我可以看到AI在想什么并且能立即纠正它。
澄清提示的类型分布也很有启发性。
多选择类型的提示最为频繁反映了草图中一对多解释的普遍性。
快速确认相对较少说明系统在处理低模糊度草图时已经相当自信。
填数值和上传资源的提示频率适中表明用户经常绘制需要额外参数或资源支持的抽象符号。
更重要的是澄清过程帮助用户更好地理解和完善自己的想法。
许多参与者表示回答澄清问题的过程让他们意识到了自己原本没有明确考虑的动画细节。
这种反思过程不仅改善了最终结果也提高了用户对动画制作的理解。
然而即使有了澄清机制某些问题仍然无法在生成前完全解决。
有些用户的意图太过抽象或依赖具体的视觉效果只有看到初步结果后才能明确自己想要什么样的调整。
这为第三阶段的改进指明了方向。
精雕细琢的后期调整让动画完全符合你的想象第三阶段的研究重点解决了一个关键问题当用户对生成的动画基本满意但希望进行局部调整时应该如何操作传统的做法是重新绘制草图并完全重新生成但这样做不仅效率低下还可能导致原本满意的部分也被意外改变。
研究团队设计的细化机制就像一个精密的视频编辑工具但操作起来却异常简单。
系统会自动从生成的动画中提取关键帧这些关键帧就像动画的重要时刻快照。
用户可以选择需要修改的关键帧然后直接在帧上绘制修改意图。
比如如果用户觉得地球绕太阳的轨道应该更椭圆一些只需在相应的关键帧上画出期望的椭圆轨迹即可。
这种方法的优势在于它的局部性和可预测性。
与重新生成整个动画不同关键帧编辑只会影响相关的动画片段其他部分保持不变。
这就像在一幅画上局部修改细节而不是重画整幅作品。
用户可以逐步完善动画每次只调整一个小细节直到完全满意为止。
除了视觉化的绘制修改系统还支持文字提示的调整方式。
用户可以输入简单的指令比如让球弹得更慢一些或闪光效果重复两次。
这种混合输入方式既支持直观的视觉调整也允许精确的参数控制。
第三阶段的测试显示了这种细化机制的强大效果。
8名参与者创建了12个编辑版本的动画总共进行了55次细化操作。
平均每个任务需要
6次细化调整其中三分之二是通过在关键帧上绘制完成的其余则通过文字指令完成。
这种分布表明视觉化调整更适合处理空间和形状相关的修改而文字指令则更适合时间和重复次数等抽象属性的调整。
参与者对细化机制的反馈非常积极。
在12个最终输出中有10个保持了未修改部分的稳定性这一点被参与者认为对维持创作动力至关重要。
一位参与者说我不需要从头开始——只需要修改不喜欢的部分。
这种局部控制让动画制作从高风险的一次性尝试转变为渐进式的精细化过程。
更有趣的是参与者展现出了不同的编辑策略偏好。
一些人喜欢早期干预在动画开始的几秒钟内就开始调整防止错误传播到后续部分。
另一些人则偏向于整体审视先观看完整的初步结果然后进行有针对性的局部修正。
这些不同的工作流程都得到了系统的良好支持体现了工具设计的灵活性。
细化机制的另一个重要发现是它对用户控制感的显著提升。
相比前两个阶段参与者在第三阶段报告了更高的控制感和满意度。
他们感觉自己是在与AI合作完善作品而不是被动接受AI的输出。
这种协作感对于创意工具来说至关重要因为它让用户感觉自己仍然是创作过程的主导者。
超越动画制作探索更广阔的应用前景虽然SketchDynamics系统在研究中主要专注于运动图形动画的生成但其核心理念——通过自由形式草图表达动态意图——具有更广泛的应用潜力。
研究团队在论文中展示了两个扩展方向揭示了这种技术可能带来的更大影响。
第一个扩展方向是视频生成。
当前的视频生成技术往往需要详细的文字描述或复杂的参数设置对普通用户来说门槛较高。
而草图作为一种直观的视觉语言可以更自然地表达场景布局、物体运动和镜头变化。
研究团队展示了如何将他们的草图理解技术与现有的视频生成模型结合用户只需画出简单的故事板就能生成相应的真实感视频片段。
比如用户画了一辆汽车在森林道路上行驶然后爆炸的场景系统就能生成对应的真实视频效果。
第二个扩展方向是3D动态场景的创建。
传统的3D动画制作需要复杂的建模、材质、灯光和动画技能即使是简单的场景也需要大量时间。
研究团队展示了如何将草图解读技术应用到Unity这样的3D开发环境中。
用户可以画出3D场景的草图标注物体的运动和相互作用系统就能自动生成相应的3D场景代码。
这种方法特别适合快速原型设计和概念验证让非专业人士也能创建3D交互内容。
这些扩展应用的共同特点是降低了创作门槛让更多人能够参与到数字内容的创作中。
正如研究团队指出的这不仅仅是技术的进步更代表了创作工具民主化的趋势。
当复杂的技术被包装在简单直观的界面后面时创意的表达就不再受到技术能力的限制。
然而这种技术的普及也带来了新的思考。
当任何人都能轻松创建专业级别的动画和视频时内容创作的价值链会如何变化专业创作者的角色会如何演进这些问题虽然超出了技术研究的范围却是这类技术发展必然要面对的社会影响。
深层洞察重新定义人机创作关系这项研究的深层价值不仅在于技术创新更在于它对人机协作模式的重新思考。
传统的创作工具要求用户适应工具的逻辑学习特定的操作方式和概念框架。
而SketchDynamics系统试图让工具适应用户的自然表达方式这种角色颠倒具有深远的意义。
研究过程中最有趣的发现之一是用户创作意图的动态性。
许多参与者在实验开始时并没有完全明确的动画构想而是在与系统交互的过程中逐步明确和完善自己的想法。
澄清问题的回答过程、对生成结果的评价、以及后续的细化调整都成为了用户探索和发展创意的重要环节。
这表明AI系统不仅仅是执行用户指令的工具更可以成为激发和完善创意的合作伙伴。
研究还揭示了草图作为交流媒介的独特价值。
相比文字描述草图能够同时传达空间关系、时间序列和情感色彩这种多维度的信息传递是其他输入方式难以替代的。
更重要的是草图的模糊性并非缺陷而是一种特殊的表达资源。
它允许创作者保留不确定性在创作过程中逐步明确细节这正符合创意思维的特点。
系统的三阶段设计也体现了对人类认知过程的深刻理解。
从初步表达到澄清疑问再到精细调整这个流程镜像了人类处理复杂任务的自然方式。
我们很少一次性完美地表达复杂想法而是通过不断的交流、反馈和修正来完善我们的表达。
SketchDynamics系统的成功正在于它模拟并支持了这种自然的交流模式。
从更宏观的角度看这项研究代表了AI应用开发的一个重要方向转变。
早期的AI应用往往追求完全自动化试图让机器独立完成复杂任务。
但这种方法在面对创意性工作时遇到了瓶颈因为创意本质上是一个探索性和主观性的过程。
SketchDynamics系统采用的人机协作模式承认了这种复杂性将AI定位为增强人类能力的工具而不是替代人类的机器。
这种协作模式的成功也为其他领域的AI应用提供了启发。
无论是在设计、写作、音乐创作还是在科学研究、工程设计中类似的表达-澄清-细化模式都可能发挥重要作用。
关键在于找到合适的交互方式让AI能够理解人类的意图同时让人类能够有效地引导AI的行为。
说到底这项研究最大的贡献可能不是具体的技术实现而是它展示的可能性AI可以真正理解和支持人类最自然的表达方式。
当技术不再要求我们改变表达习惯而是努力理解我们的自然表达时人机交互就进入了一个全新的阶段。
在这个阶段中技术的目标不是展示机器的智能而是放大人类的创造力。
从涂鸦到动画的转换只是一个开始。
当我们能够用最自然的方式与AI交流时无论是通过草图、手势、语言还是其他形式创意表达的边界将被彻底重新定义。
每个人都可能成为数字内容的创作者不是因为他们掌握了复杂的技术技能而是因为技术学会了理解人类最基本的表达冲动。
QAQ1SketchDynamics系统是什么ASketchDynamics是香港科技大学开发的一个AI动画生成系统它能够理解用户随意绘制的草图并自动转换为专业的动画视频。
用户只需要像画故事板一样简单涂鸦系统就能理解其中的动画意图并生成相应的矢量动画。
Q2这个系统如何处理草图的模糊性问题A系统采用了智能的澄清提示机制将模糊性分为四个程度并提供相应的解决方案。
对于轻度模糊采用快速确认中度模糊提供多选择预览需要参数时使用填空询问高度抽象时允许文字说明或上传参考图像。
系统只在真正存在歧义时才询问避免过度打扰用户。
Q3普通人能直接使用SketchDynamics制作动画吗A目前SketchDynamics还是一个研究原型主要用于验证草图到动画转换的可行性。
虽然系统展现了很大潜力但还需要进一步开发才能成为普通用户可以使用的产品。
不过研究成果为未来开发类似的消费级工具奠定了重要基础。