无需颠倒模子试验、即插即用妹妹 自慰,全新的视频生成增强算法——Enhance-A-Video来了!
和最近东谈主气超高的混元视频生成模子(HunyuanVideo)对比来看,加入 Enhance-A-Video 的版块在生成画面中发达出了愈加丰富的细节和更高的语义契合度,生成内容和用户输入的文本提醒更匹配:
参谋团队成员来悔改加坡国立大学、上海 AI 实验室和德克萨斯大学奥斯汀分校。
节略来说,新算法通过疗养时候珍贵力层输出的一个要道参数,约略在的确不增多推理职守的情况下,大幅普及生成视频的细节发达和时序连贯性。
Enhance-A-Video 还兼容多种主流视频生成模子,无需修改基础架构即可平直应用。
比如CogVideoX-2B + Enhance-A-Video:
还有OpenSora-V1.2 + Enhance-A-Video:
实验收尾败露,Enhance-A-Video 在普及视频质料方面发达超卓,尤其是在对比度、清醒度以及细节信得过性上有权臣校正。
新算法依然发布,其宏大的泛化才调亦然赶紧取得了社区的招供。
许多网友已将该算法集成到多个主流推理框架中,包括 ComfyUI-Hunyuan 和 ComfyUI-LTX。
对比一下网友 Kijai 发布的原始混元模子和增强后的效果,不错看到模子生成画面愈加当然,动态发达也愈加运动:
△Comfy-UI 测试收尾,左边为原始视频,右边为增强视频
LTX-Video 的参谋东谈主员 Nir Zabari 还成效将它应用到了LTXV模子中,权臣普及了生成视频在动作一致性和细节呈现方面的发达。
这一恶果标明,Enhance-A-Video 不仅适用于特定模子,还能豪爽适配于不同的视频生成框架。
参谋布景:普及视频生成质料需求热烈
比年来,以 Diffusion Transformer(DiT)为代表的视频生成时期 [ 1 ] 迅猛发展,约略把柄文本描写生成各类化的视频内容。
可是,现存次序仍濒临以下挑战:
时序不连贯:帧与帧之间短少一致性;
细节无极:画面纹理短少清醒度;
画面抖动:动态效果不够牢固。
这些问题权臣影响了生成视频的实用性和不雅看体验,如何普及 AI 生成视频的质料成为当前参谋的要道问题之一。
为了科罚上述问题,Enhance-A-Video 应时而生。其中枢旨趣是通过一个增强扫数,优化时候珍贵力的散布,从而杀青以下上风:
高效增强:快速普及视频质料;
无需试验:可平直应用于现存生成模子;
即插即用:天真适配多种场景和需求。
想象动机:时候珍贵力的优化后劲
时候珍贵力(Temporal Attention)在 DiT 模子中肃穆信息的帧间传递,对生成视频的连贯性和细节保留至关勤劳。
通过对不同 DiT 层的时候珍贵力散布进行可视化分析,参谋东谈主员发现:
在部分 DiT 层中,时候珍贵力的散布存在权臣互异:跨帧珍贵力(非对角线部分)的强度显豁低于单帧显示宗旨(对角线部分)。
这一自得可能导致帧间信息传递不及,进而影响视频的一致性和细节发达。
基于这一不雅察,作家建议了一个要道假定:能否通过行使时候珍贵力来提高视频质料?
△不同 DiT 层的时候珍贵力散布图
这一假定的灵感起原于假话语模子(LLM)中的温度扫数(τ)调遣机制。
在文本生成中,通过疗养 Softmax 的温度参数不错均衡一致性与各类性 [ 2 ] :
增大 τ,生成收尾愈加各类化。
减小 τ,生成收尾更连贯一致。
访佛地,在视频生成中,时候珍贵力的温度扫数不错平直影响帧间相干性强度,为 Enhance-A-Video 的想象提供了表面基础。
次序详细:无需试验的动态增强决策
基于上述不雅察与想考,作家初次发刻下候珍贵力的温度扫数决定了不同帧之间的相干性强度,相干性强度越高意味着每一帧生成时,在时候高下文维度所议论的领域越广。
由此方针起程,作家建议了一种疗养时候珍贵力层输出,无需试验的视频增强次序,该次序不错平直应用于现存的 AI 视频生成模子。
△Enhance-A-Video 框架图
Enhance-A-Video 的中枢想象是通过动态调遣时候珍贵力层的输出,杀青对帧间一致性和细节发达的优化。
具体次序分为以下几步:
1. 并行增强模块
在时候珍贵力层的基础上增多一个并行分支,筹办时候珍贵力散布图。
输入时候珍贵力层的消释气象也被传入增强模块。
2. 筹办跨帧强度(CFI)
从时候珍贵力散布图中索求非对角线元素的平均值,行为跨帧强度(Cross-Frame Intensity, CFI)。
3. 动态增强截至
引入增强温度参数(Enhance Temperature),将其与 CFI 的乘积行为增强模块的输出扫数。
行使该扫数动态疗养时候珍贵力层输出的特征增强强度。
通过这一计策,Enhance-A-Video 约略高效地普及视频的帧间一致性和细节发达,而无需对原始模子进行再行试验。
为 AI 视频生成时期提供新想考
这项参谋建议了首个无需试验、即插即用的 AI 生成视频质料增强次序—— Enhance-A-Video,针对当前生成视频质料的要道问题,围绕时候珍贵力机制张开改变想象,主要孝顺如下:
改变性次序:通过在时候珍贵力层筹办交叉帧强度,引入增强温度参数,普及帧间一致性与细节发达力。
高效性与通用性:无需试验,平直适配主流视频生成模子。
权臣性能普及:在 HunyuanVideo 等模子上科罚了细节缺构怨时序不一致等问题。
改日他们还会在此基础上进一步开展责任,包括:
自顺应增强:参谋自动调遣增强温度参数机制,优化一致性与各类性均衡。
膨胀适用性:优化次序想象以适配大范畴模子和多模态场景。
草榴论坛质料评价:构建更完善的视频生成质料评价体系。
作家示意,期待本参谋为 AI 视频生成时期的执行应用与质料普及提供新的想路和支柱!
开源代码贯穿:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video
相干博客贯穿:https://oahzxl.github.io/Enhance_A_Video/
参考文件:
[ 1 ] Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang and Aditya Ramesh. " Video generation models as world simulators. " OpenAI Research ( 2024 ) .
[ 2 ] Renze, Matthew and Erhan Guven. " The Effect of Sampling Temperature on Problem Solving in Large Language Models. " ArXiv abs/2402.05201 ( 2024 ) .
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 神色主页贯穿,以及辩论形势哦
咱们会(尽量)实时恢复你
点这里� � 温雅我,谨记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~