攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

你是否曾被AI视频生成的不连贯性所困扰?在交互式创作中,仅仅切换一句提示词,故事就可能瞬间“崩塌”:一个角色暂时离开画面后再次出现,却“面目全非”,仿佛换了演员;或者,当你尝试...

你是否曾被AI视频生成的不连贯性所困扰?

在交互式创作中,仅仅切换一句提示词 ,故事就可能瞬间“崩塌”:一个角色暂时离开画面后再次出现,却“面目全非 ”,仿佛换了演员;或者 ,当你尝试引入一个新角色,AI却在后续的剧情中反复“召唤”这个新人,甚至将多个角色的特征混淆在一起。这种“金鱼记忆”式的顽疾 ,正是长视频生成在叙事上的一大致命伤 。

现在,来自香港大学和快手可灵(Kling)团队的研究者们,联合推出了突破性方案——MemFlow。

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆	,告别快速遗忘与剧情错乱

这是一种创新的流式自适应记忆机制,它赋予了AI强大的长时记忆与叙事连贯性,有望彻底解决上述难题。

流动的叙事 vs. 僵化的记忆

为了生成长视频 ,主流模型普遍采用“分块生成 ”的策略 ,即像放映幻灯片一样,一段一段地生成视频片段 。

然而,如何让后生成的片段精准地“记住”前面的内容 ,成了一道巨大的技术鸿沟。以往的解决方案大致可分为几类,但都存在明显局限:

1. “只记开头”的策略:一些模型只保留第一个视频片段作为记忆,后续所有生成都参考它。这种方法在单一场景下尚可 ,一旦故事发展,需要引入新角色或切换到全新场景时,模型就会因为“记忆 ”中没有这些新信息而迷失 ,导致后续生成与此前内容在视觉和语义上均存在不连贯性 。

2. “一刀切”的压缩策略:另一些方法试图将所有历史画面压缩成一个固定大小的“记忆包”。问题在于,不同的叙事需求要回忆的重点不同,“一刀切 ”的压缩往往会丢失关键细节 ,导致主体特征遗忘和视觉质量漂移。

3. “各自为政”的流程:还有一些流程试图将任务拆分,先让一个模型制作关键帧脚本,再让另一个模型根据脚本生成视频 。这种方式在根据各段脚本分别生成时是各自独立的 ,拼接成的完整视频缺乏全局一致性。

这些僵化的、非自适应的记忆策略 ,无法应对交互式创作中流动的 、不可预测的叙事需求,这正是导致交互式长视频生成一致性差的原因。

产生真正的长时记忆与叙事连贯性

MemFlow跳出依赖死板、固定记忆的传统模式,建立了一套动态、以语义作为桥梁的记忆系统 ,其优势主要体现在两方面:

1. 长时记忆:维持复杂场景下的视觉一致性

MemFlow获得了物体形象的长期记忆能力 。这意味着,即使在长视频中存在场景切换 、镜头变换,甚至是角色的插入或暂时消失等复杂情况 ,它也能记住每个主体的核心视觉特征 。

2. 叙事连贯性:确保多主体故事线的清晰发展

学习导演思维,从全局角度理解剧情。在涉及多个主体的叙事中,MemFlow不会错误地重复引入已经存在的角色 ,更不会发生主体混淆的“脸盲”错误。当用户引入新主体并对其展开后续描述时,MemFlow能准确理解并延续叙事,让故事流畅地向前推进 。

自适应的高效动态记忆

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆	,告别快速遗忘与剧情错乱

MemFlow的强大能力源于两大核心设计:

叙事自适应记忆(NAM):在生成新片段前,它会根据当前提示词,智能地从记忆库中检索出最相关的视觉记忆。这使其无论是延续旧角色还是描绘新互动 ,总能找到准确的视觉参考 ,从而维持一致性。这种设计使模型能够在有限的记忆容量下优先保留与当前叙事最相关的信息,从而在一致性和计算开销之间取得平衡 。

稀疏记忆激活(SMA):为了兼顾效率,该机制会像聚光灯一样 ,只激活记忆中最关键的信息进行计算。这不仅避免了信息过载导致的混淆,还极大地提升了生成速度,在保证高质量叙事的同时实现了高效率。

从定量数据到定性对比的全面验证

为了评估MemFlow的实际效果 ,研究团队进行了一系列详尽的定性和定量实验,其结果清晰地展示了该模型在长视频生成领域的性能表现 。

定量分析:关键指标的显著提升

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

在具有挑战性的“多提示词60秒长视频生成 ”任务中 ,MemFlow的数据表现尤为突出:

综合质量与美学评分表现出色

在VBench-Long的评估体系下,MemFlow在质量总分(85.02)和美学小分(61.07)上均取得了所有对比模型中的最高分,表明其生成的视频在视觉质量和美学呈现上具有良好水准。

长程语义一致性得到验证

通过逐段评估视频与文本匹配度的CLIP分数 ,可以观察到一个关键现象:在视频的后半段(如40-60秒),许多模型在语义一致性上的表现会因误差累积而出现明显下滑,但MemFlow的分数能够持续保持在较高水平。这反映了其动态记忆机制在维持长期叙事一致性方面的有效性 ,有助于缓解“越往后越乱 ”的问题 。

一致性表现优异

在衡量核心能力的一致性评分上 ,MemFlow取得了96.60的高分,与所有对比模型相比处于领先位置。这直接说明,无论是角色、背景还是物体 ,MemFlow能在复杂的叙事变化中较好地保持视觉统一。

此外,在针对不同记忆机制的消融实验中,结果显示 ,MemFlow所采用的“叙事自适应记忆+稀疏激活(NAM+SMA)”策略,相较于“无记忆”或仅“记住第一段(Frame Sink) ”的方案,在主体一致性背景一致性上均取得了提升 ,同时还实现了比采用完整记忆库更高的运行效率 。

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

定性分析:视觉对比直观呈现模型优势

除了数据指标,直观的视觉对比更清晰地展示了模型的实际能力:

避免叙事混乱:在一个引入“一位穿着休闲毛衣的女士”的多镜头场景中 ,其他模型在提示词切换后,出现了生成人物外貌不一致或重复引入主体的问题 。而MemFlow则成功地在多个镜头中维持了同一位女士的形象,未见明显漂移。

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆	,告别快速遗忘与剧情错乱

精准的角色追踪与再现:以上对比图有效地展示了MemFlow在处理角色互动时的稳定性。无论是沙滩上玩耍的孩子与小狗 ,还是家庭装饰圣诞树的场景,MemFlow都能确保故事中的核心角色在多段视频中保持一致 。相比之下,基线模型LongLive在切换提示词后引入了多余或不一致的新角色 ,造成了叙事不连贯;其他模型则存在更加严重的质量漂移和主体遗忘。

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

动态记忆的必要性展示:在对记忆机制的视觉对比中,“无记忆”的版本在切换提示词时出现了明显的场景不一致;仅“记住第一段 ”的方案无法保持后续新引入人物的特征。只有MemFlow能够平滑地承接剧情并保证主体一致性 ,这直观地说明了其动态记忆机制的有效性和必要性 。

攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱

效率评估

实验结果显示:在同样的多提示词长视频生成任务中,传统模型易出现主体漂移和角色混淆 ,而MemFlow则保持了更好的叙事连贯性和视觉一致性。

更重要的是,MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比 ,性能损耗极小。它在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA水平 。

开启长视频叙事新纪元

由香港大学与快手可灵团队共同打造的MemFlow,通过其独特的动态记忆机制 ,将AI视频生成技术从“片段拼接”推向了“故事编写”的新高度。

它标志着AI正从一个只能创作“概念视频 ”的画师 ,蜕变为一个能够驾驭复杂剧情 、保持角色连贯的“叙事导演”。

一个真正能够理解、记忆并连贯讲述故事的AI视频创作时代,正在到来 。

Arxiv:https://arxiv.org/pdf/2512.14699

Project Page:https://sihuiji.github.io/MemFlow.github.io/

Github:https://github.com/KlingTeam/MemFlow

本文来自微信公众号“量子位”,作者:MemFlow团队 ,36氪经授权发布。

本文来自作者[慕梅]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/youxi/202512-68143.html

(4)

文章推荐

  • “花式揽储”迎整顿 存款市场持续调整

      银行存款利率仍在持续走低。记者查询多家银行App发现,此前火爆的5年期大额存单产品,国有大行及股份制银行几乎全部“下架”,三年期大额存单也普遍面临额度紧张问题,部分银行目前仅剩一年期大额存单,且设有限制条件,仅允许新资金存入以及特定客户购买,与普通定存利差几乎消失。  家住北京的李先生连续咨询了

    2025年06月22日
    130
  • 中国第二大民企破产,曾力压华为,如今负债7500亿,创始人被带走

    越大的企业,其实越脆弱,一旦内部出现问题,外头稍微有点风吹草动,在庞大的商业帝国,也会轰然倒塌,就像曾经风光无限的海航集团这样。巅峰时期它价值超万亿,国内没有几家企业能与之相比,可就就是这样的庞然大物,却在一夜之间轰然倒塌,最终负债7500亿。那么这家企业到底是如何起家的,又是什么原因,导致它彻底走

    2025年07月06日
    113
  • 实测教程“程序麻将机软件(专用辅牌神器免安装)

    这软件超神啦!新广西老友麻将十三张插件(开挂辅助器脚本)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”新广西老友麻将十三张插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年08月29日
    91
  • 终于发现了“手机打牌神器设备推荐(助赢神器通用版)

    这软件超好用!胡乐麻将的输赢规律(真的确实是有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”胡乐麻将的输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年09月02日
    85
  • 我来教大家“普通麻将机万能遥控真有用吗(助赢神器通用版)

    软件神器爆赞!海迅麻将能操纵输赢吗(怎么设置会赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”海迅麻将能操纵输赢吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月24日
    64
  • 3分钟学会“决战卡五星辅助器(专用辅牌神器免安装)

    超神软件登场!山水麻将助赢神器(软件出售)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”山水麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使

    2025年10月02日
    68
  • 十年前贵州年轻县长硬刚王健林,要求留下5亿利润,现在如何了?

    在2017年的时候,一段视频在网络上面进行疯传,视频内容是商界大佬王健林竟然被一位年轻人“怼”的哑口无言,甚至最终还表示“干脆我每年固定给你五个亿”,那么究竟是什么人能够在巅峰时期的王健林面前“虎口拔牙”呢?想要了解这件的事情的真相,那么就需要先从贵州省的丹寨县聊起,在之前的时候,丹寨县一直都是贫困

    2025年10月11日
    67
  • “南六”、“北六”同场,中国真正实力曝光

    最近,特别关注中国装备的一些美国人发现,咱们的六代机有了一个不同寻常的动作,他们觉得这件事不简单。到底是什么事呢?今天戎评就跟大家说说。【美国对咱们的六代机关注度特别高】首先,有请戎评的“老朋友”,美国《战区》网站的头版头条:歼-36和J-XDS在某个秘密空军基地亮相。文章还将这个基地称为中国的“5

    2025年11月07日
    42
  • 宁夏自治区最大县城,仅次于银川市,相当于2个石嘴山市

    盐池县位于宁夏回族自治区吴忠市境内。是宁夏全区内最大的县级单位。那该县的面积大到什么程度呢!仅次于银川市(9025平方公里),是石嘴山市的1.5倍(5208平方公里),盐池县南北长110公里,东西宽66公里,县城距离自治区首府银川市约130公里。总面积8522.2平方公里。盐池县地处陕、甘、宁、蒙四

    2025年11月08日
    43
  • 玩家实测“微乐内蒙麻将助赢神器(助赢神器通用版)

    超实用的神器!微乐锄大地辅助软件(怎么增加胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐锄大地辅助软件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年09月09日
    84

发表回复

本站作者后才能评论

评论列表(4条)

  • 慕梅
    慕梅 2025年12月26日

    我是视听号的签约作者“慕梅”!

  • 慕梅
    慕梅 2025年12月26日

    希望本篇文章《攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱》能对你有所帮助!

  • 慕梅
    慕梅 2025年12月26日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 慕梅
    慕梅 2025年12月26日

    本文概览:你是否曾被AI视频生成的不连贯性所困扰?在交互式创作中,仅仅切换一句提示词,故事就可能瞬间“崩塌”:一个角色暂时离开画面后再次出现,却“面目全非”,仿佛换了演员;或者,当你尝试...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们