AI 每日资讯 — 2026-05-20

AI 每日资讯 — 2026-05-20 🔥 HuggingFace 每日论文 1. LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation Yukang Chen, Luozhou Wang, Wei Huang LongLive-2.0 提出了一种基于 NVFP4 的全栈并行基础设施,专为长视频生成的训练与推理优化设计。其核心创新包括:训练阶段引入序列并行自回归(AR)机制——Balanced SP,通过在各计算节点上配对“干净历史”与“加噪目标”时间块,实现SP感知的分块VAE编码与自然teacher-forcing掩码;结合NVFP4低精度计算,显著降低显存占用并加速GEMM运算。推理阶段支持Blackwell架构下的W4A4 NVFP4量化、NVFP4 KV缓存及异步流式VAE解码,非Blackwell平台则采用SP推理与量化KV缓存协同优化通信开销。实验表明,该框架在保持高质量生成的同时,大幅提升长视频建模效率与端到端吞吐量。 PDF · arXiv · 代码 · 项目 | ❤️ 86 2. Code as Agent Harness Xuying Ning, Katherine Tieu, Dongqi Fu 本文提出“代码即代理框架”(Code as Agent Harness)这一新范式,将代码从传统生成目标升维为代理系统的核心基础设施,支撑推理、行动、环境建模与执行验证。作者构建三层分析框架:(1)框架接口层,刻画代码如何连接代理与外部能力;(2)框架机制层,涵盖面向长周期任务的规划、记忆、工具调用及反馈驱动的控制与优化;(3)扩展层,探讨单代理到多代理系统中共享代码构件对协同、审查与验证的支持。综述覆盖编程助手、GUI/OS自动化、具身智能、科学发现等七大应用场景,并指出评估体系、鲁棒性、可解释性等关键开放挑战。 PDF · arXiv · 代码 | ❤️ 24 3. WavFlow: Audio Generation in Waveform Space Feiyan Zhou, Luyuan Wang, Shoufa Chen...

五月 20, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-19

AI 每日资讯 — 2026-05-19 🔥 HuggingFace 每日论文 1. DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo Hanwen Wang, Weizhi Zhao, Xiangyu Wang 本文提出DexJoCo——一个面向任务的灵巧操作基准与工具包,旨在推动类人级机器人灵巧手操作能力的发展。针对现有基准缺乏对灵巧手特有操作能力(如工具使用、双手协同、长时序规划与推理)的系统性评测问题,DexJoCo构建了11个功能驱动的任务,并配套开源了基于低成本硬件采集的1.1K条高质量轨迹数据集,支持域随机化以评估策略鲁棒性。作者在视觉/动力学随机化、多任务学习与动作头适配等多种设定下对主流模型进行了全面评测,揭示了当前策略在接触建模、跨任务泛化与长程时序一致性等方面的共性局限,为灵巧手机器人学习指明了关键挑战与研究方向。 PDF · arXiv · 代码 · 项目 | ❤️ 46 2. Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization Xiaoxuan He, Siming Fu, Zeyue Xue 本文针对视频扩散模型与人类偏好对齐中Group Relative Policy Optimization(GRPO)计算开销巨大、训练不稳定的问题,提出单步优化框架Flash-GRPO。该方法通过等时序分组(iso-temporal grouping)消除时间步混淆方差,保障提示级时序一致性;并引入时间梯度校正(temporal gradient rectification)归一化时变梯度尺度,缓解跨时间步梯度幅值失衡。在1.3B至14B参数模型上的实验表明,Flash-GRPO在显著降低GPU天数消耗的同时,训练更稳定,且对齐质量超越全轨迹训练,达到当前最优水平。 PDF · arXiv · 代码 · 项目 | ❤️ 27...

五月 19, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-18

AI 每日资讯 — 2026-05-18 🔥 HuggingFace 每日论文 1. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both Ziyu Guo, Rain Liu, Xinyan Chen 本文针对视觉推理中中间视觉状态建模的效率与泛化性难题,提出ATLAS框架:仅用一个离散的“功能词元”(functional token)统一实现代理式操作与潜在视觉推理。该词元内化视觉操作语义,无需视觉监督,可直接通过标准自回归语言模型生成。ATLAS避免了显式图像生成开销,兼容现有SFT与RL训练范式,无需架构修改。为缓解强化学习中功能词元稀疏导致的训练不稳定,进一步提出Latent-Anchored GRPO(LA-GRPO),通过静态加权辅助目标锚定功能词元,显著提升梯度稳定性与收敛性能。实验表明,ATLAS在多步视觉推理任务上兼具高效性、泛化性与训练鲁棒性。 PDF · arXiv · 项目 | ❤️ 17 2. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO Yanzuo Lu, Ronglai Zuo, Jiankang Deng 本文提出RAVEN框架,旨在解决因果自回归视频扩散模型在长时序外推中因训练与推理历史分布不一致导致的质量退化问题。RAVEN通过将自展开轨迹重构成清洁历史端点与噪声去噪状态的交错序列,使训练注意力机制对齐推理时的外推过程,并利用下游分块损失监督历史表征。进一步,作者设计一致性模型分组相对策略优化(CM-GRPO),将一致性采样建模为条件高斯转移,并直接在其上实施在线强化学习,摒弃了传统流模型RL中依赖欧拉-丸山辅助过程的做法。实验表明,RAVEN在生成质量、语义一致性和动态保真度上全面超越现有因果视频蒸馏方法,CM-GRPO与其结合可带来进一步提升。 PDF · arXiv · 代码 · 项目 | ❤️ 8 3. Aligning Latent Geometry for Spherical Flow Matching in Image Generation Tuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe...

五月 18, 2026 · 4 分钟 · Pan

AI 每日资讯 — 2026-05-17

AI 每日资讯 — 2026-05-17 🔥 HuggingFace 每日论文 1. Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video Yifan Wang, Tong He 本文提出Warp-as-History,一种无需训练、无需架构修改、也无需测试时优化的零样本相机控制视频生成方法。该方法将相机运动引发的像素扭曲转化为与目标帧位置对齐、并经可见性筛选的“相机扭曲伪历史”,作为视觉历史输入送入冻结的视频生成模型。通过目标帧位置编码对齐与无效令牌剔除,模型即可自然遵循任意相机轨迹。进一步地,仅需在单个带相机标注的视频上进行轻量LoRA微调,即可显著提升相机跟踪精度、画面质量与运动连贯性,并泛化至未见视频。实验在多场景下验证了其有效性与通用性。 PDF · arXiv · 代码 · 项目 | ❤️ 34 2. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both Ziyu Guo, Rain Liu, Xinyan Chen 本文针对视觉推理中中间视觉状态建模的效率与泛化性难题,提出ATLAS框架:通过一个离散的“功能词元”(functional token)统一实现代理式操作与潜在视觉推理。该词元内嵌视觉操作语义,无需视觉监督,可直接由语言模型通过next-token预测生成,避免显式图像生成开销,并天然兼容标准监督微调(SFT)与强化学习(RL)流程。为缓解RL训练中功能词元稀疏导致的梯度不稳定问题,进一步提出Latent-Anchored GRPO(LA-GRPO),通过静态加权辅助目标锚定功能词元,显著提升训练稳定性与收敛性。实验表明,ATLAS在多步视觉推理任务上兼顾高效性、泛化性与训练可扩展性。 PDF · arXiv · 项目 | ❤️ 17 3. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction Kaixin Zhu, Yiwen Tang, Yifan Yang...

五月 17, 2026 · 3 分钟 · Pan

AI 每日资讯 — 2026-05-16

AI 每日资讯 — 2026-05-16 🔥 HuggingFace 每日论文 1. SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer Haoyi Zhu, Haozhe Liu, Yuyang Zhao 本文提出SANA-WM——一种高效、开源的分钟级世界模型,参数量仅2.6B,原生支持60秒高保真720p视频生成,并实现精确的6自由度相机轨迹控制。其核心创新包括:混合线性注意力机制(融合Gated DeltaNet与Softmax注意力)、双分支相机控制、两阶段生成流程及鲁棒的公域视频6-DoF姿态标注流水线。实验表明,SANA-WM仅需213K公开视频片段、64块H100 GPU训练15天,单卡即可生成60秒视频;经NVFP4量化后可在RTX 5090上34秒完成去噪。在自建分钟级基准测试中,其动作跟随精度超越现有开源模型,视觉质量媲美工业级大模型,推理效率提升36倍。 PDF · arXiv · 项目 | ❤️ 48 2. Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video Yifan Wang, Tong He 本文提出Warp-as-History,一种无需训练、不修改模型结构、亦无需测试时优化的零样本相机控制视频生成方法。该方法将相机运动诱导的光流扭曲转化为与目标帧位置对齐、并经可见性筛选的“伪历史”视觉序列,并直接注入预训练视频生成模型的视觉历史通路。实验表明,仅凭冻结模型即可实现稳健的相机轨迹跟随;进一步在单个标注视频上进行轻量LoRA微调,即可显著提升相机一致性、画面质量与运动连贯性,并泛化至未见视频。在多场景(如潜水、飞行)中验证了其强泛化性与实用性。 PDF · arXiv · 代码 · 项目 | ❤️ 32 3. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both Ziyu Guo, Rain Liu, Xinyan Chen...

五月 16, 2026 · 5 分钟 · Pan