AI 每日资讯 — 2026-05-20
AI 每日资讯 — 2026-05-20 🔥 HuggingFace 每日论文 1. LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation Yukang Chen, Luozhou Wang, Wei Huang LongLive-2.0 提出了一种基于 NVFP4 的全栈并行基础设施,专为长视频生成的训练与推理优化设计。其核心创新包括:训练阶段引入序列并行自回归(AR)机制——Balanced SP,通过在各计算节点上配对“干净历史”与“加噪目标”时间块,实现SP感知的分块VAE编码与自然teacher-forcing掩码;结合NVFP4低精度计算,显著降低显存占用并加速GEMM运算。推理阶段支持Blackwell架构下的W4A4 NVFP4量化、NVFP4 KV缓存及异步流式VAE解码,非Blackwell平台则采用SP推理与量化KV缓存协同优化通信开销。实验表明,该框架在保持高质量生成的同时,大幅提升长视频建模效率与端到端吞吐量。 PDF · arXiv · 代码 · 项目 | ❤️ 86 2. Code as Agent Harness Xuying Ning, Katherine Tieu, Dongqi Fu 本文提出“代码即代理框架”(Code as Agent Harness)这一新范式,将代码从传统生成目标升维为代理系统的核心基础设施,支撑推理、行动、环境建模与执行验证。作者构建三层分析框架:(1)框架接口层,刻画代码如何连接代理与外部能力;(2)框架机制层,涵盖面向长周期任务的规划、记忆、工具调用及反馈驱动的控制与优化;(3)扩展层,探讨单代理到多代理系统中共享代码构件对协同、审查与验证的支持。综述覆盖编程助手、GUI/OS自动化、具身智能、科学发现等七大应用场景,并指出评估体系、鲁棒性、可解释性等关键开放挑战。 PDF · arXiv · 代码 | ❤️ 24 3. WavFlow: Audio Generation in Waveform Space Feiyan Zhou, Luyuan Wang, Shoufa Chen...