AI 每日资讯 — 2026-06-06

AI 每日资讯 — 2026-06-06 🔥 HuggingFace 每日论文 1. Complexity-Balanced Diffusion Splitting Noam Issachar, Dani Lischinski, Raanan Fattal 本文针对连续时间生成模型中单一网络在扩散全过程内均匀分配计算资源所导致的效率低下问题,提出复杂度均衡分割(CBS)框架。CBS基于函数逼近理论与de Boor等分布原理,将扩散时间轴划分为近似负担相等的若干段,并依据局部生成动力学难度动态分配子网络容量。为此,作者设计了两种可计算的监测函数:基于流场Dirichlet能量的空间复杂度度量和基于采样轨迹加速度的几何复杂度度量,并通过轻量辅助模型实时估计其时序分布。实验表明,在SiT、JiT与UNet等多种架构及多个数据集上,CBS在不增加单步推理开销的前提下显著提升生成质量,例如在SiT-XL+CFG配置下FID降低约35%。 PDF · arXiv · 代码 · 项目 | ❤️ 15 2. Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution Liliana Hotsko, Yinxi Li, Yuntian Deng Code语言模型需依赖仓库级上下文以解析导入、API及项目约定,但现有方法(如长上下文输入或逐库微调/LoRA)存在推理开销大、扩展性差及对代码演化鲁棒性低等问题。本文提出Code2LoRA,一种基于超网络的框架,可动态生成仓库专属LoRA适配器,在零推理时token开销下注入仓库知识。其包含静态版(Code2LoRA-Static)与演化版(Code2LoRA-Evo),后者通过GRU隐状态随代码变更持续更新。在新构建的RepoPeftBench基准(604个Python仓库,含静态与演化双轨道)上,Code2LoRA-Static在跨库和库内断言补全任务中分别达63.8%和66.2%准确率,媲美全量逐库LoRA;Code2LoRA-Evo在演化轨道上实现60.3%跨库准确率,较共享LoRA提升5.2个百分点。 PDF · arXiv | ❤️ 8 3. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery Shangheng Du, Xiangchao Yan, Jinxin Shi...

六月 6, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-05

AI 每日资讯 — 2026-06-05 🔥 HuggingFace 每日论文 1. Audio Interaction Model Zhifei Xie, Zihang Liu, Ze An 本文提出音频交互模型(Audio Interaction Model),旨在解决现有大音频语言模型(LALMs)离线化、任务割裂的问题,构建首个支持实时感知—决策—响应闭环的在线统一音频模型Audio-Interaction。为此,作者设计SoundFlow框架,涵盖流式数据构建、理解感知型训练与异步低延迟推理;构建大规模流式音频语料StreamAudio-2M(2.6M样本,覆盖7类能力、28子任务)及主动音频干预评测基准Proactive-Sound-Bench。实验表明,该模型在8项主流基准上保持竞争力,同时首次实现真实场景下的实时ASR、流式音频指令跟随与主动式语音协助。 PDF · arXiv · 代码 · 项目 | ❤️ 81 2. Streaming Communication in Multi-Agent Reasoning Zhen Yang, Xiaogang Xu, Wen Wang 本文针对多智能体推理系统中“生成-再传输”范式导致端到端延迟随流水线深度线性增长的问题,提出流式多智能体推理框架StreamMA。该框架在每步推理生成后即刻流式传递至下游智能体,实现相邻智能体间的重叠执行,在降低延迟的同时意外提升了推理有效性——因早期推理步骤更可靠,流式利用这些高质量中间结果可避免后期错误步骤对下游的误导。作者首次给出流式、串行与单步协议的联合闭式分析,严格刻画有效性排序、加速上限与成本比。在8个跨领域推理基准、2种前沿大模型(Claude Opus 4.6与GPT-5.4)及3种拓扑结构上,StreamMA平均提升7.3个百分点,最高达22.4个百分点。此外,发现“步级缩放律”,即增加单智能体推理步数可协同提升效果与效率,构成区别于智能体数量扩展的新缩放维度。 PDF · arXiv · 代码 · 项目 | ❤️ 21 3. ZipSplat: Fewer Gaussians, Better Splats Alexander Veicht, Sunghwan Hong, Dániel Baráth ZipSplat提出了一种基于视觉token的前馈式3D高斯光栅化方法,旨在解决现有方法将高斯数量与图像分辨率强耦合、忽视场景几何复杂度的问题。其核心是通过多视角骨干网络提取密集视觉token,经k-means聚类生成紧凑的场景token,并利用交叉/自注意力优化后,由轻量MLP解码为具有自由3D位置的高斯簇。该设计使高斯分布与像素网格解耦,支持单模型在推理时动态调节质量-效率权衡。ZipSplat无需真实相机位姿或内参,在DL3DV和RealEstate10K上以约1/6的高斯数量超越此前最优无姿态方法2.1dB和1.2dB PSNR,并在Mip-NeRF360与ScanNet++上实现零样本泛化性能领先。 PDF · arXiv · 代码 · 项目 | ❤️ 10...

六月 5, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-04

AI 每日资讯 — 2026-06-04 🔥 HuggingFace 每日论文 1. Audio Interaction Model Zhifei Xie, Zihang Liu, Ze An 本文提出音频交互模型(Audio Interaction Model),旨在解决现有大音频语言模型(LALMs)离线化、任务割裂的问题,构建首个支持实时感知—决策—响应闭环的在线统一音频模型Audio-Interaction。为此,作者设计SoundFlow框架,涵盖流式数据构建、理解感知型训练与异步低延迟推理,实现端到端流式交互;构建大规模流式音频语料StreamAudio-2M(260万样本,覆盖7类能力、28个子任务)及Proactive-Sound-Bench评测基准。实验表明,该模型在8项主流音频任务上保持竞争力,同时首次实现真实场景下的实时ASR、流式音频指令跟随与主动式音频干预等新能力。 PDF · arXiv · 项目 | ❤️ 65 2. Streaming Communication in Multi-Agent Reasoning Zhen Yang, Xiaogang Xu, Wen Wang 本文针对多智能体推理系统中“生成-再传输”范式导致端到端延迟随流水线深度线性增长的问题,提出StreamMA——一种支持逐推理步流式通信的新型多智能体架构。该方法通过即时向下游智能体传递每一步推理结果,实现相邻智能体间的重叠执行,在降低延迟的同时意外提升了推理有效性:因多步推理质量呈前高后低的非均匀分布,早期步骤更可靠,流式利用这些高质量中间结果可避免后期错误步骤对下游的误导。作者首次给出流式、串行与单步协议的联合闭式分析,严格推导出有效性排序、加速上限与成本比。在8个涵盖数学、科学与代码的基准任务、2种前沿大模型(Claude Opus 4.6与GPT-5.4)及3种拓扑结构上,StreamMA平均提升7.3个百分点,最高达22.4个百分点(HMMT 2026, Claude Opus 4.6-high)。此外,发现“步级缩放律”:增加单智能体推理步数可同步提升效果与效率,构成与智能体数量缩放正交且可组合的新缩放维度。 PDF · arXiv · 代码 · 项目 | ❤️ 20 3. GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors Tianyi Xie, Haotian Zhang, Jinhyung Park...

六月 4, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-02

AI 每日资讯 — 2026-06-02 🔥 HuggingFace 每日论文 1. VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization Junhao Cheng, Liang Hou, Tianxiong Zhong 本文针对视频推理中视频生成模型(VGMs)难以遵循任务特定规则、导致逻辑失败的问题,提出一种以视觉语言模型(VLMs)为“教师”的新范式。该方法利用VLM强大的感知能力,在测试时动态提取任务规则并构建可微奖励函数,指导VGM通过轻量级LoRA模块进行在线优化,实现自适应的测试时优化。在VBVR-Bench与RULER-Bench两大视频推理基准上的实验表明,该方法平均性能提升16.7分,显著优于VLM作为求解器(+0.4分)和Best-of-N采样(+2.2分)等基线方法。 PDF · arXiv · 项目 | ❤️ 22 2. LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation Qixin Hu, Shuai Yang, Wei Huang 本文针对自回归(AR)视频扩散模型在长时序生成中因滑动窗口注意力导致的误差累积与身份漂移问题,提出LongLive-RAG——一种通用的检索增强型长视频生成框架。该框架将历史生成潜变量建模为动态可检索记忆库,每步通过查询嵌入检索相关历史片段,使生成器能利用非局部时序上下文而非仅依赖近期窗口。为提升检索判别力,引入窗口时序差分损失,抑制局部冗余相似性,增强嵌入对关键运动变化的表征能力。实验表明,LongLive-RAG在多个AR主干网络和不同生成长度下均显著提升长视频质量,在VBench-Long基准上取得最优平均排名。 PDF · arXiv · 代码 · 项目 | ❤️ 11 3. Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events Xiaolin Liu, Yilun Zhu, Xiangyu Zhao...

六月 2, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-01

AI 每日资讯 — 2026-06-01 🔥 HuggingFace 每日论文 1. Representation Forcing for Bottleneck-Free Unified Multimodal Models Yuqing Wang, Zhijie Lin, Ceyuan Yang 本文针对统一多模态模型(UMMs)中依赖冻结VAE导致的结构瓶颈问题,提出表示强制(Representation Forcing, RF)方法。RF使解码器在像素生成前自回归地预测视觉表示作为中间token,并将其保留在上下文中指导同一骨干网络内的像素扩散过程,从而将表征从感知输出转化为生成目标,彻底摆脱对外部生成潜空间的依赖。实验表明:在图像生成任务上,基于像素空间的RF模型达到与先进VAE-based UMMs相当的性能;在图像理解任务上,RF变体普遍优于VAE-based基线。该方法为端到端、无瓶颈的统一多模态建模提供了有效路径。 PDF · arXiv · 项目 | ❤️ 39 2. LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards Nianyi Lin, Jiajie Zhang, Lei Hou 长上下文推理仍是大语言模型的核心挑战,现有强化学习方法受限于低混淆性干扰项与稀疏的结果导向奖励。本文提出LongTraceRL:通过知识图谱随机游走生成多跳问题,并利用搜索智能体轨迹构建分层干扰文档(含高混淆性未引用文档与低混淆性未打开文档),显著提升上下文难度;设计基于黄金实体链的细粒度评分奖励,在仅对正确答案响应施加奖励的前提下监督中间推理过程,避免奖励作弊。在五个长上下文基准上对4B–30B规模的三类推理模型的实验表明,LongTraceRL持续优于强基线,显著提升证据支撑的全面推理能力。 PDF · arXiv · 代码 | ❤️ 31 3. Linear Scaling Video VLMs for Long Video Understanding Cristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles...

六月 1, 2026 · 5 分钟 · Pan