tech | Pan'Log

AI 每日资讯 — 2026-06-16

AI 每日资讯 — 2026-06-16 🔥 HuggingFace 每日论文 1. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang 本文针对现有音视频问答（AVQA）方法中音画模态解耦、跨片段指代不一致及缺乏长时序与深度跨模态推理能力等关键问题，提出一种新型自动化数据构建引擎。该引擎包含两大核心机制：（1）实体锚定视频脚本化，将视频转化为含全局实体列表、摘要及分段音视频联合描述的结构化脚本，保障跨片段一致性并重建音画关联；（2）线索引导式问答生成，先从脚本中挖掘跨片段、多模态高价值线索，再据此生成问答对。基于此，构建了指令微调数据集OmniVideo-100K及人工验证测试集OmniVideo-Test。在该数据集上微调VITA-1.5、Qwen2.5-Omni-7B与Qwen3-Omni-30B模型，在OmniVideo-Test上最高提升达20.59%。 PDF · arXiv · 代码 · 项目 | ❤️ 21 2. RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space Xichen Pan, Aashu Singh, Satya Narayan Shukla 本文提出RepFusion，一种在表征空间中利用多模态大语言模型（MLLM）先验进行去噪的新范式。针对现有文本到图像（T2I）系统中LLM仅用于文本编码、而视觉去噪依赖新训练生成主干的局限，RepFusion借助表征自编码器（RAE）构建语义结构化的视觉隐空间，并将预训练MLLM直接用作含噪视觉表征的编码器——通过扩展其MLP投影器以适配噪声输入，输出作为扩散Transformer的条件信号。实验表明，在相近推理开销下，RepFusion显著优于同等容量的新初始化去噪器基线，验证了MLLM在表征级去噪中的强先验能力，以及在测试时重复调用MLLM进行动态条件建模的有效性。 PDF · arXiv · 项目 | ❤️ 7 3. ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning Sicheng Yang, Hangjie Yuan, Wenjun Zhang...

AI 每日资讯 — 2026-06-15

AI 每日资讯 — 2026-06-15 🔥 HuggingFace 每日论文 1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments Jundong Xu, Qingchuan Li, Jiaying Wu 本文针对现有大语言模型（LLM）智能体在动态环境中适应能力不足的问题，提出EvoArena基准套件，首次系统建模终端、软件与社会偏好三类环境的渐进式演化过程；并设计EvoMem记忆范式，以补丁化方式结构化记录记忆演化历史，支持智能体基于记忆变化推理环境演进。实验表明，当前主流智能体在EvoArena上平均准确率仅39.6%，而EvoMem带来1.5%的整体性能提升，并在GAIA和LoCoMo等标准基准上分别提升6.1%与4.8%；其链式任务准确率亦提高3.7%。机制分析证实EvoMem显著增强环境状态证据的捕获与保持能力。 PDF · arXiv · 代码 · 项目 | ❤️ 123 2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning Seokju Cho, Ryo Hachiuma, Abhishek Badki Spatial reasoning—understanding object positions, relations, and motion in 3D/4D space—remains a core challenge for vision-language models (VLMs). Existing tool-augmented agents are constrained by rigid action interfaces: either single-pass code generation or inflexible structured tool calls....

AI 每日资讯 — 2026-06-14

AI 每日资讯 — 2026-06-14 🔥 HuggingFace 每日论文 1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments Jundong Xu, Qingchuan Li, Jiaying Wu 本文针对大语言模型（LLM）代理在动态环境中的适应性不足问题，提出EvoArena基准套件，首次系统建模终端、软件与社会偏好三类环境的渐进式演化；并设计基于补丁的EvoMem记忆范式，以结构化更新历史显式追踪记忆演化过程。实验表明，现有代理在EvoArena上平均准确率仅39.6%，而EvoMem带来1.5%的整体提升，并在GAIA和LoCoMo等标准基准上分别提升6.1%与4.8%；其链级任务准确率亦提高3.7%。机制分析证实EvoMem显著增强环境状态演化的证据捕获能力，凸显建模记忆与环境协同演化对构建鲁棒代理的关键作用。 PDF · arXiv · 代码 · 项目 | ❤️ 116 2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning Seokju Cho, Ryo Hachiuma, Abhishek Badki 本文针对视觉-语言模型（VLM）在开放性三维/四维空间推理中能力受限的问题，指出现有工具增强型智能体的动作接口设计——无论是单次代码执行还是结构化工具调用——均难以支持灵活、渐进式、观测驱动的空间分析。为此，作者提出无需训练的SpatialClaw框架，以可执行Python代码为统一动作接口：其维护一个带状态的Python内核，预加载输入帧及感知与几何原语库，允许VLM驱动的智能体每步生成一个依赖历史输出（含文本与视觉反馈）的代码单元，实现对中间结果的动态组合、修正与任务自适应推理。在涵盖静态与动态场景的20个空间推理基准上，SpatialClaw显著优于现有方法。 PDF · arXiv · 代码 · 项目 | ❤️ 80 3. InterleaveThinker: Reinforcing Agentic Interleaved Generation Dian Zheng, Harry Lee, Manyuan Zhang...

AI 每日资讯 — 2026-06-13

AI 每日资讯 — 2026-06-13 🔥 HuggingFace 每日论文 1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments Jundong Xu, Qingchuan Li, Jiaying Wu 本文针对大语言模型（LLM）代理在动态真实环境中适应能力不足的问题，提出EvoArena基准套件，首次系统建模终端、软件与社会偏好三大领域的渐进式环境演化。为支撑动态推理，作者设计EvoMem——一种基于补丁的记忆范式，将记忆演化显式编码为结构化更新历史。实验表明，现有代理在EvoArena上平均准确率仅为39.6%，而EvoMem带来1.5%的平均性能提升，并在GAIA和LoCoMo等静态基准上分别提升6.1%与4.8%；在需连续完成演化子任务的链级评估中，其准确率提升达3.7%。机制分析证实EvoMem显著增强环境状态演化的证据捕获能力。 PDF · arXiv · 代码 · 项目 | ❤️ 97 2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning Seokju Cho, Ryo Hachiuma, Abhishek Badki 本文针对视觉-语言模型在开放性三维/四维空间推理中的局限性，提出无需训练的框架SpatialClaw。现有工具增强型智能体受限于僵化的动作接口——或依赖单次代码执行，缺乏中间反馈；或采用结构化工具调用，灵活性不足。SpatialClaw以可执行Python代码为动作接口，通过状态保持的内核预加载输入帧及感知与几何原语，支持VLM驱动的智能体按步生成可执行代码单元，动态融合文本与视觉反馈，灵活组合操作并自适应调整推理路径。在20个涵盖静态与动态场景的空间推理基准上，SpatialClaw显著优于现有方法。 PDF · arXiv · 代码 · 项目 | ❤️ 77 3. InterleaveThinker: Reinforcing Agentic Interleaved Generation Dian Zheng, Harry Lee, Manyuan Zhang...

AI 每日资讯 — 2026-06-12

AI 每日资讯 — 2026-06-12 🔥 HuggingFace 每日论文 1. Redesign Mixture-of-Experts Routers with Manifold Power Iteration Songhao Wu, Ang Lv, Ruobing Xie 本文针对混合专家（MoE）模型中路由器设计缺乏理论指导的问题，提出一种基于流形幂迭代（Manifold Power Iteration, MPI）的路由器重设计方法。核心思想是将每个路由器行向量对齐至其对应专家权重矩阵的主奇异方向，以更准确地建模token-专家亲和度。MPI采用“幂迭代—回缩”范式，在提升表达能力的同时通过流形约束保障训练稳定性与推理效率。理论分析证明该方法可使路由器行收敛于专家矩阵的主奇异向量；实验在1B至11B参数规模的MoE模型上验证了其有效性，显著提升了模型性能与稀疏激活质量。 PDF · arXiv · 代码 | ❤️ 74 2. World Pilot: Steering Vision-Language-Action Models with World-Action Priors Zefu Lin, Rongxu Cui, Junjia Xu 本文针对现有视觉-语言-动作（VLA）模型因依赖静态图像-文本预训练而难以建模连续、接触密集的物理操作动态这一根本局限，提出World Pilot框架。该框架通过引入世界-动作模型（WAM）提供的场景演化潜变量（Latent Steering）与动作轨迹先验（Action Steering）两条互补路径，将动力学先验注入VLA决策链，在保持语义理解能力的同时赋予其对场景演变趋势和运动轨迹的前瞻性感知。实验表明，World Pilot在LIBERO-Plus零样本OOD基准上取得84.7%的SOTA总成功率，并在四种真实机器人操作任务中全面领先，尤其在视角、几何、形变状态及位姿等分布外偏移下优势显著。 PDF · arXiv · 代码 · 项目 | ❤️ 22 3. On Subquadratic Architectures: From Applications to Principles Anamaria-Roberta Hartl, Levente Zólyomi, David Stap...