tech | Pan'Log

AI 每日资讯 — 2026-05-30

AI 每日资讯 — 2026-05-29

AI 每日资讯 — 2026-05-29 🔥 HuggingFace 每日论文 1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players Fangfu Liu, Kai He, Tianchang Shen 本文针对交互式视频生成中多智能体世界建模的挑战，提出Gamma-World——首个支持任意数量、可独立控制且排列对称的生成式多智能体世界模型。其核心包括：（1）Simplex Rotary Agent Encoding，一种无参数的3D RoPE扩展，将智能体映射为旋转角空间中正则单形的顶点，实现身份唯一性与排列等价性；（2）Sparse Hub Attention，通过可学习中心token稀疏化跨智能体注意力，将计算复杂度从O(N²)降至O(N)；（3）基于知识蒸馏的因果扩散学生模型，结合KV缓存实现24 FPS实时响应式生成。在多玩家虚拟环境中实验表明，该方法显著提升时序一致性、跨视角一致性和交互真实性。 PDF · arXiv · 项目 | ❤️ 154 2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning Minki Kang, Shizhe Diao, Ryo Hachiuma 本文针对多模态智能体推理中“思考—行动鸿沟”（Thinking-Acting Gap）问题，提出Agent eXplorative Policy Optimization（AXPO）方法。该鸿沟表现为工具调用稀疏（仅约30%的轨迹尝试工具）且高错误率（工具调用轨迹中约40%全错），严重削弱强化学习信号。AXPO通过固定错误轨迹中的思考前缀、基于不确定性选择高潜力前缀，并对工具调用及其后续进行重采样，显著提升工具使用质量。在九个多模态基准上，SFT+AXPO在8B参数规模下平均Pass@1和Pass@4分别提升1.8个百分点，且Pass@4性能超越32B基线模型，实现4倍参数效率提升。 PDF · arXiv · 项目 | ❤️ 67 3. From Pixels to Words – Towards Native One-Vision Models at Scale Haiwen Diao, Jiahao Wang, Penghao Wu...

AI 每日资讯 — 2026-05-28

AI 每日资讯 — 2026-05-28 🔥 HuggingFace 每日论文 1. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding Shihao Wang, Shilong Liu, Yuanguo Kuang 本文提出LocateAnything，一种基于并行框解码（PBD）的统一视觉-语言定位与检测框架，旨在解决现有视觉语言模型将边界框序列化为独立1D坐标令牌所导致的几何结构失配与推理效率瓶颈问题。LocateAnything将边界框、关键点等几何元素作为原子单元进行单步并行解码，显著提升解码吞吐量与定位精度。为此，作者构建了大规模数据引擎LocateAnything-Data，包含超1.38亿高质量样本，极大增强数据多样性。实验表明，该方法在多个基准上同步实现更高解码速度与高IoU定位性能，推动了视觉定位任务的速度-精度前沿。 PDF · arXiv · 项目 | ❤️ 90 2. SpatialBench: Is Your Spatial Foundation Model an All-Round Player? Haosong Peng, Hao Li, Jiaqi Chen 本文针对空间基础模型（Spatial Foundation Models）泛化能力评估不足的问题，提出首个跨范式、多领域、确定性采样的综合基准SpatialBench。该基准涵盖5大空间领域、19个数据集、546个场景，支持在4种输入密度下对41个模型、6类建模范式和5大任务套件进行系统评测。实验表明，现有模型尚不具备真正的“全能型”泛化能力；研究发现全上下文注意力机制可最大化精度，而受限内存策略则更利于长序列扩展；在具身智能与自我中心任务等挑战性场景中，模型性能显著下降，揭示了关键改进方向。 PDF · arXiv · 代码 · 项目 | ❤️ 53 3. Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders Yi Jing, Zao Dai, Jinwu Hu...

AI 每日资讯 — 2026-05-27

AI 每日资讯 — 2026-05-26

AI 每日资讯 — 2026-05-26 🔥 HuggingFace 每日论文 1. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang 本文提出SkillOpt，一种面向智能体技能的可控文本空间优化框架，旨在解决当前Agent技能依赖人工设计、单次生成或无约束自修正所导致的不可靠性与不可复现性问题。SkillOpt将技能视为冻结Agent的外部状态，通过专用优化器模型对技能文档执行有界增/删/改编辑，并仅在验证分数严格提升时接受更新；引入文本学习率预算、拒绝编辑缓存及慢速元更新机制保障训练稳定性，且零开销部署。在6个基准、7种大模型与3种执行框架（直接对话、Codex、Claude Code）共52项评测中，SkillOpt全面优于人类编写、单次LLM生成及Trace2Skill、TextGrad、GEPA、EvoSkill等基线方法；在GPT-5.5上分别提升准确率23.5、24.8与19.1个百分点。跨模型尺度与执行框架的迁移实验进一步验证其泛化能力。 PDF · arXiv · 代码 · 项目 | ❤️ 147 2. From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills Zisu Huang, Jingwen Xu, Yifan Yang 本文系统探究了语言智能体中模型生成技能的全生命周期——从原始经验生成、技能提取到技能消费。针对当前缺乏对技能实效性、适用条件及成败机制的全面实证研究这一空白，作者构建了一个效用驱动的评估框架，在五个多样化任务领域中对多种提取器与目标智能体进行交叉评测。结果表明：模型生成技能虽平均有益，但存在显著负向迁移；技能效用不依赖模型规模或基线性能，且提取能力与消费能力高度解耦。进一步分析揭示了经验构成、技能结构性质及跨智能体迁移机制等关键影响因素，并据此提出可指导技能提取的元技能范式。 PDF · arXiv · 项目 | ❤️ 22 3. PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion Yifan Lu, Qi Wu, Jay Zhangjie Wu...