tech
AI 每日资讯 — 2026-05-29
AI 每日资讯 — 2026-05-29 🔥 HuggingFace 每日论文 1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players Fangfu Liu, Kai He, Tianchang Shen 本文针对交互式视频生成中多智能体世界建模的挑战,提出Gamma-World——首个支持任意数量、可独立控制且排列对称的生成式多智能体世界模型。其核心包括:(1)Simplex Rotary Agent Encoding,一种无参数的3D RoPE扩展,将智能体映射为旋转角空间中正则单形的顶点,实现身份唯一性与排列等价性;(2)Sparse Hub Attention,通过可学习中心token稀疏化跨智能体注意力,将计算复杂度从O(N²)降至O(N);(3)基于知识蒸馏的因果扩散学生模型,结合KV缓存实现24 FPS实时响应式生成。在多玩家虚拟环境中实验表明,该方法显著提升时序一致性、跨视角一致性和交互真实性。 PDF · arXiv · 项目 | ❤️ 154 2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning Minki Kang, Shizhe Diao, Ryo Hachiuma 本文针对多模态智能体推理中“思考—行动鸿沟”(Thinking-Acting Gap)问题,提出Agent eXplorative Policy Optimization(AXPO)方法。该鸿沟表现为工具调用稀疏(仅约30%的轨迹尝试工具)且高错误率(工具调用轨迹中约40%全错),严重削弱强化学习信号。AXPO通过固定错误轨迹中的思考前缀、基于不确定性选择高潜力前缀,并对工具调用及其后续进行重采样,显著提升工具使用质量。在九个多模态基准上,SFT+AXPO在8B参数规模下平均Pass@1和Pass@4分别提升1.8个百分点,且Pass@4性能超越32B基线模型,实现4倍参数效率提升。 PDF · arXiv · 项目 | ❤️ 67 3. From Pixels to Words – Towards Native One-Vision Models at Scale Haiwen Diao, Jiahao Wang, Penghao Wu...
AI 每日资讯 — 2026-05-28
AI 每日资讯 — 2026-05-28 🔥 HuggingFace 每日论文 1. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding Shihao Wang, Shilong Liu, Yuanguo Kuang 本文提出LocateAnything,一种基于并行框解码(PBD)的统一视觉-语言定位与检测框架,旨在解决现有视觉语言模型将边界框序列化为独立1D坐标令牌所导致的几何结构失配与推理效率瓶颈问题。LocateAnything将边界框、关键点等几何元素作为原子单元进行单步并行解码,显著提升解码吞吐量与定位精度。为此,作者构建了大规模数据引擎LocateAnything-Data,包含超1.38亿高质量样本,极大增强数据多样性。实验表明,该方法在多个基准上同步实现更高解码速度与高IoU定位性能,推动了视觉定位任务的速度-精度前沿。 PDF · arXiv · 项目 | ❤️ 90 2. SpatialBench: Is Your Spatial Foundation Model an All-Round Player? Haosong Peng, Hao Li, Jiaqi Chen 本文针对空间基础模型(Spatial Foundation Models)泛化能力评估不足的问题,提出首个跨范式、多领域、确定性采样的综合基准SpatialBench。该基准涵盖5大空间领域、19个数据集、546个场景,支持在4种输入密度下对41个模型、6类建模范式和5大任务套件进行系统评测。实验表明,现有模型尚不具备真正的“全能型”泛化能力;研究发现全上下文注意力机制可最大化精度,而受限内存策略则更利于长序列扩展;在具身智能与自我中心任务等挑战性场景中,模型性能显著下降,揭示了关键改进方向。 PDF · arXiv · 代码 · 项目 | ❤️ 53 3. Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders Yi Jing, Zao Dai, Jinwu Hu...
AI 每日资讯 — 2026-05-27
AI 每日资讯 — 2026-05-26
AI 每日资讯 — 2026-05-26 🔥 HuggingFace 每日论文 1. SkillOpt: Executive Strategy for Self-Evolving Agent Skills Yifan Yang, Ziyang Gong, Weiquan Huang 本文提出SkillOpt,一种面向智能体技能的可控文本空间优化框架,旨在解决当前Agent技能依赖人工设计、单次生成或无约束自修正所导致的不可靠性与不可复现性问题。SkillOpt将技能视为冻结Agent的外部状态,通过专用优化器模型对技能文档执行有界增/删/改编辑,并仅在验证分数严格提升时接受更新;引入文本学习率预算、拒绝编辑缓存及慢速元更新机制保障训练稳定性,且零开销部署。在6个基准、7种大模型与3种执行框架(直接对话、Codex、Claude Code)共52项评测中,SkillOpt全面优于人类编写、单次LLM生成及Trace2Skill、TextGrad、GEPA、EvoSkill等基线方法;在GPT-5.5上分别提升准确率23.5、24.8与19.1个百分点。跨模型尺度与执行框架的迁移实验进一步验证其泛化能力。 PDF · arXiv · 代码 · 项目 | ❤️ 147 2. From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills Zisu Huang, Jingwen Xu, Yifan Yang 本文系统探究了语言智能体中模型生成技能的全生命周期——从原始经验生成、技能提取到技能消费。针对当前缺乏对技能实效性、适用条件及成败机制的全面实证研究这一空白,作者构建了一个效用驱动的评估框架,在五个多样化任务领域中对多种提取器与目标智能体进行交叉评测。结果表明:模型生成技能虽平均有益,但存在显著负向迁移;技能效用不依赖模型规模或基线性能,且提取能力与消费能力高度解耦。进一步分析揭示了经验构成、技能结构性质及跨智能体迁移机制等关键影响因素,并据此提出可指导技能提取的元技能范式。 PDF · arXiv · 项目 | ❤️ 22 3. PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion Yifan Lu, Qi Wu, Jay Zhangjie Wu...