AI 每日资讯 — 2026-05-10T22:57:13+08:00

AI 每日资讯 — 2026-05-10 🔥 HuggingFace 每日论文 1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction Xiangyuan Xue, Yifan Zhou, Zidong Wang 本文针对大语言模型(LLM)作为交互式智能体在长程决策中探索不足与信用分配困难的问题,提出战略轨迹抽象(StraTA)框架。StraTA通过在任务起始阶段显式采样紧凑的轨迹级策略,并以此条件化后续动作生成,实现策略生成与动作执行的联合优化;其采用分层GRPO风格的 rollout机制,并融合多样化策略采样与关键性自评判技术。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA显著提升样本效率与最终性能:在ALFWorld和WebShop上分别达到93.1%和84.2%的成功率,在SciWorld上取得63.5%的整体得分,超越前沿闭源模型。 PDF · arXiv · 代码 | ❤️ 17 2. Relit-LiVE: Relight Video by Jointly Learning Environment Video Weiqing Xiao, Hong Li, Xiuyu Yang Relit-LiVE提出了一种无需相机位姿先验的视频重光照新框架,旨在解决现有基于内在分解的神经渲染方法在真实视频中因分解不准确导致的外观失真、材质断裂和时序伪影问题。其核心创新在于:(1)在渲染过程中显式引入原始参考图像,以恢复内在表示中丢失的关键场景线索;(2)设计联合环境视频预测机制,在单次扩散过程中同步生成重光照视频与逐帧视角对齐的环境光照图,从而强化几何-光照一致性,并天然支持动态光照与相机运动。实验表明,Relit-LiVE在物理一致性、时序稳定性及泛化能力上显著优于现有视频重光照与神经渲染方法。 PDF · arXiv | ❤️ 14 3. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key Tianle Wang, Zhaoyang Wang, Guangchen Lan...

五月 10, 2026 · 4 分钟 · Pan

AI 每日资讯 — 2026-05-09T22:29:34+08:00

五月 9, 2026 · 0 分钟 · Pan

AI 每日资讯 — 2026-05-08T23:07:36+08:00

AI 每日资讯 — 2026-05-08 🔥 HuggingFace 每日论文 1. Relit-LiVE: Relight Video by Jointly Learning Environment Video Weiqing Xiao, Hong Li, Xiuyu Yang Relit-LiVE提出了一种无需相机位姿先验的视频重光照新范式,旨在解决现有基于内在分解的神经渲染方法在真实视频中因分解不准确而导致的外观失真、材质断裂与时间伪影等问题。该方法创新性地将原始参考图像直接引入渲染流程,以恢复内在表示中丢失的关键场景线索;并设计了环境视频联合预测机制,在单次扩散过程中同步生成重光照视频与逐帧对齐的环境光照图,从而强化几何-光照一致性,天然支持动态光照与相机运动。实验表明,Relit-LiVE在物理合理性、时间稳定性及泛化能力上显著优于现有视频重光照与神经渲染方法。 PDF · arXiv | ❤️ 14 2. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts Minbin Huang, Han Shi, Chuanyang Zheng 本文针对传统MoE架构中每层独占专家集导致参数线性增长与容量冗余的问题,提出UniPool——一种全局共享专家池的MoE新范式。其核心在于摒弃分层专家所有权,代之以单个可被各层独立路由访问的共享专家池,并引入池级辅助损失函数与NormRouter机制,保障共享下的负载均衡与路由稳定性。在基于LLaMA架构、参数量覆盖182M至978M的五组模型上,UniPool在30B token数据上训练后,持续降低验证损失(最高相对下降0.0386)与困惑度;同时揭示专家池规模可作为显式的深度缩放超参,仅用41.6%–66.7%的专家即可保持竞争力。 PDF · arXiv · 代码 | ❤️ 6 3. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI Daniel Zheng, Ingrid von Glehn, Yori Zwols 本文提出“AI协同数学家”(AI Co-Mathematician),一种面向数学研究者的具身化智能工作台,旨在通过可交互、状态保持的AI代理系统,全面支持数学探索性工作流——涵盖问题构想、文献检索、计算实验、定理证明与理论构建。该系统异步管理不确定性、动态细化用户意图、追踪失败假设,并原生生成数学对象(如定义、引理、代码)。在实证评估中,其不仅助力研究人员解决开放数学问题、发现新研究方向及挖掘被忽视的文献,还在前沿数学推理基准FrontierMath Tier 4上取得48%的当前最优成绩,显著超越既有AI系统。 PDF · arXiv | ❤️ 3...

五月 8, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-05-07

AI 每日资讯 — 2026-05-07 🔥 HuggingFace 每日论文 1. OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents Shuang Chen, Kaituo Feng, Hangting Chen 本文针对前沿多模态深度搜索智能体难以复现的问题,提出完全开源的OpenSearch-VL训练范式。该方案包含三方面创新:一是构建高质量训练数据的端到端流水线(基于维基路径采样、模糊实体重写与源锚点视觉对齐),生成SearchVL-SFT-36k和SearchVL-RL-8k两个数据集;二是设计支持文本/图像搜索、OCR、图像增强等多元工具的统一感知-检索环境;三是提出多轮“致命感知”GRPO算法,通过后失败token掩码与单侧优势裁剪缓解级联工具失效问题。实验表明,OpenSearch-VL在多模态搜索任务上平均提升超10个点。 PDF · arXiv · 代码 · 项目 | ❤️ 77 2. PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World Yunhan Yang, Chunshi Wang, Junliang Ye 本文针对交互式虚拟世界与具身智能中物理可交互3D资产生成的瓶颈问题,提出PhysForge框架。该方法突破传统静态几何建模局限,以功能逻辑与分层物理原理为根基,构建包含15万资产、四层级物理标注的大规模PhysDB数据集。框架采用解耦双阶段设计:第一阶段由视觉语言模型作为“物理建筑师”,生成涵盖材质、功能与运动学约束的分层物理蓝图;第二阶段通过物理驱动的扩散模型,结合创新的KineVoxel Injection(KVI)机制,同步合成高保真几何与精确运动学参数。实验表明,PhysForge生成的资产具备功能合理性与仿真就绪性,显著提升交互式3D内容与具身智能体的数据供给能力。 PDF · arXiv · 代码 · 项目 | ❤️ 30 3. D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models Dengyang Jiang, Xin Jin, Dongyang Liu...

五月 7, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-05-06

AI 每日资讯 — 2026-05-06 🔥 HuggingFace 每日论文 1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories Yuwen Du, Rui Ye, Shuo Tang 本文提出OpenSeeker-v2,一种仅通过监督微调(SFT)即可实现前沿搜索能力的开源搜索智能体。针对当前搜索代理依赖庞大工业级预训练+持续预训练+强化学习流水线的问题,作者设计三项轻量数据合成策略:扩大知识图谱规模以增强探索广度、扩展工具集以提升功能覆盖、严格低步长过滤以提升轨迹质量。仅用10.6k高质量、高难度、信息丰富的搜索轨迹训练,30B参数规模的OpenSeeker-v2在BrowseComp(46.0%)、BrowseComp-ZH(58.1%)、Humanity's Last Exam(34.6%)和xbench(78.0%)上全面超越采用CPT+SFT+RL复杂流程的商用模型Tongyi DeepResearch,成为首个由纯学术团队基于SFT达成SOTA的同规模ReAct范式搜索代理。 PDF · arXiv · 代码 | ❤️ 35 2. SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment Joseph Breda, Fadi Yousif, Beszel Hawkins 本文提出SymptomAI——一种面向日常症状评估的对话式AI代理系统,旨在解决现有大语言模型在真实患者场景中症状识别与鉴别诊断(DDx)性能不明的问题。研究通过Fitbit应用部署五个AI代理,对13,917名参与者开展端到端症状访谈与DDx,构建了覆盖真实疾病分布与多样化表达的大规模对话语料。基于1,228例临床确诊样本及517例由专家小组耗时250+小时标注的黄金标准数据,SymptomAI的DDx准确率显著优于独立临床医生(OR=2.47, *p*<0.001);采用主动症状采集策略的智能体表现亦远超用户主导式基线(*p*<0.001)。结果在普通美国人群样本(*n*=1,509)中得到外部验证,证实其泛化能力。 PDF · arXiv | ❤️ 3 3. A Benchmark for Interactive World Models with a Unified Action Generation Framework Jianjie Fang, Yingshan Lei, Qin Wan...

五月 6, 2026 · 6 分钟 · Pan