AI 每日资讯 — 2026-05-10T22:57:13+08:00
AI 每日资讯 — 2026-05-10 🔥 HuggingFace 每日论文 1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction Xiangyuan Xue, Yifan Zhou, Zidong Wang 本文针对大语言模型(LLM)作为交互式智能体在长程决策中探索不足与信用分配困难的问题,提出战略轨迹抽象(StraTA)框架。StraTA通过在任务起始阶段显式采样紧凑的轨迹级策略,并以此条件化后续动作生成,实现策略生成与动作执行的联合优化;其采用分层GRPO风格的 rollout机制,并融合多样化策略采样与关键性自评判技术。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA显著提升样本效率与最终性能:在ALFWorld和WebShop上分别达到93.1%和84.2%的成功率,在SciWorld上取得63.5%的整体得分,超越前沿闭源模型。 PDF · arXiv · 代码 | ❤️ 17 2. Relit-LiVE: Relight Video by Jointly Learning Environment Video Weiqing Xiao, Hong Li, Xiuyu Yang Relit-LiVE提出了一种无需相机位姿先验的视频重光照新框架,旨在解决现有基于内在分解的神经渲染方法在真实视频中因分解不准确导致的外观失真、材质断裂和时序伪影问题。其核心创新在于:(1)在渲染过程中显式引入原始参考图像,以恢复内在表示中丢失的关键场景线索;(2)设计联合环境视频预测机制,在单次扩散过程中同步生成重光照视频与逐帧视角对齐的环境光照图,从而强化几何-光照一致性,并天然支持动态光照与相机运动。实验表明,Relit-LiVE在物理一致性、时序稳定性及泛化能力上显著优于现有视频重光照与神经渲染方法。 PDF · arXiv | ❤️ 14 3. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key Tianle Wang, Zhaoyang Wang, Guangchen Lan...