AI 每日资讯 — 2026-06-21

AI 每日资讯 — 2026-06-21 🔥 HuggingFace 每日论文 1. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages Maria Ivanova, Pavel Zadorozhny, Rodion Levichev 本文提出Multi-LCB,一个面向12种编程语言的扩展型代码生成基准,旨在突破原LiveCodeBench(LCB)仅支持Python的局限。Multi-LCB通过语义等价转换将LCB中的Python题目映射至其他语言,严格继承其污染控制机制与评估协议,并保持格式兼容性以自动同步未来LCB更新。在24个主流大语言模型上的实验表明,模型普遍存在Python过拟合、语言特异性污染及跨语言性能显著不均衡等问题。结果验证了Multi-LCB作为多语言代码能力评估新基准的严谨性与必要性,揭示了当前LLM在真实软件工程场景中泛化能力的关键短板。 PDF · arXiv · 代码 · 项目 | ❤️ 36 2. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang 本文提出JanusMesh,一种无需训练、快速生成文本驱动3D视觉幻象(即单个网格从不同视角呈现截然不同语义)的零样本方法。针对现有优化方法速度慢、色彩过饱和及拼接法几何不连贯等问题,该框架采用两阶段策略:首先通过跨空间双分支去噪机制,在体素空间中联合实现CLIP引导的姿态对齐与符号距离场(SDF)融合,保障几何无缝性;其次引入视角条件化纹理合成模块,将2D扩散先验投影并聚合至融合几何表面。实验表明,本方法仅需3–5分钟即可生成高保真、双语义一致的3D幻象,在几何完整性、语义可识别性与生成效率上均显著优于现有方法。 PDF · arXiv · 代码 · 项目 | ❤️ 18 3. Current World Models Lack a Persistent State Core Jinpeng Lu, Dexu Zhu, Haoyuan Shi...

六月 21, 2026 · 3 分钟 · Pan

AI 每日资讯 — 2026-06-20

AI 每日资讯 — 2026-06-20 🔥 HuggingFace 每日论文 1. S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence Yalun Dai, Hao Li, Shulin Tian 本文针对现实世界空间智能需在连续演化的3D环境中进行推理的挑战,提出S-Agent——一种基于空间工具使用的新型智能体范式。S-Agent将空间推理建模为时空证据累积过程,通过语义规划器(VLM)动态调度多层级空间工具(2D定位、3D几何重建、证据聚合),实现从帧中心识别到场景中心理解的范式跃迁;并引入场景记忆与智能体记忆双机制,支持跨帧与跨步推理。实验表明,S-Agent在多视角与视频空间推理基准上显著提升开源及闭源VLM性能,且无需训练;进一步基于其生成的30万条空间轨迹微调得到的轻量级模型S-Agent-8B,在多项任务中达到先进水平。 PDF · arXiv · 代码 · 项目 | ❤️ 25 2. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages Maria Ivanova, Pavel Zadorozhny, Rodion Levichev 本文提出Multi-LCB,一个面向12种编程语言的扩展型代码生成基准,旨在突破原LiveCodeBench(LCB)仅支持Python的局限。Multi-LCB通过语义等价转换将LCB中的Python题目系统性地迁移至其他语言,严格保留其基于发布时间的污染控制机制与评估协议,并完全兼容原始LCB格式,可自动同步未来更新。在24个主流大语言模型上的实验表明,模型普遍存在Python过拟合、语言特异性污染及跨语言性能显著不均衡等问题。结果验证了Multi-LCB作为多语言代码能力评估新基准的严谨性与必要性。 PDF · arXiv · 代码 · 项目 | ❤️ 20 3. FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining Jinghong Lan, Wei Cheng, Yunuo Chen...

六月 20, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-19

AI 每日资讯 — 2026-06-19 🔥 HuggingFace 每日论文 1. Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games Shengyuan Ding, Xilin Wei, Xinyu Fang 本文针对多模态大语言模型(MLLMs)在非马尔可夫博弈中持续重建与利用历史观测能力不足的问题,提出RNG-Bench基准——首个专门评估模型在交互过程中动态重构不可见历史观测并据此决策的评测框架。该基准包含Matching Pairs与3D Maze两类互补游戏,通过网格规模、视觉模式和模态组合三轴可控调节难度,并引入头对头对抗协议与Memory Gap指标,解耦遗忘误差与动作选择误差。实验表明,当前前沿MLLMs在最难题型(单轮约128K token、350张图像)下性能远未饱和,且主要瓶颈在于历史信息遗忘而非策略缺陷;基于最优策略轨迹与筛选后模型演示的微调显著提升RNG-Bench表现,并具备跨任务迁移能力。 PDF · arXiv · 代码 · 项目 | ❤️ 36 2. Native Active Perception as Reasoning for Omni-Modal Understanding Zhenghao Xing, Ruiyang Xu, Yuxuan Wang 本文针对长视频理解中被动模型计算成本随视频长度线性增长的问题,提出OmniAgent——首个基于POMDP建模的原生全模态主动感知智能体。其通过“观测-思考-行动”迭代循环,按需选择性提取音视频线索并沉淀为持久化文本记忆,实现推理复杂度与原始视频时长的解耦。方法上,提出两阶段训练范式:(1)基于最优-N轨迹合成与双阶段质量控制的智能体监督微调;(2)引入TAURA机制的智能体强化学习,利用回合级熵自适应重标定优势函数以精准归因关键发现回合。实验表明,OmniAgent在VideoMME、LVBench等10个基准上达到开源模型SOTA,其中7B版本在LVBench上以50.5%准确率超越Qwen2.5-VL-72B(47.3%),且呈现正向测试时扩展性。 PDF · arXiv · 代码 | ❤️ 10 3. STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability Haipeng Luo, Qingfeng Sun, Songli Wu...

六月 19, 2026 · 5 分钟 · Pan

AI 每日资讯 — 2026-06-18

AI 每日资讯 — 2026-06-18 🔥 HuggingFace 每日论文 1. Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients Byung-Kwan Lee, Ximing Lu, Shizhe Diao 本文提出Zone of Proximal Policy Optimization(ZPPO),旨在解决小规模学生模型在知识蒸馏与强化学习中泛化性差的问题。ZPPO受维果茨基“最近发展区”理论启发,将教师信号嵌入提示而非梯度:针对困难问题,构造两类提示——二元候选问题(BCQ)引导学生判别师生响应,负向候选问题(NCQ)聚合其错误轨迹以暴露共性缺陷;并借助提示回放缓冲区动态维持问题于学生当前能力边界内,直至其准确率达50%或被置换。在Qwen3.5系列(0.8B–9B)上的实验表明,ZPPO显著提升推理鲁棒性与跨任务泛化能力,尤其在低资源学生模型上优势突出。 PDF · arXiv · 项目 | ❤️ 38 2. Learning from the Self-future: On-policy Self-distillation for dLLMs Yifu Luo, Zeyu Chen, Haoyu Wang 本文针对扩散型大语言模型(dLLMs)的后训练难题,提出首个面向dLLMs的在线策略自蒸馏框架d-OPSD。为适配dLLMs的任意序生成特性,该方法摒弃传统自回归式前缀条件建模,转而以模型自身生成的答案作为后缀条件构建“自未来”教师信号,并将监督粒度从词元级提升至去噪步级,与dLLMs的迭代优化过程对齐。在四个推理基准上的实验表明,d-OPSD显著优于RLVR和SFT基线,样本效率提升显著,仅需RLVR约10%的优化步数,为dLLM高效后训练提供了新范式。 PDF · arXiv · 代码 | ❤️ 23 3. EgoCS-400K: An Egocentric Gameplay Dataset for World Models Rongjin Guo, Dong Liang, Yuhao Liu...

六月 18, 2026 · 1 分钟 · Pan

AI 每日资讯 — 2026-06-17

AI 每日资讯 — 2026-06-17 🔥 HuggingFace 每日论文 1. Geometric Action Model for Robot Policy Learning Jisang Han, Seonghu Jeon, Jaewoo Jung 本文提出几何动作模型(GAM),旨在解决现有视觉-语言-动作模型在接触式操作中缺乏显式3D几何建模能力的问题。GAM通过将预训练的几何基础模型(GFM)在中间层拆分,复用其浅层作为观测编码器,并在拆分处插入因果未来预测器,以语言、本体感知和动作历史为条件预测未来潜在表征;随后利用深层GFM进行特征传播与动作解码。该设计以极小架构改动赋予GFM语言驱动的时序世界建模能力,同时保留其丰富的几何先验。实验表明,GAM在仿真与真实机器人操纵任务中,相较现有大模型基线更具准确性、鲁棒性、速度与轻量化优势。 PDF · arXiv · 代码 · 项目 | ❤️ 84 2. BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering Yi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang 本文提出BRDFusion,一种融合物理建模与生成先验的统一框架,用于城市场景视频的逆向渲染。该方法通过显式物理建模恢复一致、可解释的场景属性(如BRDF、几何与光照),并利用生成先验缓解优化歧义;前向渲染中,物理模型保障可控性,生成模型负责去噪与修复伪影。在真实与合成数据集上,BRDFusion显著优于现有方法,生成高质量、高保真视频,并支持新颖视角重打光、夜间模拟及动态物体插入/编辑等应用。 PDF · arXiv · 代码 · 项目 | ❤️ 22 3. Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation Jie Zhang, Xiaoyue Chen, Anzhe Chen...

六月 17, 2026 · 5 分钟 · Pan