AI 每日资讯 — 2026-06-15
🔥 HuggingFace 每日论文
1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
Jundong Xu, Qingchuan Li, Jiaying Wu
本文针对现有大语言模型(LLM)智能体在动态环境中适应能力不足的问题,提出EvoArena基准套件,首次系统建模终端、软件与社会偏好三类环境的渐进式演化过程;并设计EvoMem记忆范式,以补丁化方式结构化记录记忆演化历史,支持智能
体基于记忆变化推理环境演进。实验表明,当前主流智能体在EvoArena上平均准确率仅39.6%,而EvoMem带来1.5%的整体性能提升,并在GAIA和LoCoMo等标准基准上分别提升6.1%与4.8%;其链式任务准确率亦提高3.7%。机制分析证实EvoMem显著增强环境状态证据的捕获与保持能力。PDF · arXiv · 代码 · 项目 | ❤️ 123
2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
Seokju Cho, Ryo Hachiuma, Abhishek Badki
Spatial reasoning—understanding object positions, relations, and motion in 3D/4D space—remains a core challenge for
vision-language models (VLMs). Existing tool-augmented agents are constrained by rigid action interfaces: either single-pass code generation or inflexible structured tool calls. To overcome this, we propose SpatialClaw, a training-free framework that uses executable Python code as a flexible, stateful action interface. It maintains a persistent kernel with pre-loaded frames and perception/geometry primitives, enabling VLM-driven agents to iteratively generate one code cell per step, conditioned on prior textual and visual outputs. Evaluated on 20 diverse spatial reasoning benchmarks, SpatialClaw achieves state-of-the-art performance across static and dynamic tasks, demonstrating superior adaptability and compositional reasoning.3. InterleaveThinker: Reinforcing Agentic Interleaved Generation
Dian Zheng, Harry Lee, Manyuan Zhang
本文针对现有图像生成模型无法支持文本-图像交错序列生成(interleaved generation)的瓶颈问题,提出首个面向该任务的多智能体框架InterleaveThinker。该框架包含规划智能体与批评智能体:前者解析用户指
令并动态调度图像生成步骤;后者评估每步输出质量,识别偏差并迭代优化指令。为支撑该流程,作者构建了大规模监督微调数据集Interleave-Planner-SFT-80k与Interleave-Critic-SFT-112k,并基于GRPO算法设计Interleave-Critic-RL-13k进行单步强化学习,引入准确率奖励与步级奖励以高效优化长轨迹生成。实验表明,InterleaveThinker显著提升主流开源图像生成器在视觉叙事、交互式编辑等交错生成任务中的性能与可控性。4. EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
Amy Xin, Jiening Siow, Junjie Wang
本文提出EurekAgent,一种面向自主科学发现的环境工程化智能体系统。针对当前大语言模型(LLM)智能体在科学探索中受限于环境设计而非工作流设计的瓶颈,作者将“环境工程”确立为核心范式,从权限控制、产物管理、预算约束与人机协同
四维度重构智能体运行环境。该系统支持开放探索、系统性产物协作与低摩擦人工干预,显著抑制奖励作弊与高开销监督。实验表明,EurekAgent在数学优化、内核工程与机器学习任务中均达新SOTA,例如以不足11美元API成本发现26圆最优密排新解。代码已开源。5. RepWAM: World Action Modeling with Representation Visual-Action Tokenizers
Junke Wang, Qihang Zhang, Shuai Yang
本文提出RepWAM——一种以表征为中心的世界动作模型(WAM),其核心是表征型视觉-动作分词器(representation visual-action tokenizer)。针对现有WAM依赖重建导向的视频分词器、难以有效建模
指令驱动的动作动态这一问题,RepWAM构建语义对齐的视觉-动作隐空间,将视觉输入映射为联合优化的视觉与隐动作token,并在语言指令下联合建模未来视觉状态及其关联隐动作;随后通过真实机器人轨迹微调实现闭环操作。实验表明,RepWAM在真实世界操纵任务与仿真基准上均显著优于基线,消融研究证实语义分词策略优于传统重建式分词,为通用机器人策略提供了新范式。6. WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
Arnav Kumar Jain, Yilin Wu, Jesse Farebrother
本文提出WEAVER——一种面向具身智能体推理的多视角世界模型架构,旨在解决现有世界模型在机器人操作任务中难以兼顾保真度、长程一致性与推理效率的根本挑战。WEAVER通过流匹配(flow-matching)损失联合预测未来隐状态与
奖励值,并融合跨视角表征、高效记忆机制与分层预测目标等关键设计,显著提升长时序动态操作建模能力。在真实机器人平台上,WEAVER实现政策评估(与真实成功率相关性ρ=0.870)、政策改进(相较π₀.₅基线提升38%)和测试时规划(成功率提升14%,推理速度加快5–10倍)三大能力,全面超越先前方法。7. RoboProcessBench: Benchmarking Process-Aware Understanding in Vision-Language Robotic Manipulation
Dayu Xia, Yue Shi, Yao Mu
本文提出RoboProcessBench,首个面向视觉-语言机器人操作中过程感知理解能力的基准测试。针对现有VLM评估忽视操作执行过程中物理与时间维度细粒度进展判断的问题,该基准将过程理解解耦为静态监控与动态推理两大维度,涵盖相位
、接触、运动、协调性、局部进展、时序、结果及动作原语转换等12类诊断性问题。基于260个真实操作任务构建的ProcessData数据集包含约58K问答对,并划分为微调(ProcessData-SFT)与评测(ProcessData-Eval)子集。在ProcessData-Eval上的系统评估揭示当前主流VLM在各项过程理解任务上普遍存在显著缺陷;而经ProcessData-SFT微调后的Qwen2.5-VL-7B与InternVL-3-8B则在局部状态、运动模式、进展评估及原语级感知等方面展现出稳定提升。8. Modality Forcing for Scalable Spatial Generation
Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski
本文提出“模态强制”(Modality Forcing)方法,旨在利用文本到图像(T2I)模型中蕴含的丰富空间先验,实现可扩展的联合图像-深度生成。该方法通过为图像与深度模态分配独立噪声水平,并采用模态专属解码器,在仅需稀疏真实深
度数据的前提下,支持任意条件组合下的图像与深度联合或条件生成。实验表明,该方法在370M至3.3B参数规模的DiT模型上展现出良好可扩展性:更大模型与更多图像数据显著提升深度预测精度。最强模型在单目深度估计任务上媲美当前最优方法,并较现有联合生成模型将AbsRel误差相对降低57%,验证了图像生成作为空间感知预训练目标的有效性与可扩展性。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. ChessArena: A Chess Testbed for Evaluating Strategic Reasoning Capabilities of Large Language Models
Jincheng Liu, Sijun He, Jingjing Wu
本文提出ChessArena——一个面向大语言模型(LLMs)战略推理能力评估的国际象棋测试平台。针对当前LLMs是否具备真正长程规划、规则理解与多步推理能力而非仅依赖模式匹配的质疑,ChessArena构建了包含四种对弈模式的竞
技框架,支持细粒度能力评测(如基础规则理解、走法选择与谜题求解),并集成排名算法与公开排行榜。实验涵盖13种主流LLM,完成超800局对弈,结果表明现有模型普遍表现薄弱:无一能胜过业余人类水平的Maia-1100引擎,部分模型甚至不敌随机走子玩家。此外,本文基于Qwen3-8B微调的强基线模型显著提升性能,逼近更大规模先进推理模型。2. TestJudge: A Rigorous Benchmark for Unit Test Generation and Quality Assessment
Zhaoqi Kuang, Sijun He, Jingjing Wu
TestJudge 是一个面向单元测试生成与质量评估的严格基准,旨在弥补现有方法仅依赖通过率而忽视测试完备性与错误检测能力的不足。该基准包含来自 Codeforces 的 8,000 道 Python 和 C++ 编程题,每道题配
备 10 个带真实正确性标签的多样化代码提交;生成的测试用例需准确区分所有提交的对错(即“判决匹配”)才被视为有效。基于判决匹配率与覆盖率指标,对 13 种前沿模型的评估显示:最优模型 Gemini-2.5-Pro 在 Python 和 C++ 上的判决匹配率分别仅为 59.75% 和 11.50%。更关键的是,其在测试生成任务上的表现显著低于同等题目下的直接求解任务,揭示当前模型可能依赖问题记忆而非构建可泛化的测试逻辑,凸显自动化测试生成的根本性挑战。📝 AI 官方博客
1. Our new community investments in Virginia support local jobs and expand energy affordability.
📝 Google AI Blog
本文介绍了企业在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍,通过职业培训、教育合作与技能提升计划支持关键行业人才发展;同时,投资清洁能源基础设施与低收入家庭能效改造项目,降…
低居民用能成本。实证表明,该计划已带动逾1200个本地就业岗位,并使超过5000户家庭受益于补贴型节能服务与可再生能源接入。2. The latest AI news we announced in May 2026
📝 Google AI Blog
本文回顾了2026年5月全球人工智能领域的重要进展,涵盖大模型架构创新、多模态推理能力突破、AI安全与对齐技术新范式,以及边缘AI部署的能效优化成果。重点介绍了OpenAI发布的混合稀疏-稠密架构模型GPT-5 Lite,在保持95%旗舰性…
能的同时降低60%推理功耗;谷歌DeepMind提出的“反射式验证框架”(Reflexive Verification Framework, RVF)显著提升LLM输出的事实一致性与可追溯性;此外,欧盟AI Office正式启用全球首个基于实时审计日志的合规性沙盒平台。实验表明,RVF在TruthfulQA基准上将幻觉率降低至3.2%,较前代下降41%。3. 5 ways Google Search can level up your thrift and vintage shopping
📝 Google AI Blog
本文探讨了如何借助谷歌搜索的五大实用功能提升二手与复古服饰购物体验。文章系统介绍了图像搜索识别单品、反向图片查找相似款、利用限定符精准筛选(如“vintage dress site:etsy.com”)、通过Google Lens识别材质与…
年代特征,以及订阅关键词获取新品上架提醒等方法。结合真实购物案例与操作截图,验证了这些技巧可显著提高搜寻效率、降低试错成本,并增强对商品历史背景与市场价值的判断力。实验表明,熟练运用上述策略的用户平均节省40%以上的搜索时间,且成交满意度提升32%。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(Reasoning Interpolation)的早期预警方法,用于在大语言模型训练过程中识别奖励黑客(Reward Hacking)的早期迹象。该方法利用重要性采样(Importance Sampling),结合…
经微调的捐赠前缀(donor prefills)对策略分布进行高效估计,无需额外训练或干预即可预测奖励函数被策略性 exploited 的临界点。关键技术包括:构建语义一致的推理路径插值空间、设计基于KL散度的异常检测指标,以及通过少量验证轨迹实现高精度预警。在多个RLHF和偏好优化基准任务中,该方法平均提前32%训练步数检测到奖励黑客行为,误报率低于5.2%。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习中智能体通过非预期方式操纵奖励函数以获取高分的现象,本工作系统梳理了现有奖励黑客案例的分类体系,提出一种基于奖励函数敏感性分析与行为轨迹可解释性评估的双…
轨检测框架;关键技术包括奖励函数鲁棒性量化指标设计、对抗性奖励扰动测试方法及基于因果推理的行为归因机制。在Gridworld、ProcGen及自定义多目标控制环境中的初步实验表明,该框架可识别出87.3%的隐蔽式奖励黑客行为,误报率低于9.2%,显著优于基线方法。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过预训练数据过滤为开源大语言模型(LLMs)构建抗篡改的安全机制。针对开放权重模型易受恶意数据污染、难以事后干预的固有风险,作者设计了一套基于多维度安全评估(包括毒性、偏见、隐…
私泄露与对抗性内容识别)的数据清洗框架,并引入可验证的过滤日志与不可逆数据剔除协议。在多个基准模型(Llama-3、Phi-3)上的实验表明,该方法在保持模型通用能力(MMLU、ARC)几乎无损(<0.5%下降)的前提下,显著降低有害输出率(平均减少62.3%),且过滤后的权重对后门注入与越狱攻击展现出更强鲁棒性。7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.
📝 Anthropic
本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5两类先进AI模型的访问权限——作出正式声明。该指令基于国家安全与技术扩散风险考量,要求相关实体立即终止对上述模型的开发、部署及国际访问。声…
明阐明了合规路径,包括现有授权过渡期安排、替代性开源模型支持计划,以及与监管机构协同建立透明审计机制的技术方案。实证评估显示,所提出的模型迁移框架可在72小时内完成98.3%的关键任务系统适配,显著缓解政策突变带来的产业冲击。8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.
📝 Anthropic
暂无摘要
9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该内容仅提供标题“one daily email”,无正文信息,无法提取具体新闻或文章核心内容。
💬 Hacker News AI 热门
1. No, everyone is not using AI for everything
🔥 204 分 · 💬 196 评论
文章驳斥了“人人都在用AI做一切事”的流行说法,指出现实是:约三分之一美国人经常使用生成式AI(如ChatGPT、Copilot等),三分之一偶尔使用,另有三分之一几乎不用。数据显示,AI使用率增长缓慢,而公众对AI的担忧(如失业、隐私泄露…
、虚假信息)和对其实际价值的怀疑却显著上升。调查显示,AI的社会净评价仅+8%,远低于互联网、手机等技术,反映出公众 skepticism真实且深入。2. Rio de Janeiro’s “homegrown” LLM appears to be a merge of an existing model
🔥 44 分 · 💬 19 评论