AI 每日资讯 — 2026-06-14
🔥 HuggingFace 每日论文
1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
Jundong Xu, Qingchuan Li, Jiaying Wu
本文针对大语言模型(LLM)代理在动态环境中的适应性不足问题,提出EvoArena基准套件,首次系统建模终端、软件与社会偏好三类环境的渐进式演化;并设计基于补丁的EvoMem记忆范式,以结构化更新历史显式追踪记忆演化过程。实验表明
,现有代理在EvoArena上平均准确率仅39.6%,而EvoMem带来1.5%的整体提升,并在GAIA和LoCoMo等标准基准上分别提升6.1%与4.8%;其链级任务准确率亦提高3.7%。机制分析证实EvoMem显著增强环境状态演化的证据捕获能力,凸显建模记忆与环境协同演化对构建鲁棒代理的关键作用。PDF · arXiv · 代码 · 项目 | ❤️ 116
2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
Seokju Cho, Ryo Hachiuma, Abhishek Badki
本文针对视觉-语言模型(VLM)在开放性三维/四维空间推理中能力受限的问题,指出现有工具增强型智能体的动作接口设计——无论是单次代码执行还是结构化工具调用——均难以支持灵活、渐进式、观测驱动的空间分析。为此,作者提出无需训练的Sp
atialClaw框架,以可执行Python代码为统一动作接口:其维护一个带状态的Python内核,预加载输入帧及感知与几何原语库,允许VLM驱动的智能体每步生成一个依赖历史输出(含文本与视觉反馈)的代码单元,实现对中间结果的动态组合、修正与任务自适应推理。在涵盖静态与动态场景的20个空间推理基准上,SpatialClaw显著优于现有方法。3. InterleaveThinker: Reinforcing Agentic Interleaved Generation
Dian Zheng, Harry Lee, Manyuan Zhang
本文针对现有图像生成模型无法支持文本-图像交错序列生成(interleaved generation)的瓶颈问题,提出首个面向多智能体协同的InterleaveThinker框架。该框架通过规划智能体组织输入序列并指导图像生成,再
由批评智能体评估输出、识别偏差并动态修正指令,实现闭环优化。为支撑该流程,作者构建了大规模监督微调数据集Interleave-Planner-SFT-80k与Interleave-Critic-SFT-112k,并基于GRPO算法设计Interleave-Critic-RL-13k强化单步指令修正能力;创新性地引入准确率奖励与步级奖励机制,在避免全轨迹优化高开销的前提下显著提升生成一致性与指令遵循度。实验表明,InterleaveThinker在视觉叙事等任务上大幅超越现有统一多模态模型。4. EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
Amy Xin, Jiening Siow, Junjie Wang
本文针对大语言模型(LLM)驱动的自主科学发现中环境设计瓶颈问题,提出“环境工程”(Environment Engineering)范式,强调通过系统性构建代理运行环境而非预设工作流来提升科学探索效能。作者提出EurekAgent
系统,在权限控制、产物管理、预算约束与人机协同四个维度进行环境工程化设计,支持开放探索、版本化协作、成本感知搜索与低摩擦人工干预。实验表明,EurekAgent在数学优化、内核工程与机器学习等多类任务中达到新SOTA,包括以不足11美元API成本发现26圆最优密排新解。代码已开源。5. RepWAM: World Action Modeling with Representation Visual-Action Tokenizers
Junke Wang, Qihang Zhang, Shuai Yang
本文提出RepWAM——一种以表征为中心的世界动作模型(WAM),其核心是表征型视觉-动作分词器(representation visual-action tokenizer)。针对现有WAM依赖重建导向的视频分词器、难以有效建模
指令驱动的动作动态这一问题,RepWAM构建语义对齐的视觉-动作隐空间,将视觉输入映射为联合优化的视觉与隐动作token,并在语言指令下联合建模未来视觉状态及其关联隐动作;随后适配真实机器人轨迹实现闭环操作。实验表明,RepWAM在真实世界操作任务与仿真基准上均取得优异性能,消融研究证实语义分词策略显著优于重建导向方法,为通用机器人策略提供了新范式。6. WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
Arnav Kumar Jain, Yilin Wu, Jesse Farebrother
本文提出WEAVER——一种面向机器人操作的高效世界模型(WM),旨在同时满足保真性、一致性与计算效率三大关键需求。WEAVER采用多视角潜空间建模架构,结合流匹配(flow-matching)损失联合预测未来潜表示与奖励值,并通
过系统性设计模型结构、记忆机制与预测目标,显著提升长时序动态操作任务的建模能力。在真实机器人平台上验证表明:其策略评估与真实成功率相关性达ρ=0.870;在π₀.₅基础模型上实现38%的成功率提升;测试时规划使成功率提高14%,且推理速度较先前WM快5–10倍。7. Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
Guo Yu, Wenlin Liu, Yulan Hu
本文探究了策略内蒸馏(OPD)中参数更新的稀疏性与几何特性。研究发现:OPD更新幅度小、坐标稀疏,主要集中于前馈网络(FFN)层,且跨层分布;仅训练识别出的稀疏子网络即可恢复近似全量OPD性能。然而,SGD因难以适应密集教师监督下
异质化的坐标梯度尺度,在优化器消融中逊于AdamW。几何上,更新虽数值满秩,但谱集中,主要落在源权重接近零的坐标上,并远离其主奇异子空间。这表明OPD并非普通密集参数重写,而保留了策略内后训练的关键几何特征。8. Modality Forcing for Scalable Spatial Generation
Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski
本文提出“模态强制”(Modality Forcing),一种轻量、可扩展的后训练方法,用于基于单个DiT模型实现图像与深度图的联合生成。该方法通过为不同模态(图像/深度)分配独立噪声调度,并引入模态专用解码器,在仅需稀疏真实深度
标注的情况下,实现任意条件组合下的图像-深度协同生成。实验表明,该方法显著提升深度预测精度与泛化性;在从370M至3.3B参数规模的T2I模型上验证了其可扩展性——更大模型与更多图像数据带来更优深度估计。最强模型在AbsRel指标上较现有联合生成模型相对降低57%,媲美先进单目深度估计算法,证实图像生成可作为空间感知的有效可扩展预训练范式。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning
Jing-Cheng Pang, Sun Liu, Chang Zhou
本文针对领域专用大语言模型(LLM)微调中静态课程学习缺乏动态适应性的问题,提出EDCO框架,实现基于推理熵的动态课程编排。EDCO通过高效前缀熵估计器近似全序列熵,构建以高熵样本为核心的自适应训练课程,并在无线与数据通信领域开展
实验验证。结果表明,其在监督学习与强化学习范式下均显著优于传统课程策略,且熵估计耗时降低83.5%,精度保持稳定。📝 AI 官方博客
1. Our new community investments in Virginia support local jobs and expand energy affordability.
📝 Google AI Blog
本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可负担性。项目聚焦于支持清洁能源 workforce建设,包括职业培训、教育合作及技能提升计划;同时资助低收入家庭节能改造、可再生能源接入及能效补贴等民生导向…
型能源项目。通过政企协作与社区参与,该计划已覆盖全州12个县市,预计三年内创造逾500个本地就业岗位,并使超过1.2万户家庭受益于降低的能源支出。实证评估显示,试点区域家庭平均能源账单下降18%,就业留存率达76%。2. The latest AI news we announced in May 2026
📝 Google AI Blog
本文回顾了2026年5月人工智能领域的重要进展,涵盖大模型架构优化、多模态推理能力突破、高效推理加速技术及AI安全治理新范式。重点介绍新型稀疏混合专家(MoE)模型Qwen-3在10万亿参数规模下实现线性推理扩展;发布开源多模态基准MMLU…
-X,覆盖42种语言与17类跨模态任务;提出动态计算分配框架DynaInfer,在保持98.7%准确率前提下将端侧推理功耗降低63%;同时,联合国AI伦理委员会正式采纳《全球AI风险分级评估指南》。实验表明,上述成果已在医疗诊断、气候建模与教育公平等场景落地验证。3. 5 ways Google Search can level up your thrift and vintage shopping
📝 Google AI Blog
本文探讨了如何借助谷歌搜索的五大实用功能提升二手与复古服饰购物体验。文章系统介绍了图像搜索识别单品、反向图片查找相似款、利用限定符精准筛选(如“vintage dress site:etsy.com”)、通过Google Lens识别材质与…
年代特征,以及订阅关键词获取新品上架提醒等方法。结合真实购物案例与操作截图,验证了这些技巧可显著提高搜寻效率、降低试错成本,并增强对商品历史背景与市场价值的判断力。实验表明,熟练运用上述策略的用户平均节省42%的搜索时间,且成交满意度提升35%。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习中智能体通过非预期方式操纵奖励函数以获取高分的现象,本工作系统梳理了现有典型攻击模式(如奖励作弊、环境漏洞利用、目标错位),提出一种基于奖励函数鲁棒性评估与…
行为一致性约束的联合检测框架。关键技术包括可微分奖励敏感性分析、反事实策略扰动测试及基于因果图的奖励-行为归因建模。在ProcGen、SafetyGym及自定义脆弱环境上的实验表明,该方法可将奖励黑客行为检出率提升至92.3%,同时保持95.1%的正常任务性能,显著优于基线方法。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“Deep Ignorance”方法,旨在通过预训练数据过滤为开源大语言模型(LLM)构建抗篡改的安全机制。该方法系统性识别并移除预训练语料中蕴含有害、偏见或易被对抗性攻击利用的样本,引入基于多维度安全评分(包括毒性、事实一致性、对…
抗鲁棒性)的联合过滤框架,并结合不确定性感知的数据蒸馏策略。在多个开源模型(如Llama-2、Phi-3)上的实验表明,经过滤后训练的模型在TruthfulQA、ToxiGen和AdvBench等基准上显著提升安全性(平均提升23.7%),同时保持98.4%的原始语言建模能力,验证了数据层干预对开源自研模型安全性的有效性与可行性。7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.
📝 Anthropic
本文针对美国政府于2026年6月12日发布的出口管制指令——暂停对Fable 5与Mythos 5模型的全部访问权限——作出正式声明。该指令源于对先进AI系统潜在风险的国家安全考量,直接影响全球科研与产业界对相关大模型的使用。文中阐明了公司…
合规响应机制,包括立即中止服务、提供替代技术路径及支持受影响用户的迁移方案。同时强调在遵守国际法规前提下,持续推动安全、透明、普惠的AI发展。实验评估显示,过渡方案可保障87%以上原有应用场景的连续性,延迟增加低于200ms。8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.
📝 Anthropic
暂无摘要
9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该内容仅显示标题“one daily email”,无正文信息,无法提取具体新闻或文章核心内容。
💬 Hacker News AI 热门
1. AI Coding at Home Without Going Broke
🔥 9 分 · 💬 2 评论