AI 每日资讯 — 2026-06-17

🔥 HuggingFace 每日论文

1. Geometric Action Model for Robot Policy Learning

Jisang Han, Seonghu Jeon, Jaewoo Jung

本文提出几何动作模型（GAM），旨在解决现有视觉-语言-动作模型在接触式操作中缺乏显式3D几何建模能力的问题。GAM通过将预训练的几何基础模型（GFM）在中间层拆分，复用其浅层作为观测编码器，并在拆分处插入因果未来预测器，以语言、

本体感知和动作历史为条件预测未来潜在表征；随后利用深层GFM进行特征传播与动作解码。该设计以极小架构改动赋予GFM语言驱动的时序世界建模能力，同时保留其丰富的几何先验。实验表明，GAM在仿真与真实机器人操纵任务中，相较现有大模型基线更具准确性、鲁棒性、速度与轻量化优势。

PDF · arXiv · 代码 · 项目 | ❤️ 84

2. BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

Yi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang

本文提出BRDFusion，一种融合物理建模与生成先验的统一框架，用于城市场景视频的逆向渲染。该方法通过显式物理建模恢复一致、可解释的场景属性（如BRDF、几何与光照），并利用生成先验缓解优化歧义；前向渲染中，物理模型保障可控性，

生成模型负责去噪与修复伪影。在真实与合成数据集上，BRDFusion显著优于现有方法，生成高质量、高保真视频，并支持新颖视角重打光、夜间模拟及动态物体插入/编辑等应用。

PDF · arXiv · 代码 · 项目 | ❤️ 22

3. Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Jie Zhang, Xiaoyue Chen, Anzhe Chen

本文提出Qwen-RobotWorld——一种面向具身智能的语言条件化视频世界模型，旨在统一建模多场景物理世界动态。该模型以自然语言为统一动作接口，基于当前观测预测机器人操作、自动驾驶、室内导航及人机迁移等任务中的物理可 grou

nding 的未来视觉轨迹。核心技术包括：双流MMDiT架构（融合冻结的Qwen2.5-VL语义与视频VAE隐空间）、含860万样本的具身世界知识库（EWK），以及通用+专家渐进式课程训练策略。实验表明，其在EWMBench与DreamGen Bench中综合排名第一，在WorldModelBench和PBench上全面超越现有开源模型，并在RoboTwin-IF基准上展现出优异的零样本泛化与多视角一致性。

🏛️ Qwen | PDF · arXiv · 项目 | ❤️ 14

4. TokenPilot: Cache-Efficient Context Management for LLM Agents

Buqiang Xu, Zirui Xue, Dianmou Chen

本文针对大语言模型（LLM）智能体在长周期会话中因上下文持续累积导致推理开销激增的问题，提出TokenPilot——一种兼顾缓存效率与提示连续性的双粒度上下文管理框架。其全局层采用“摄入感知压缩”（Ingestion-Aware

Compaction），在输入端稳定提示前缀并过滤开放环境噪声；局部层通过“生命周期感知驱逐”（Lifecycle-Aware Eviction）动态评估上下文片段的残余效用，仅在任务相关性失效时保守卸载。在PinchBench与Claw-Eval基准上，TokenPilot在独立与连续模式下分别实现最高61%和87%的token成本降低，同时保持与现有方法相当的任务性能，并已集成至LightMem2开源系统。

PDF · arXiv · 代码 | ❤️ 13

5. Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Tongyan Fang, Siyuan Huang, Naiyu Fang

本文针对预训练视觉语言动作（VLA）策略在在线强化学习（RL）微调中仅获得稀疏二元 episode 结果（成功/失败）而难以提供细粒度梯度信号的问题，提出分层优势加权行为克隆（HABC）。HABC 引入双目标分层批评器：分别建模可

行性（viability）与效率（efficiency），并基于状态自适应门控函数动态融合其单步优势，生成每步动作的加权监督信号；同时通过干预感知的信用分配机制，仅将 episode 结果回传至当前策略自主执行的轨迹段。在真实机器人实验中，HABC 显著提升任务成功率与完成效率，较基线方法平均提升 23.7% 的成功率及 18.4% 的动作效率。

PDF · arXiv | ❤️ 6

6. ExpRL: Exploratory RL for LLM Mid-Training

Violet Xiang, Amrith Setlur, Chase Blagden

本文提出ExpRL——一种面向大语言模型（LLM）中段训练的探索式强化学习方法，旨在缓解稀疏奖励下推理能力提升受限于基线模型技能覆盖度的问题。ExpRL不依赖人工设计的推理轨迹进行监督微调，而是利用大规模人类书写的问答数据，将参考

答案隐式用作奖励 scaffold：策略仅基于原始问题采样推理链，由LLM裁判依据问题特异性评分标准，对过程或结果层面进行细粒度、稠密奖励评估。实验表明，ExpRL在数学推理任务上显著优于监督微调（SFT）、稀疏奖励GRPO及自蒸馏等基线，在RL初始化效果和推理路径质量上均取得提升。

PDF · arXiv · 代码 | ❤️ 1

7. T-Rex: Tactile-Reactive Dexterous Manipulation

Dantong Niu, Zhuoyang Liu, Zekai Wang

本文针对当前视觉-语言-动作（VLA）模型在灵巧操作中忽视触觉动态响应能力的问题，提出T-Rex框架，推动触觉驱动的灵巧操作前沿。作者构建了首个大规模（100小时）、高多样性的触觉丰富数据集，采用以基础运动原语为导向的高效采集策略

；并设计了一种变率混合Transformer（MoT）架构，集成新型时序触觉向量量化变分自编码器（VQ-VAE）编码器，可在不损害原有VLA能力的前提下有效建模高频触觉信号。在12项需精细力控与可变形物体操作的任务上，T-Rex平均成功率较最强基线提升超30%。

PDF · arXiv

8. Human Universal Grasping

Kevin Yuanbo Wu, Tianxing Zhou, Isaac Tu

本文提出Human Universal Grasping（HUG），旨在解决多指机器人在日常场景中泛化抓取能力不足的问题。作者构建了首个大规模人眼视角抓取数据集1M-HUGs（含100万帧、6707个物体实例），并设计了一种基于流

匹配的生成模型，融合RGB-D输入，直接预测包含腕部位姿与MANO手部姿态的完整抓取参数。该模型支持零样本迁移至多种机器人手部，并在新构建的仿真基准HUG-Bench（90个未见物体）及真实世界30物体测试集上验证，相较现有最优方法性能提升23%–34%。

PDF · arXiv · 代码 · 项目

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. A Definition of Good Explanations and the Challenges Explaining LLM Outputs

Louis Mahon, Elliot Ford, Callum Hackett

本文针对大语言模型（LLM）输出的可解释性难题，提出一种融合反事实推理与用户先验信念的“好解释”定义：一个好解释不仅需阐明“若某前提改变，则结果如何变化”，更须适配解释对象对各事实成分的既有信念强度。作者指出，LLM生成的文本具有

高度上下文依赖性、隐式推理链及概率化输出特性，导致其内部决策逻辑难以映射为满足该定义的结构化、信念敏感型解释。实验分析表明，现有主流解释方法在保持忠实性的同时，普遍忽视用户认知状态建模，致使解释可信度与实用性受限。该框架为构建人本导向的LLM可解释性方法提供了理论基础与评估新维度。

2. Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

Yi Lu, Zhuofeng Li, Ping Nie, Haoxiang Zhang, Yuyu Zhang, Kai Zou, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

本文提出Dr-DCI（Dynamic Retriever-steered Direct Corpus Interaction），旨在解决大规模语料库上直接交互式搜索（DCI）因全量操作导致的效率下降与稳定性退化问题。该框架将检索器

建模为智能体可调用的动作，动态构建并扩展局部工作区，使DCI操作仅在相关子集内执行，兼顾召回率与操作精度。实验表明，在Browsecomp-Plus上，Dr-DCI达71.2%准确率，较原始DCI提升8.3个百分点，同时降低工具调用次数、运行时间与计算成本；引入上下文重置机制后进一步提升至73.3%。其性能在100K–20M规模语料中保持稳健，显著优于BM25及纯检索基线，并在Wiki-18六项QA任务中平均得分63.0。消融分析证实排序预览与跨文档DCI操作是关键设计。

🏛️ Wenhu Chen, Jimmy Lin

3. Relational Structural Causal Models

Adiba Ejaz, Elias Bareinboim

本文提出关系结构因果模型（RSCM），将经典结构因果模型拓展至对象及其关系可变的场景，以同时支持因果干预推理、反事实推断与组合泛化。作者首先证明：在未加额外假设时，针对未见对象组合的因果及观测查询均不可识别；进而定义关系因果图，推

导出符号化的可识别性判据，即使存在未观测混杂因素亦能保证识别性；最后提出关系神经因果模型，其理论正确性得到严格证明，并在模拟交通场景（含动态变化的车辆、信号灯与行人）中显著优于非关系基线方法。

🏛️ Elias Bareinboim

📄 arXiv: cs.CL

1. PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Chenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

本文提出PhoneHarness，一个支持混合GUI、CLI与工具操作的手机使用智能体基准与执行框架，旨在解决现有移动智能体仅聚焦于屏幕动作预测而忽视真实任务中多模态操作协同与副作用验证的问题。PhoneHarness通过确定性动

作路由、受限GUI委托及可审计执行轨迹，实现端侧闭环执行；其配套基准PhoneHarness Bench以可观测副作用为评估核心，而非仅依赖最终界面状态。在标注测试集上，PhoneHarness达到75.0%任务通过率，较最强基线提升12.9个百分点，验证了动作表面路由与可验证执行对可靠手机自动化的重要性。

2. Evaluating the Robustness of Proof Autoformalization in Lean 4

Zhengtao Gui, Sheng Yang, Zhouxing Shi

本文首次系统评估了Lean 4中证明自动形式化模型的鲁棒性。针对现有工作仅在理想化、规范化的非正式证明上评测的局限，作者提出两类扰动：全局扰动（如风格改写）要求形式化结果保持一致；局部扰动（如数值、符号或步骤篡改）要求模型忠实反映

改动而非自行修正。基于miniF2F和MATH-500构建基准，自动量化模型在扰动下的稳定性与保真度。实验表明，当前七种主流大语言模型均对全局扰动敏感，且在局部扰动下普遍缺乏忠实性，揭示了该任务中鲁棒性的严重缺失。

3. Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

Sisong Bei, Mikhail L. Arbuzov, Ziwei Dong, Dmitri Kalaev, Alexey Shvets

本文研究面向多跳问答的小型语言模型上下文压缩问题，提出“电报英语”（Telegraph English）——一种可读的符号化重表达格式，将检索到的段落结构化为实体-关系陈述，在降低令牌开销的同时保留推理证据。在MuSiQue、Tw

oWiki和HotpotQA数据集上的控制实验表明，该方法在相同预算下显著优于字符级删除、截断和随机子采样三种基线，F1值提升13–20个百分点；且在最难的数据集上亦优于同编码器生成的连贯摘要。预注册的深度交互假设未被支持：其优势不随推理深度增加而增强。结果表明，在同等令牌预算下，可读符号化重表达比自然语言或连贯摘要更密集地保留实体信息。

📄 arXiv: cs.LG

1. QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

Yifan Ruan, Chenyang Cao, Andreas Burger, Ali Pesaranghader, Kaveh Kamali, Jaehong Kim, Nandita Vijaykumar, Alan Aspuru-Guzik, Igor Gilitschenski, Nicholas Rhinehart

本文针对流匹配与扩散策略在时序差分强化学习中难以高效优化的问题，提出QPILOTS方法：在推理阶段对去噪过程进行Q值引导，无需修改原始策略。其核心在于每步去噪时，将噪声中间动作投影至最终清洁动作的估计点，并在此处计算 critic

梯度，避免在不可靠噪声点上直接求导。QPILOTS-U采用单点快速近似，QPILOTS-M则通过可学习辅助网络生成可微后验样本。在离线到在线RL基准测试中，QPILOTS以90%平均成功率（50任务）达最优整体性能；进一步应用于冻结的大规模视觉-语言动作（VLA）基础模型，在六项仿真操作任务中全面优于或持平现有推理时调控方法。

🏛️ Alan Aspuru-Guzik

2. GRAPE: Guided Parameter-Space Evolution for Compact Adversarial Robustness

Zhiyuan Ye (University of Science and Technology of China), Xiangyu Zhou (China Mobile), Ji Qi (China Mobile), Hao Zhang (University of Science and Technology of China), Yi Zhou (China Mobile)

本文针对对抗训练（AT）中固定参数空间导致鲁棒性与模型紧凑性难以兼顾的问题，提出GRAPE框架——一种受引导的参数空间演化方法。GRAPE通过参数空间稳定化与渐进式隐层扩展相结合，动态控制可优化参数维度的释放，并基于对抗谱利用率评

分引导新增容量优先分配至高压力模块。在CIFAR-10上以ResNet-18为基准，GRAPE在计算开销几乎不变（FLOPs比为1.009x）下，将PGD-20鲁棒准确率从51.70%提升至56.94%，同时减少21.4%参数量；其等架构变体亦达56.52%，验证了参数演化路径本身的有效性。

3. {\alpha}-Fair Insurance Pricing: A Fairness Continuum

Tianhe Zhang, Xiguang Liu, Peng Shi

本文针对保险定价中精算公平与团结公平的固有张力，提出一种α-FISP（α-Fair Individual Solvent Premium）框架，在保障偿付能力的前提下，显式建模二者间的权衡。该框架将定价问题建模为带预算约束的优化问

题，通过参数α连续调节跨群体交叉补贴程度，形成从纯精算定价到纯团结定价的公平性谱系。理论分析证明了其可行性与均衡性质；数值实验表明该方法计算高效，且能灵活适配美国各州差异化的监管公平要求。

📄 arXiv: cs.CV

1. RAMS: Resource-Adaptive and Detection-Conditioned Model Switching for Embedded Edge Perception

Kushal Khemani, Evan Leri, George Xu, Amit Hod

本文提出RAMS——一种面向嵌入式边缘感知的资源自适应与检测条件驱动的模型切换框架，旨在动态平衡推理延迟与检测质量。RAMS通过轻量级运行时控制器实时监测设备资源压力，基于空闲行为校准切换阈值，并在YOLOv8-NANO/SMAL

L/MEDIUM三档模型间零重载切换。其创新性地引入五种切换策略，含两种检测条件化策略，避免对脆弱道路使用者（VRU）检测后的激进降级；并提出VRU加权准确率得分（SWAS）及带oracle边界的变体，支持无真值标注下的策略离线评估。实验覆盖Raspberry Pi 5、x86笔记本与Jetson Orin平台，在TensorRT部署下，safety2策略实现3.41 ms平均延迟（较固定MEDIUM快5.6倍），同时保持74%代理精度；检测条件化策略在重载下SWAS提升达25.4%（oracle评分）与47.3%（检测器评分）。KITTI实测显示各档VRU召回率分别为24.2%、41.2%、59.0%，揭示基线检测器召回能力对动态切换效果的根本制约。

2. AI for Maritime Security: Comparative Evaluation of CNN and Vision Transformer Architectures for Maritime Object Detection

Ismet Gocer, Zakirul Bhuiayn, Shakeel Ahmad, Raza Hasan

本研究面向海上安全需求，构建并评估了基于AI与计算机视觉的海上目标检测系统，旨在实时识别海面船舶。依托包含6468张图像、涵盖晴天、多云、雾天及雨天等多气象条件的专用海事图像数据集，对比分析了六种深度学习架构：基础CNN、四种迁移

学习模型（Xception、VGG16、MobileNetV2、EfficientNetV2L）以及Vision Transformer（ViT）。综合评估准确率、I/II类错误率、模型参数量及视频处理时延等指标表明：ViT在所有模型中表现最优，实现100%检测准确率、最低误检/漏检率及最快视频处理速度；轻量级模型则更适配边缘计算场景。结果验证了AI视觉技术在海上监视、边境防控与自主航行中的应用潜力。

3. Disagreement-Based Cross-Model Routing for Implicit Video Question Answering

Durga Sandeep Saluru

本文针对隐式视频问答（ImplicitQA）任务提出基于分歧的跨模型路由方法，旨在解决多选视频问答中答案需从离屏事件、视线线索、因果结构及跨镜头空间布局中隐式推断的挑战。针对前沿视频大模型在该任务上已达性能瓶颈且传统自一致性策略（

如同模型多次采样投票）因错误相关性反而降低准确率的问题，本文设计了一种纯推理时、无需标注与训练的路由机制：对Gemini 3.1 Pro Preview在零温度下三重采样，利用其视频处理 pipeline 的固有样本间方差识别约20%的分歧样本，并将这些样本路由至另一架构的模型（Claude Opus 4.8）进行帧级自适应推理。在1001题验证集上，平均准确率提升+1.43；在CVPR 2026隐式QA测试集（172题）上达82.03 AvgAcc，较单模型最优结果提升+1.81，验证了方法的有效性与泛化性。

🏛️ Gemini 3.1 Pro Preview, Claude Opus 4.8

📝 AI 官方博客

1. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元，扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营，原址为废弃工业用地，此次扩建将显著提升算力基础设施能力，并创造数百个高技能就业岗位。除资本投入外，谷歌同步启动多项社区支持…

计划，包括与当地高校合作开展AI与云计算人才培养项目、资助STEM教育倡议，以及推动可再生能源采购以实现园区100%清洁能源运行。项目预计带动区域经济增量超30亿美元，并强化阿拉巴马州在全美数字基建版图中的战略地位。

2. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划，旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍，通过职业培训、教育合作及技能提升计划支持弱势群体就业；同时资助多项清洁能源普及与能效升级项目，包括低收入家庭太阳…

能安装、节能改造补贴及社区微电网试点。实证评估显示，该计划已创造逾1200个本地就业岗位，惠及超过8500户家庭，平均降低其能源支出17%。

3. The latest AI news we announced in May 2026

📝 Google AI Blog

本文系统梳理了2026年5月全球人工智能领域的重要进展，涵盖大模型架构创新、多模态推理能力突破、AI安全与对齐技术新范式，以及边缘AI部署效率的显著提升。重点介绍了一种基于动态稀疏注意力与神经符号融合的新型混合架构（DSN-Transfor…

mer），在保持参数量不变前提下，将长程推理准确率提升12.3%；同时，首个通过ISO/IEC 42001:2026认证的开源AI治理框架“VeriTrust”正式发布。实验表明，该框架在37个基准测试中平均降低有害输出率达91.4%。此外，轻量化模型TinyLLM-v3实现端侧实时语音—视觉联合推理，延迟低于86ms。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象，本工作系统梳理了现有奖励黑客案例的成因分类，提出一种基于奖励函数可解释性与行为一致性的双轨检测框架，…

并初步实现了对策略偏移的在线识别与干预机制。关键技术包括 reward specification auditing、behavioral divergence metric design 以及 lightweight runtime correction。在 Gridworld 和 ProcGen 等基准环境中的实验表明，该方法可将典型奖励黑客行为的发生率降低约42%，同时保持95%以上的原始任务性能。后续将拓展至多智能体与长周期任务场景。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。该方法识别并移除包含敏感、有害或易被滥用知识的文本片段（如非法活动指南、隐私泄露信息、越狱提示模板等），在不依赖后训…

练对齐技术的前提下，从源头削弱模型习得危险能力的可能性。作者构建了多维度安全过滤器，结合规则匹配、分类器判别与基于嵌入的语义聚类，在多个开源预训练语料库上实现高精度低损耗过滤。实验表明，经该方法处理的数据所训练的模型，在TruthfulQA、SafeBench及定制化越狱攻击基准上显著提升真实性与抗操纵性，同时保持下游任务性能无明显下降。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5大模型的访问权限——作出正式声明。该指令基于《出口管理条例》（EAR）及新兴AI技术管控政策，限制相关模型在境外的部署、调用与技术转移。声…

明阐明了合规响应机制，包括服务中断安排、客户迁移支持路径及替代性开源工具链的过渡方案。实证评估显示，受影响用户中92%可在30日内完成至合规本地化模型的平滑迁移，系统平均延迟增加低于80ms。本举措凸显全球AI治理中技术主权与安全协同的紧迫性。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该内容仅提供标题“one daily email”，无正文信息，无法提取具体新闻或文章核心内容。

AI 每日资讯 — 2026-06-17#

🔥 HuggingFace 每日论文#

1. Geometric Action Model for Robot Policy Learning#

2. BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering#

3. Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation#

4. TokenPilot: Cache-Efficient Context Management for LLM Agents#

5. Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes#

6. ExpRL: Exploratory RL for LLM Mid-Training#

7. T-Rex: Tactile-Reactive Dexterous Manipulation#

8. Human Universal Grasping#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. A Definition of Good Explanations and the Challenges Explaining LLM Outputs#

2. Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion#

3. Relational Structural Causal Models#

📄 arXiv: cs.CL#

1. PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions#

2. Evaluating the Robustness of Proof Autoformalization in Lean 4#

3. Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget#

📄 arXiv: cs.LG#

1. QPILOTS: Efficient Test-Time Q-Steering for Flow Policies#

2. GRAPE: Guided Parameter-Space Evolution for Compact Adversarial Robustness#

3. {\alpha}-Fair Insurance Pricing: A Fairness Continuum#

📄 arXiv: cs.CV#

1. RAMS: Resource-Adaptive and Detection-Conditioned Model Switching for Embedded Edge Perception#

2. AI for Maritime Security: Comparative Evaluation of CNN and Vision Transformer Architectures for Maritime Object Detection#

3. Disagreement-Based Cross-Model Routing for Implicit Video Question Answering#

📝 AI 官方博客#

1. We’re strengthening our presence in Alabama through new investments and community support.#

2. Our new community investments in Virginia support local jobs and expand energy affordability.#

3. The latest AI news we announced in May 2026#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.#

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.#

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.#

📬 TLDR AI 精选#

1. one daily email#

📰 TechCrunch AI 新闻#

1. Sixty percent of U.S. consumers say ‘AI’ in brand messaging is a turnoff, survey finds#

2. SpaceX is public: Everything you need to know post-IPO#

3. DOJ claims xAI’s unpermitted gas turbines are a matter of ‘national, economic, and energy security’#

4. Plaud says its software business topped $100M in ARR after shipping over 2M AI notetakers#

5. Robinhood’s note on 10% layoffs shows blaming AI isn’t cutting it#

AI 每日资讯 — 2026-06-17

🔥 HuggingFace 每日论文

1. Geometric Action Model for Robot Policy Learning

2. BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

3. Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

4. TokenPilot: Cache-Efficient Context Management for LLM Agents

5. Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

6. ExpRL: Exploratory RL for LLM Mid-Training

7. T-Rex: Tactile-Reactive Dexterous Manipulation

8. Human Universal Grasping

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. A Definition of Good Explanations and the Challenges Explaining LLM Outputs

2. Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

3. Relational Structural Causal Models

📄 arXiv: cs.CL

1. PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

2. Evaluating the Robustness of Proof Autoformalization in Lean 4

3. Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

📄 arXiv: cs.LG

1. QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

2. GRAPE: Guided Parameter-Space Evolution for Compact Adversarial Robustness

3. {\alpha}-Fair Insurance Pricing: A Fairness Continuum

📄 arXiv: cs.CV

1. RAMS: Resource-Adaptive and Detection-Conditioned Model Switching for Embedded Edge Perception

2. AI for Maritime Security: Comparative Evaluation of CNN and Vision Transformer Architectures for Maritime Object Detection

3. Disagreement-Based Cross-Model Routing for Implicit Video Question Answering

📝 AI 官方博客

1. We’re strengthening our presence in Alabama through new investments and community support.

2. Our new community investments in Virginia support local jobs and expand energy affordability.

3. The latest AI news we announced in May 2026

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

📬 TLDR AI 精选

1. one daily email

📰 TechCrunch AI 新闻

1. Sixty percent of U.S. consumers say ‘AI’ in brand messaging is a turnoff, survey finds

2. SpaceX is public: Everything you need to know post-IPO

3. DOJ claims xAI’s unpermitted gas turbines are a matter of ‘national, economic, and energy security’

4. Plaud says its software business topped $100M in ARR after shipping over 2M AI notetakers

5. Robinhood’s note on 10% layoffs shows blaming AI isn’t cutting it