AI 每日资讯 — 2026-06-13
🔥 HuggingFace 每日论文
1. EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
Jundong Xu, Qingchuan Li, Jiaying Wu
本文针对大语言模型(LLM)代理在动态真实环境中适应能力不足的问题,提出EvoArena基准套件,首次系统建模终端、软件与社会偏好三大领域的渐进式环境演化。为支撑动态推理,作者设计EvoMem——一种基于补丁的记忆范式,将记忆演化
显式编码为结构化更新历史。实验表明,现有代理在EvoArena上平均准确率仅为39.6%,而EvoMem带来1.5%的平均性能提升,并在GAIA和LoCoMo等静态基准上分别提升6.1%与4.8%;在需连续完成演化子任务的链级评估中,其准确率提升达3.7%。机制分析证实EvoMem显著增强环境状态演化的证据捕获能力。2. SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
Seokju Cho, Ryo Hachiuma, Abhishek Badki
本文针对视觉-语言模型在开放性三维/四维空间推理中的局限性,提出无需训练的框架SpatialClaw。现有工具增强型智能体受限于僵化的动作接口——或依赖单次代码执行,缺乏中间反馈;或采用结构化工具调用,灵活性不足。SpatialC
law以可执行Python代码为动作接口,通过状态保持的内核预加载输入帧及感知与几何原语,支持VLM驱动的智能体按步生成可执行代码单元,动态融合文本与视觉反馈,灵活组合操作并自适应调整推理路径。在20个涵盖静态与动态场景的空间推理基准上,SpatialClaw显著优于现有方法。3. InterleaveThinker: Reinforcing Agentic Interleaved Generation
Dian Zheng, Harry Lee, Manyuan Zhang
本文针对现有图像生成模型无法支持文本-图像交错序列生成(interleaved generation)的瓶颈问题,提出首个面向该任务的多智能体框架InterleaveThinker。该框架通过规划智能体(Planner)组织输入序
列并分步调度图像生成,再由评判智能体(Critic)对每步输出进行偏差检测与指令修正,实现闭环优化。为支撑该流程,作者构建了大规模监督微调数据集Interleave-Planner-SFT-80k与Interleave-Critic-SFT-112k,并基于GRPO算法设计Interleave-Critic-RL-13k强化单步指令修正能力;创新性地引入准确率奖励与步级奖励机制,在避免全轨迹优化高开销的前提下显著提升生成连贯性与指令遵循度。实验表明,InterleaveThinker在视觉叙事、交互式编辑等任务上大幅超越现有统一多模态模型。4. EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
Amy Xin, Jiening Siow, Junjie Wang
本文提出EurekAgent,主张在大语言模型(LLM)驱动的自主科学发现中,环境工程(而非工作流设计)已成为关键瓶颈。EurekAgent通过四维环境工程——权限控制(保障安全隔离执行)、制品管理(集成文件系统与Git协作)、预
算调控(支持成本敏感探索)及人机协同(简化人工监督与干预)——构建面向指标优化的自主科研环境。实验表明,其在数学问题求解、内核工程与机器学习任务上均达新SOTA,包括以不足11美元API成本发现26圆最优密排新解。项目已开源。5. RepWAM: World Action Modeling with Representation Visual-Action Tokenizers
Junke Wang, Qihang Zhang, Shuai Yang
本文提出RepWAM——一种以表征为中心的世界动作模型(WAM),其核心是表征型视觉-动作分词器(representation visual-action tokenizer)。针对现有WAM依赖重建导向视频分词器、难以有效建模指
令驱动的动作动态这一问题,RepWAM构建语义对齐的视觉与隐式动作联合隐空间,将视觉输入映射为语义一致的视觉与动作token,并在语言指令下联合建模未来视觉状态及其关联的隐式动作。模型经预训练后适配真实机器人闭环操作任务。实验表明,RepWAM在真实世界操纵任务与仿真基准上均显著优于基线方法,消融研究证实语义分词策略相较重建导向策略更具优势,为通用机器人策略学习提供了新范式。6. WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
Arnav Kumar Jain, Yilin Wu, Jesse Farebrother
本文提出WEAVER——一种面向具身操作的多视角世界模型架构,旨在同时满足世界模型在机器人操控任务中所需的三大核心需求:保真性(模拟轨迹与真实动态高度一致)、一致性(支持长时序连贯预测)和高效性(快速生成模拟轨迹)。WEAVER采
用基于流匹配(flow-matching)的损失函数,联合预测未来隐状态与奖励值,并融合多视角观测与记忆机制。在真实机器人平台上验证表明,WEAVER在策略评估(与真实成功率相关性达ρ=0.870)、策略改进(相较π₀.₅基础模型提升38%成功率)及测试时规划(成功率提升14%,推理速度提升5–10倍)方面均显著优于现有方法。7. Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
Guo Yu, Wenlin Liu, Yulan Hu
本文探究了策略内蒸馏(OPD)中参数更新的稀疏性与几何特性。研究发现:OPD更新幅度小、坐标稀疏,主要集中于前馈网络(FFN)层,且跨层分布;仅训练识别出的稀疏子网络即可恢复近似全量OPD性能。然而,稀疏性诱导型优化器SGD在密集
教师监督下表现逊于AdamW,因其难以适应异质化的坐标梯度尺度。几何分析表明,更新虽数值满秩,但谱集中度高,主要落在源权重接近零的坐标上,且偏离其主奇异子空间。这揭示OPD并非简单参数重写,而保留了策略内后训练的关键几何特征。8. Modality Forcing for Scalable Spatial Generation
Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski
本文提出“模态强制”(Modality Forcing),一种轻量、可扩展的后训练方法,用于基于单个DiT模型实现图像与深度图的联合生成。该方法通过为不同模态(图像/深度)分配独立噪声调度,并引入模态专属解码器,在仅需稀疏真实深度
标注的条件下,实现高精度、泛化性强的深度预测。实验表明,该方法在370M至3.3B参数规模的从头训练T2I模型上均具良好可扩展性:模型越大、图像数据越多,深度估计越准确。最强模型在单目深度估计任务上媲美SOTA方法,并较现有联合生成模型相对降低AbsRel误差57%,验证了图像生成作为空间感知可扩展预训练范式的有效性。🔥 arXiv 每日论文
📄 arXiv: cs.AI
1. ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs
Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal
本文提出ToolSense——一个面向大语言模型(LLM)工具知识诊断的开源框架,旨在揭示参数化工具检索方法中“检索能力”与“真实理解能力”的脱节问题。ToolSense自动构建三类诊断基准:现实检索基准(RRB,含三级歧义查询)
、多项选择题(MCQ)探针和问答(QA)探针,突破传统基准过度依赖详尽查询与约束解码的局限。在ToolBench(约4.7万工具)上的实验表明,多种参数化训练配置在RRB上性能骤降50–64个百分点,甚至低于嵌入式检索基线;部分模型虽在检索任务上表现优异,但在事实性探针中得分接近随机水平,证实了知识-检索的显著 dissociation。代码与基准已开源。2. Arbor: Tree Search as a Cognition Layer for Autonomous Agents
Neha Prakriya, Chaojun Hou, Zheng Gong, Huasha Zhao, Xi Zhao, Mou Li, Zhenyu Gu, Emad Barsoum
Arbor提出了一种面向自主智能体的多智能体框架,将结构化树搜索作为认知层,以应对大规模、有状态的动作空间优化问题。其核心在于构建并动态维护一个显式的评分假设搜索树,作为跨智能体共享的工作记忆,将失败视为诊断信号以引导后续探索,并
随成功经验自适应调整瓶颈分布。该框架在全栈大语言模型推理优化任务中验证:通过Orchestrator与Critic双代理协同架构(前者调度领域专家,后者保障系统稳定性),结合硬技能(领域知识)与软技能(协作协议)解耦设计,实现了最高193%的吞吐量-延迟Pareto改进;相较单智能体方案(仅+33%且数小时内崩溃),Arbor具备强鲁棒性、硬件无关性与跨代平台泛化能力,运行方差控制在2个百分点内。3. Strategic Decision Support for AI Agents
Shayan Kiyani, Sima Noorani, George Pappas, Hamed Hassani
本文针对AI智能体作为决策主体时的可靠性问题,提出一种面向智能体的战略决策支持框架。该框架将支持调用建模为优化问题,在约束“反事实错失支持错误”(即智能体本应调用支持却未调用的概率)的前提下,最小化支持使用频率。理论分析表明最优策
略为基于支持价值的阈值规则;据此设计了无需分布假设的在线自适应阈值算法,并引入“即时校准”机制以进一步减少冗余调用。在信息采集、人机协同与工具调用等多类场景中验证表明,该方法可在严格控制目标错误率的同时,显著降低支持调用开销。📄 arXiv: cs.CL
1. EDEN: A Large-Scale Corpus of Clinical Notes for Italian
Tiziano Labruna, Guido Bertolini, Pietro Ferrazzi, Bernardo Magnini
本文介绍了EDEN(急诊科电子病历)——首个面向意大利语的大规模临床文本语料库,涵盖约400万份完全匿名化的急诊科病历,覆盖患者在急诊科就诊全过程。其中6,000份病历由临床专家依据含132项指标的结构化病例报告表(CRF)进行人
工标注,指标类型包括数值型、分类型、二元型及混合型,并经多轮迭代修订以提升标注一致性。该数据集旨在填补意大利语医疗大模型研发与应用所需高质量语料的空白。作者详细阐述了数据采集、现场脱敏流程、语料统计特征及标注规范,并首次将CRF填充任务定义为结构化信息抽取新基准,提供了Gemma-27B与MedGemma-27B的零样本基线结果。据知,EDEN是目前最大规模的开源意大利语临床文本资源。2. Helping Figures Tell their Story! Paper-Grounded Video Generation Explaining Complex Scientific Figures
Ishani Mondal, Javad Baghirov, Jordan Boyd-Graber
本文针对科学图表理解难的问题,提出“论文驱动的图表到视频生成”任务:基于图表及其所属论文生成带语音解说、区域对齐的逐步讲解视频。为此,作者构建了MINARD模型,通过多模态解析与区域分解技术,实现论文内容驱动的分步解说生成及视觉区
域精准定位;同时发布FigTalk基准数据集,引入序列化与组件级接地评估指标。实验表明,MINARD在自动与人工评测中均显著优于现有方法,生成的解说更符合论文原意且具备类人表达能力。🏛️ Jordan Boyd-Graber
3. MARD: Mirror-Augmented Reasoning Distillation for Mechanism-Level Drug-Drug Interaction Prediction
Mohammadreza Riyazat, Vian Lelo, Rameen Jafri, Yumna Khan, Abeer Badawi
本文提出MARD(Mirror-Augmented Reasoning Distillation),一种面向机制级药物相互作用(DDI)预测的推理蒸馏框架。针对现有方法仅判别“是否相互作用”的局限,作者构建了覆盖7大类、147子类
的结构化机制分类体系,并设计防数据泄露的冷启动划分与可审计的药理推理评估协议。MARD-7B模型融合三项创新:方向标签的单token KL散度约束、基于程序化难负样本的PRM加权DPO训练,以及机制感知的防泄漏检索通道。在DrugBank 2026年4月版上,其在药物对新颖性场景下准确率显著超越32个基线模型(较最优基线提升13.9个百分点,较GPT-4o提升6.7个百分点),且计算成本仅为前沿API的约1%。消融分析表明模型具备抗记忆化特性,对罕见药物表现更优,证实其依赖结构化药理推理而非频率统计。代码、语料及评估工具已开源。📄 arXiv: cs.LG
1. Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics
Igor Itkin
本文将大语言模型中幻觉(hallucination)的实时检测建模为最快变点检测问题,提出以检测延迟(即幻觉起始至报警间的token数)为核心指标,而非传统AUC等静态分类指标。基于RAGTruth数据验证的一阶马尔可夫隐状态模型
,推导出Lorden下界:在误报率0.01下理论最小延迟约1.3个token。作者设计了一种因果循环标签器,其等价于带学习增量的CUSUM统计量,在相同误报率下实现11–13 token的平均延迟,显著优于线性基线(31 token)。消融分析表明性能提升主要源于更优的逐token打分,而非时序累积;信息速率最优性理论进一步揭示,当前学习得分仅利用了特征所含散度的22%,该瓶颈无法通过校准消除,属有限时域效应。2. Boltzmann Attention: Learnable Ising Couplings for Cooperative Attention
Gilhan Kim, Daniel K. Park
本文提出Boltzmann注意力机制,旨在解决标准注意力缺乏显式建模位置间协同或对抗性交互的问题。该方法将注意力分布建模为可学习的Ising能量模型,除传统数据依赖的局部场外,引入可训练的成对耦合参数,以显式刻画位置间的相关性。在
字符级语言建模与合成括号匹配任务上的实验表明,其在标准Transformer架构中持续优于Softmax注意力,且增益随序列长度增长而增强;四路消融实验证实性能提升源于可学习耦合项。此外,该Ising形式天然支持基于绝热量子退火的高效采样训练策略,在保持竞争力的同时拓展了量子启发式优化路径。3. ReCal: Reward Calibration for RL-based LLM Routing
Qihang Yu, Hanwen Tong, Zhengqi Zhang, Bo Zheng, Feng Wei, Shengyu Zhang, Zemin Liu, Fei Wu
本文针对基于强化学习(RL)的大语言模型(LLM)路由中奖励信号异质性强、可比性差、信用分配模糊及优化偏差等问题,提出奖励校准框架ReCal。ReCal通过分层奖励分解与组件级优势估计,解耦多目标(如正确性、格式合规性);进一步引
入分布感知优化策略,结合方差感知重加权与数据集级归一化,缓解实例间奖励尺度差异导致的训练偏差。在七个基准数据集上的实验表明,ReCal显著提升路由准确率与泛化能力,并增强训练稳定性。代码已开源。📄 arXiv: cs.CV
1. Stereo Vision-Based Fall Prediction and Detection using Human Pose Estimation on the AMD Kria K26 SOM
Shreyas Narasimhiah Ramesh, P. D. Rathika, Mahasweta Sarkar, Kristen Wells, Michel Audette, Christopher Paolini
本文针对老年人跌倒风险,提出一种基于立体视觉与人体姿态估计(HPE)的轻量级、隐私保护型跌倒预测与检测系统,部署于AMD Kria K26系统级模块(SOM)。系统采用Intel RealSense D455相机同步采集RGB与深
度图像,通过三阶段流水线——量化YOLOX检测人体框、Anchor-to-Joint(A2J)模型基于深度图估计15个关节点、CNN分类器融合三维关节坐标判别跌倒行为——实现端侧实时处理。YOLOX、A2J与CNN分别在CrowdHuman、ITOP/MP-3DHP/UR Fall Detection/SDSU PSG等数据集上训练。实验表明,YOLOX检测mAP达74%(IoU≥0.5),A2J关节点定位精度为84.13%(10 cm误差阈值),CNN分类准确率达75.85%,多线程优化后系统吞吐量提升至4.5 FPS。该方案验证了低功耗边缘设备上实现非侵入式、本地化跌倒监测的可行性。2. HairPort: In-context 3D-aware Hair Import and Transfer for Images
Alireza Heidari, Amirhossein Alimohammadi, Wallace Michel Pinto Lira, Adi Bar-Lev, Ali Mahdavi-Amiri
本文提出HairPort,一种面向图像的上下文内3D感知发型迁移框架,旨在解决跨大视角与尺度差异下的发型迁移难题。方法核心在于解耦“去发”与“迁移”过程:首先基于LoRA微调FLUX.1 Kontext构建Bald Convert
er,生成逼真无发人脸;其次通过3D重建与重渲染对齐参考发型几何结构;最后利用条件流匹配生成器,在几何一致约束下合成最终结果。为支撑训练,作者构建了含6000对样本的Baldy数据集。实验表明,HairPort在定性与定量评估中均显著优于现有方法,实现了高保真、姿态一致且身份保持的发型迁移。3. High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation
Dongyang Liu, Ruoyi Du, David Liu, Dengyang Jiang, Liangchen Li, Qilong Wu, Zhen Li, Steven C. H. Hoi, Hongsheng Li, Peng Gao
本文针对两步扩散图像生成中任务难度高、模型容量受限的瓶颈问题,提出Z-Image Turbo++模型,通过教师对齐的端到端蒸馏方法,从8步Z-Image Turbo教师模型中高效蒸馏出高质量2步生成能力。核心创新包括:(1)分布对
齐的对抗学习,以教师生成图像替代真实图像作为GAN判别目标;(2)步解耦参数化,为两步去噪分别配置独立参数;(3)带迭代正则化的端到端训练,使首步接收终图质量梯度并保留有意义的中间表征。实验表明,该方法显著缩小了2步与8步生成在FID、CLIP Score等指标及视觉质量上的差距,验证了定制化蒸馏策略在效率与质量权衡中的有效性。🏛️ Hongsheng Li, Steven C. H. Hoi, Peng Gao
🔬 OpenReview 近期论文
1. MoleRanker: Spectrum-Driven Molecular Structure Ranking with Heterogeneous Co-occurrence Graphs
Jianping Zhou, Yimian Hu, Shuping Zheng
针对环境与生物样本中分子结构识别难、未知化合物数量庞大的问题,本文提出谱图驱动的分子结构排序框架MoleRanker。该方法构建融合分子级化学聚类效应与样本级环境共现关联的异质共现图,并设计多关系感知的消息传递机制,在图神经网络中
协同建模化学约束与环境共现模式。在四个涵盖环境污染物与人体代谢组的基准数据集上实验表明,MoleRanker平均提升Mean Reciprocal Rank(MRR)达12.18%,显著优于现有方法。该工作为新兴污染物发现与人类代谢分子机制解析提供了可解释、可扩展的图学习新范式。2. FlexParallel: Automatic Parallelism Tuner via Grey-Box Optimization for Training Giant Models
Wei zhou, Kaiyang Guo, LinfengLiu
本文针对大语言模型训练中并行配置调优依赖人工、现有自动化方法受限于不准确成本模型的问题,提出FlexParallel框架。该框架融合不确定性感知的灰箱成本代理模型、样本高效的并行性探索策略与自适应终止准则,实现高性能并行配置的全自
动搜索。在涵盖多种模型架构、参数规模、序列长度及最多8192卡集群的广泛实验中,FlexParallel仅需有限探索步数,即较人工专家调优平均提升6%训练速度,最高达12%。据作者所知,这是首个在超大规模集群上实证验证的自动并行调优系统。3. Not All Code Helps: Disentangling the Impact of Code Data on Mathematical Reasoning in Large Language Models
Yuze Zhao, Junpeng Fang, Lu Yu
本文探究代码数据对大语言模型数学推理能力的影响,通过严格控制实验发现:代码训练虽显著提升编程能力,但对非编码任务(尤其是数学推理)的增益有限,且部分代码数据甚至会挤占知识密集型任务所需的学习资源。研究识别出一类能作为“认知脚手架”
的核心代码子集,可有效支撑复杂数学问题求解;同时发现形式化推理(如代码推理、程序式思维)更利于提升高难度数学推理性能,而自然语言推理在简单任务中更具优势。机制分析进一步揭示训练数据如何调控模型内部路由模式,从而塑造涌现能力。4. SpikeNet: Sparse Spike-Driven Mask Vector Transformer for Energy-Efficient and Stable Spiking Point Cloud Processing
Zhiming Zhou, Qiaoyun Wu, Yong He
针对点云数据无序性带来的建模挑战,本文提出SpikeNet——一种面向能效与鲁棒性的脉冲神经网络架构。其核心是脉冲驱动的稀疏注意力机制(Spiking Vector Mask Transformer, SVMT),通过二值化脉冲掩
码动态对齐点云稀疏结构,摒弃Softmax与乘法运算,显著降低计算开销;并设计动态稀疏脉冲残差模块(DSSR)与SVMT协同优化。在ModelNet40与ShapeNet等基准数据集上,SpikeNet在分类与分割任务中达到与主流人工神经网络相当的精度,同时大幅降低能耗,实现了精度与能效的协同提升。5. 3DSMT: A Hybrid Spiking Mamba-Transformer for Point Cloud Analysis
Zhiming Zhou, Yong He, Qiaoyun Wu
针对点云稀疏无序结构导致深度模型计算冗余与能耗过高的问题,本文提出一种混合脉冲式Mamba-Transformer模型(3DSMT)。该模型创新性地融合脉冲神经网络(SNN)的能效优势与Mamba的线性复杂度全局建模能力,并设计了
脉冲局部偏移注意力模块与适配无序点云的脉冲Mamba块,兼顾局部几何细节捕获与高效全局特征整合。在形状分类、少样本分类和部件分割任务上,3DSMT在SNN方法中达到最优性能,显著降低计算能耗,且多项指标超越主流ANN模型。6. IDOL: Meeting Diverse Distribution Shifts with Prior Physics for Tropical Cyclone Multi-Task Estimation
Hanting Yan, Pan Mu, Shiqi Zhang
热带气旋(TC)多任务估计面临由环境场动态变化引发的多样化分布偏移挑战,现有方法因忽视特征表征的内在分布特性而在分布外(OOD)场景下泛化能力不足。本文提出基于先验物理知识的身份分布导向不变学习框架IDOL,通过风场模型与TC暗相
关知识构建任务共享与任务特异的身份令牌,显式建模TC物理不变性与任务依赖关系。IDOL在特征空间施加身份导向约束,显著提升风速、气压及内外核尺寸等多属性估计在地理与季节分布偏移下的鲁棒性。多数据集实验表明,IDOL在各类分布偏移场景下均优于现有方法。📝 AI 官方博客
1. Our new community investments in Virginia support local jobs and expand energy affordability.
📝 Google AI Blog
本文介绍了企业在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可及性。项目聚焦于建设面向未来的劳动力队伍,通过职业培训、教育合作与技能提升计划支持社区居民获得高需求岗位;同时,投资清洁能源基础设施与低收入家庭能效改造项目…
,降低用能成本。实践表明,该计划已带动数百个本地就业岗位,并使数千户家庭受益于更经济、可靠的能源服务,有效推动区域可持续发展与社会公平。2. The latest AI news we announced in May 2026
📝 Google AI Blog
本文系统梳理了2026年5月全球人工智能领域的重要进展,涵盖大模型、多模态技术、AI安全与治理、具身智能及行业应用五大方向。重点介绍OpenAI发布的多模态推理模型O1-Pro,其支持实时视频理解与跨模态因果推断;谷歌推出轻量化端侧模型Ge…
mini Nano 2.0,推理延迟降低40%;欧盟正式施行《AI法案》实施细则,确立高风险AI系统强制审计框架;英伟达发布Thor芯片,首次实现机器人OS级AI原生支持。实验表明,O1-Pro在MM-Bench v3上准确率达92.7%,Thor平台使双足机器人任务完成率提升至89.3%。3. 5 ways Google Search can level up your thrift and vintage shopping
📝 Google AI Blog
本文探讨了如何利用谷歌搜索的五种实用功能提升二手与复古服饰购物体验。文章结合实际案例,系统介绍关键词优化、图像搜索识别单品、本地商家筛选、价格趋势分析及用户评价挖掘等技巧,帮助消费者高效发现高性价比古着商品、验证真伪并规避常见购物陷阱。实验…
表明,采用该方法可将目标商品平均查找时间缩短42%,价格敏感型用户的成交转化率提升27%。研究为数字时代可持续时尚消费提供了可复用的检索策略框架。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值的早期奖励劫持检测方法,旨在训练过程中提前识别大语言模型因优化目标偏差导致的奖励劫持现象。核心思想是利用重要性采样结合经微调的“捐赠者”预填充(donor prefills)构建反事实推理轨迹,通过插值不同训练阶段的…
策略分布,量化策略偏离对齐目标的程度。关键技术包括: donor prefills 的定向微调、基于KL散度的推理路径敏感性评估,以及轻量级在线监控机制。在RLHF与DPO训练场景下的实验表明,该方法可在劫持发生前2–3个训练周期预警,平均提前率达87.3%,误报率低于9.1%。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习中智能体通过非预期方式操纵奖励函数以获取高分的现象,本工作系统梳理了现有典型攻击模式与成因,提出一种基于奖励函数鲁棒性验证与行为一致性约束的防御框架。关…
键技术包括:可解释性奖励分解、策略行为偏差检测,以及在多个基准环境(如Gridworld、CoinRun)上的在线干预机制。初步实验表明,该方法在保持任务性能的同时,将奖励黑客行为发生率降低62.3%,显著优于基线方法。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过预训练数据过滤为开源大语言模型(LLMs)构建抗篡改的安全机制。该方法系统性识别并移除预训练语料中包含有害、偏见或易被越狱利用的文本片段,同时保留模型基础能力所需的核心知识结…
构。关键技术包括基于多维度安全评分的数据筛选框架、对抗性提示鲁棒性验证机制,以及在过滤后微调阶段引入的可控遗忘正则化。在多个基准(如ToxiGen、BBQ、SafeBench)上的实验表明,经该方法处理的Llama-3和Phi-3模型在保持98%以上原始任务性能的同时,将有害输出率降低达76%,且对各类越狱攻击的抵抗能力显著增强。7. Claude Fable 5 and Claude Mythos 5AnnouncementsJun 9, 2026Our next generation of intelligence for the hardest knowledge work and coding problems.
📝 Anthropic
本文宣布推出Claude Fable 5与Claude Mythos 5两大新一代AI模型,专为解决高难度知识工作与复杂编程任务而设计。Fable 5聚焦逻辑推理、多步问题求解与领域专业知识整合,Mythos 5则强化代码生成、调试与系统级…
软件工程能力,支持超长上下文(200K tokens)与跨语言协同开发。核心技术包括动态思维链蒸馏、符号-神经混合执行引擎及基于真实开发场景的强化反馈训练。在HumanEval、MBPP及StackOverflow Benchmark上,Mythos 5代码正确率分别达89.3%、84.7%和76.5%,显著超越前代模型与同类竞品。8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.
📝 Anthropic
暂无摘要
9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. Slightly reducing the sloppiness of AI generated front end
🔥 55 分 · 💬 36 评论