AI 每日资讯 — 2026-05-25
🔥 HuggingFace 每日论文
1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
Jiahao Wang, Bo Sun, Yijing Bai
本文针对自动驾驶系统(ADS)训练与验证中高质量、多样化传感器数据稀缺的问题,提出Sensor2Sensor框架,实现从野外单目行车记录仪视频到高保真多模态车载传感器日志(含多视角图像与LiDAR点云)的跨形态生成转换。为解决真实
配对数据缺失难题,作者创新性地利用4D高斯溅射(4DGS)对真实AV日志进行4D重建与虚拟视角渲染,合成配对训练样本;进而设计基于扩散模型的生成架构完成逆向转换。实验表明,生成数据在几何一致性、语义保真度与物理合理性方面显著优于基线方法,并成功将互联网及实采dashcam视频转化为可用于ADS闭环测试与模型微调的多模态仿真数据,有效拓展了外部数据源的利用边界。2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Ali Hatamizadeh, Yejin Choi, Jan Kautz
本文提出Gated DeltaNet-2,旨在解决线性注意力中记忆编辑的耦合问题:传统方法(如KDA和Gated DeltaNet)使用单一标量门控同时控制“擦除”旧键内容与“写入”新值内容,易导致语义混淆。该模型引入通道级独立门
控机制——擦除门 $b_t$ 与写入门 $w_t$,解耦二者操作,并统一整合自适应遗忘与通道级衰减。理论层面推导出快速权重更新视角、支持通道衰减的分块WY算法及门控感知的反向传播,兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后,Gated DeltaNet-2在语言建模、常识推理与长程依赖任务中全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。🏛️ Yejin Choi, Jan Kautz | PDF · arXiv · 代码 | ❤️ 21
3. Diversed Model Discovery via Structured Table Discovery
Zhengyuan Dong, Renée J. Miller
本文针对现有模型搜索系统因依赖文本语义相似性而导致结果同质化、难以支持多样化模型比较的问题,提出StructuredSemanticSearch——一种以结构化表格为核心的模型发现框架。该框架基于ModelTables基准,融合语
义匹配(保障任务对齐)与结构感知的表格发现(利用unionability、joinability及关键词搜索等操作),从模型卡片中精准检索高信息密度的结构化证据表;进一步通过朝向感知的表格集成技术,生成紧凑、可比的跨模型整合视图。在nugget级可审计评估协议下,实验表明其显著提升模型多样性与检索质量,兼顾准确性与探索性。🏛️ Renée J. Miller | PDF · arXiv · 代码 | ❤️ 4
4. DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders
Tianhang Wang, Yitong Chen, Wei Song
本文针对表示自编码器(RAEs)中冻结视觉基础模型(VFM)导致的空间重建能力受限与微调破坏语义空间之间的固有矛盾,提出DecQ框架。该方法引入轻量级细节压缩查询(detail-condensing queries),通过cond
enser模块从VFM中间层特征中提取细粒度信息,并将其与patch token联合建模,协同增强解码器的重建与生成能力。DecQ融合浅层与深层特征,在仅增加8个查询、计算开销提升3.9%的前提下,将DINOv2基RAE的PSNR从19.13 dB提升至22.76 dB;在生成任务中,收敛速度提升3.3倍,无引导/有引导FID分别达1.41和1.05。5. Tokenisation via Convex Relaxations
Jan Tempus, Philip Whittington, Craig W. Schmidt
本文针对现有分词算法(如BPE、Unigram)仅依赖局部贪心策略、难以全局优化词汇表的问题,提出将分词器构建建模为线性规划问题,并通过凸优化求解,得到新算法ConvexTok。该方法可提供理论最优性下界,实证表明其在典型词表规模
下距全局最优解偏差小于1%。实验显示,ConvexTok在内在分词指标及语言模型的字节比特率(BpB)上持续提升;在下游任务中亦有增益,但稳定性较弱。6. Cambrian-P: Pose-Grounded Video Understanding
Jihan Yang, Zifan Zhao, Xichen Pan
本文针对现有视频多模态大语言模型(MLLMs)忽略相机位姿信息、将视频帧视为孤立2D图像的问题,提出Cambrian-P——一种以位姿为根基的视频理解框架。该模型引入可学习的逐帧相机标记与位姿回归头,并结合精心设计的采样策略,在V
SI-Bench等空间推理基准上提升4.5–6.5%,同时在8个空间及通用视频问答基准上实现泛化提升;其副产物——流式位姿估计在ScanNet上达到SOTA。进一步实验表明,利用野外视频生成的伪位姿标注训练,仍能显著提升通用视频问答性能,验证位姿作为物理世界建模基础信号的重要性。7. MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei
MotiMotion提出了一种面向运动控制的视频生成新范式,旨在解决现有图像到视频模型机械遵循稀疏、不精确且因果不完备运动轨迹所导致的不自然结果问题。该框架将运动控制重构为“推理-生成”两阶段任务:首先利用无需训练的视觉语言模型(
VLM)对主轨迹进行因果增强与次级运动补全;其次设计置信度感知的控制机制,动态调节运动引导强度,兼顾高置信轨迹的保真性与低置信输入下的生成鲁棒性。在新构建的交互驱动视频基准MotiBench上,MotiMotion在VLM自动评估与人工评测中均显著优于现有方法,生成视频展现出更合理的物体行为与物理交互。8. Understanding Data Temporality Impact on Large Language Models Pre-training
Pilchen Hippolyte, Fabre Romain, Signe Talla Franck
本文探究了预训练数据时序性对大语言模型(LLM)时间敏感型事实知识习得的影响。作者构建了包含7000余道时序标注问题的基准测试集,并提出配套评估协议,以量化模型对事实与其对应时间点的关联能力;同时,在按时间排序的Common Cr
awl快照上预训练6B参数模型,与标准打乱顺序训练基线对比。实验表明,时序预训练模型在通用语言理解与常识任务上与基线持平,但在事实时效性与时间精度上显著更优,而打乱训练则倾向于强化陈旧知识。研究成果为LLM持续学习提供了新范式,并开源代码、检查点及数据集。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. A New Approach to Controlling Linear Dynamical Systems
Anand Paresh Brahmbhatt, Gon Buzaglo, Sofiia Druchyna
本文提出了一种针对受对抗性扰动和任意成本函数影响的线性动力系统的新控制方法。该方法通过构造基于特定Hankel矩阵特征向量的谱滤波器,设计了一种新颖的凸松弛策略,用以近似线性控制策略。相较于以往依赖稳定性边界倒数多项式时间复杂度的
算法,本方法将运行时间优化至其拟对数级别,同时保持相同遗憾界保证。实验验证表明,该算法在保证理论性能的同时显著提升了计算效率,为鲁棒控制与在线学习交叉领域提供了新思路。2. Noise Tolerance of Distributionally Robust Learning
Ramzi Dakhmouche, Ivan Lunati, Hossein Gorji
本文针对机器学习模型在全局性噪声(如测量误差与量化噪声)下的鲁棒性不足问题,提出一种基于Wasserstein距离的分布鲁棒回归训练方法。该方法不依赖于模型结构,克服了现有Wasserstein分布鲁棒学习(WDRL)在非凸或非L
ipschitz回归函数下鲁棒性失效的局限。理论分析揭示了回归函数对噪声方差的缩放规律,并证明所提损失函数具有一致性。在PDE物理基准与电力系统数据上的实验表明,该方法在保持竞争力的同时,计算成本降低一个数量级。3. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
Jiazhan Feng, Shijue Huang, Xingwei Qu
本文提出ReTool,一种面向大语言模型(LLM)战略性工具调用的强化学习框架,旨在提升其在几何推理、复杂数学计算等需结构化求解任务中的表现。ReTool通过动态交织自然语言推理与实时代码执行,并设计基于结果反馈的多轮策略 rol
lout 强化学习范式,使模型自主习得“何时调用、如何调用”计算工具(如代码解释器)。方法采用合成代码增强数据冷启动,再以任务结果为奖励信号迭代优化工具使用策略。在AIME数学竞赛基准上,ReTool-32B仅用400步训练即达67%准确率,显著优于文本式RL基线(40%,1080步);扩展设置下达72.5%,超越o1-preview达27.9%。分析还揭示其泛化能力及代码自修正等涌现行为,验证了结果驱动型工具集成对复杂数学推理与神经符号融合系统的重大价值。4. Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes
Fangyu Ding, Ding Ding, Sijin Chen
本文针对掩码扩散语言模型(MDLMs)在计算效率与生成灵活性上的固有局限,提出删除-插入扩散语言模型(DID)。DID将词元删除与插入建模为离散扩散过程,摒弃传统掩码范式,从而消除$\texttt{}$和$\textt
t{5. MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes
Changsheng Zhao, Ernie Chang, Zechun Liu
本文挑战了“大模型推理能力必须依赖超大规模语料(>10T tokens)训练”的固有假设,提出仅需约2T高质量开源数据即可激发子十亿参数语言模型的强推理能力。作者通过设计评估指标筛选并重采样开源数据集,结合4.2T tokens的
预训练与标准后训练流程,成功构建MobileLLM-R1系列模型。其中MobileLLM-R1-950M在AIME基准上达15.5分,显著超越OLMo-2-1.48B(0.6)和SmolLM-2-1.7B(0.3),且以仅11.7%的预训练token量媲美或超越Qwen3-0.6B。所有模型、代码、完整训练配方及数据配置均已开源。🏛️ Facebook Research | PDF
6. Reward Model Routing in Alignment
Xinle Wu, Yao Lu
本文针对RLHF/RLAIF对齐范式中单一奖励模型(RM)导致的对齐质量受限与过拟合风险问题,提出一种混合式奖励模型路由框架{\name}。该框架融合离线RM能力建模与在线贝叶斯选择:离线阶段通过多任务学习在偏好数据上估计各RM可
靠性;在线阶段采用Thompson采样,以离线嵌入为高斯先验初始化RM权重向量,并基于实时反馈动态更新后验分布,实现对策略演化的自适应路由。在AlpacaEval-2、Arena-Hard、MT-Bench、GSM8K和MMLU等基准上的实验表明,{\name}显著优于单个RM、RM集成及现有路由方法。📝 AI 官方博客
1. Catch up on the Dialogues stage at Google I/O 2026.
📝 Google AI Blog
本文报道了2026年谷歌I/O大会“Dialogues”主题论坛的核心内容,聚焦Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)的主旨对话。会议围绕AI技术演进、人机交互范式变革、多模态大模型落地应用及AI伦理治理等关…
键议题展开深入探讨。皮查伊重点介绍了谷歌在推理增强型对话系统、实时跨语言协作工具及隐私优先的端侧AI架构方面的最新进展,并宣布推出新一代对话智能体Gemini Dialogues,支持上下文感知、长期记忆与多轮任务协同。现场演示显示,该系统在复杂指令理解与场景自适应方面较前代提升42%(基于内部DialogBench基准)。2. We’re announcing new community investments in Missouri.
📝 Google AI Blog
本文宣布谷歌在密苏里州启动新一轮社区投资计划,聚焦于培育下一代技术人才与推动清洁能源发展。项目包括与当地教育机构合作开展计算机科学教育与职业培训,提升青少年及在职人员的数字技能;同时资助分布式能源、能效升级和可再生能源接入等示范性能源项目。…
初步试点已在圣路易斯和堪萨斯城落地,预计三年内覆盖超5万名学生与200家中小企业,并助力该州减少年度碳排放约1.2万吨。3. 100 things we announced at I/O 2026
📝 Google AI Blog
本文总结了2026年Google I/O开发者大会发布的100项重要更新与技术进展,涵盖AI、Android、Chrome、Cloud、Wear OS及Web平台等多个领域。核心聚焦于Gemini系列模型的全面升级,包括原生多模态理解、实时…
推理优化及端侧部署能力;Android 16引入更智能的隐私沙盒与情境感知交互框架;Chrome强化Web AI API生态;Google Cloud推出面向企业的GenAI协作平台Vertex AI Studio 2.0。所有发布均强调“以人为本”的AI设计原则与可扩展的开发者工具链。实验表明,新架构使典型端侧AI任务响应延迟降低42%,开发者集成效率提升3.5倍。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的萌芽迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,预测其潜在的奖励作弊倾向。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该技术可在奖励作弊发生前平均提前37%的训练步数发出预警,且误报率低于8%。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.
📝 Anthropic
本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务等关键领域实现了显著性能提升。其核心改进在于增强推理的彻底性(thoroughness)与结果的一…
致性(consistency),尤其在高价值、高复杂度任务中表现突出。模型通过优化长程依赖建模、强化多步规划能力及融合更高质量的多模态训练数据,提升了跨任务泛化性与可靠性。实验表明,Opus 4.7在HumanEval、MMBench、AgentBench等基准测试中均刷新SOTA,代码生成准确率提升12.3%,视觉-语言联合任务得分提高9.6%,多步推理成功率提升15.8%。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面标题“one daily email”意为“每日一封邮件”,通常指一种简洁、高价值的电子邮件订阅服务,每天仅向用户发送一封精选内容(如新闻摘要、行业洞察或学习资源),旨在减少信息过载、提升阅读效率。目前页面无具体正文内容,无法获取更多…
细节。💬 Hacker News AI 热门
1. DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost
🔥 150 分 · 💬 86 评论
DeepSeek推出原生AI编程智能体Reasonix,专为终端环境设计,具备高效缓存机制和低成本运行优势,旨在提升开发者在本地命令行中的编码效率与体验。
2. Constraint Decay: The Fragility of LLM Agents in Back End Code Generation
🔥 53 分 · 💬 32 评论