AI 每日资讯 — 2026-05-25

🔥 HuggingFace 每日论文


1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

Jiahao Wang, Bo Sun, Yijing Bai

本文针对自动驾驶系统(ADS)训练与验证中高质量、多样化传感器数据稀缺的问题,提出Sensor2Sensor框架,实现从野外单目行车记录仪视频到高保真多模态车载传感器日志(含多视角图像与LiDAR点云)的跨形态生成转换。为解决真实配对数据缺失难题,作者创新性地利用4D高斯溅射(4DGS)对真实AV日志进行4D重建与虚拟视角渲染,合成配对训练样本;进而设计基于扩散模型的生成架构完成逆向转换。实验表明,生成数据在几何一致性、语义保真度与物理合理性方面显著优于基线方法,并成功将互联网及实采dashcam视频转化为可用于ADS闭环测试与模型微调的多模态仿真数据,有效拓展了外部数据源的利用边界。

PDF · arXiv | ❤️ 24


2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

Ali Hatamizadeh, Yejin Choi, Jan Kautz

本文提出Gated DeltaNet-2,旨在解决线性注意力中记忆编辑的耦合问题:传统方法(如KDA和Gated DeltaNet)使用单一标量门控同时控制“擦除”旧键内容与“写入”新值内容,易导致语义混淆。该模型引入通道级独立门控机制——擦除门 $b_t$ 与写入门 $w_t$,解耦二者操作,并统一整合自适应遗忘与通道级衰减。理论层面推导出快速权重更新视角、支持通道衰减的分块WY算法及门控感知的反向传播,兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后,Gated DeltaNet-2在语言建模、常识推理与长程依赖任务中全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。

🏛️ Yejin Choi, Jan Kautz | PDF · arXiv · 代码 | ❤️ 21


3. Diversed Model Discovery via Structured Table Discovery

Zhengyuan Dong, Renée J. Miller

本文针对现有模型搜索系统因依赖文本语义相似性而导致结果同质化、难以支持多样化模型比较的问题,提出StructuredSemanticSearch——一种以结构化表格为核心的模型发现框架。该框架基于ModelTables基准,融合语义匹配(保障任务对齐)与结构感知的表格发现(利用unionability、joinability及关键词搜索等操作),从模型卡片中精准检索高信息密度的结构化证据表;进一步通过朝向感知的表格集成技术,生成紧凑、可比的跨模型整合视图。在nugget级可审计评估协议下,实验表明其显著提升模型多样性与检索质量,兼顾准确性与探索性。

🏛️ Renée J. Miller | PDF · arXiv · 代码 | ❤️ 4


4. DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

Tianhang Wang, Yitong Chen, Wei Song

本文针对表示自编码器(RAEs)中冻结视觉基础模型(VFM)导致的空间重建能力受限与微调破坏语义空间之间的固有矛盾,提出DecQ框架。该方法引入轻量级细节压缩查询(detail-condensing queries),通过condenser模块从VFM中间层特征中提取细粒度信息,并将其与patch token联合建模,协同增强解码器的重建与生成能力。DecQ融合浅层与深层特征,在仅增加8个查询、计算开销提升3.9%的前提下,将DINOv2基RAE的PSNR从19.13 dB提升至22.76 dB;在生成任务中,收敛速度提升3.3倍,无引导/有引导FID分别达1.41和1.05。

PDF · arXiv · 代码 | ❤️ 2


5. Tokenisation via Convex Relaxations

Jan Tempus, Philip Whittington, Craig W. Schmidt

本文针对现有分词算法(如BPE、Unigram)仅依赖局部贪心策略、难以全局优化词汇表的问题,提出将分词器构建建模为线性规划问题,并通过凸优化求解,得到新算法ConvexTok。该方法可提供理论最优性下界,实证表明其在典型词表规模下距全局最优解偏差小于1%。实验显示,ConvexTok在内在分词指标及语言模型的字节比特率(BpB)上持续提升;在下游任务中亦有增益,但稳定性较弱。

PDF · arXiv | ❤️ 1


6. Cambrian-P: Pose-Grounded Video Understanding

Jihan Yang, Zifan Zhao, Xichen Pan

本文针对现有视频多模态大语言模型(MLLMs)忽略相机位姿信息、将视频帧视为孤立2D图像的问题,提出Cambrian-P——一种以位姿为根基的视频理解框架。该模型引入可学习的逐帧相机标记与位姿回归头,并结合精心设计的采样策略,在VSI-Bench等空间推理基准上提升4.5–6.5%,同时在8个空间及通用视频问答基准上实现泛化提升;其副产物——流式位姿估计在ScanNet上达到SOTA。进一步实验表明,利用野外视频生成的伪位姿标注训练,仍能显著提升通用视频问答性能,验证位姿作为物理世界建模基础信号的重要性。

PDF · arXiv


7. MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei

MotiMotion提出了一种面向运动控制的视频生成新范式,旨在解决现有图像到视频模型机械遵循稀疏、不精确且因果不完备运动轨迹所导致的不自然结果问题。该框架将运动控制重构为“推理-生成”两阶段任务:首先利用无需训练的视觉语言模型(VLM)对主轨迹进行因果增强与次级运动补全;其次设计置信度感知的控制机制,动态调节运动引导强度,兼顾高置信轨迹的保真性与低置信输入下的生成鲁棒性。在新构建的交互驱动视频基准MotiBench上,MotiMotion在VLM自动评估与人工评测中均显著优于现有方法,生成视频展现出更合理的物体行为与物理交互。

PDF · arXiv


8. Understanding Data Temporality Impact on Large Language Models Pre-training

Pilchen Hippolyte, Fabre Romain, Signe Talla Franck

本文探究了预训练数据时序性对大语言模型(LLM)时间敏感型事实知识习得的影响。作者构建了包含7000余道时序标注问题的基准测试集,并提出配套评估协议,以量化模型对事实与其对应时间点的关联能力;同时,在按时间排序的Common Crawl快照上预训练6B参数模型,与标准打乱顺序训练基线对比。实验表明,时序预训练模型在通用语言理解与常识任务上与基线持平,但在事实时效性与时间精度上显著更优,而打乱训练则倾向于强化陈旧知识。研究成果为LLM持续学习提供了新范式,并开源代码、检查点及数据集。

🏛️ Kyutai | PDF · arXiv


🔥 arXiv 每日论文

🔬 OpenReview 近期论文


1. A New Approach to Controlling Linear Dynamical Systems

Anand Paresh Brahmbhatt, Gon Buzaglo, Sofiia Druchyna

本文提出了一种针对受对抗性扰动和任意成本函数影响的线性动力系统的新控制方法。该方法通过构造基于特定Hankel矩阵特征向量的谱滤波器,设计了一种新颖的凸松弛策略,用以近似线性控制策略。相较于以往依赖稳定性边界倒数多项式时间复杂度的算法,本方法将运行时间优化至其拟对数级别,同时保持相同遗憾界保证。实验验证表明,该算法在保证理论性能的同时显著提升了计算效率,为鲁棒控制与在线学习交叉领域提供了新思路。

PDF


2. Noise Tolerance of Distributionally Robust Learning

Ramzi Dakhmouche, Ivan Lunati, Hossein Gorji

本文针对机器学习模型在全局性噪声(如测量误差与量化噪声)下的鲁棒性不足问题,提出一种基于Wasserstein距离的分布鲁棒回归训练方法。该方法不依赖于模型结构,克服了现有Wasserstein分布鲁棒学习(WDRL)在非凸或非Lipschitz回归函数下鲁棒性失效的局限。理论分析揭示了回归函数对噪声方差的缩放规律,并证明所提损失函数具有一致性。在PDE物理基准与电力系统数据上的实验表明,该方法在保持竞争力的同时,计算成本降低一个数量级。

PDF


3. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Jiazhan Feng, Shijue Huang, Xingwei Qu

本文提出ReTool,一种面向大语言模型(LLM)战略性工具调用的强化学习框架,旨在提升其在几何推理、复杂数学计算等需结构化求解任务中的表现。ReTool通过动态交织自然语言推理与实时代码执行,并设计基于结果反馈的多轮策略 rollout 强化学习范式,使模型自主习得“何时调用、如何调用”计算工具(如代码解释器)。方法采用合成代码增强数据冷启动,再以任务结果为奖励信号迭代优化工具使用策略。在AIME数学竞赛基准上,ReTool-32B仅用400步训练即达67%准确率,显著优于文本式RL基线(40%,1080步);扩展设置下达72.5%,超越o1-preview达27.9%。分析还揭示其泛化能力及代码自修正等涌现行为,验证了结果驱动型工具集成对复杂数学推理与神经符号融合系统的重大价值。

PDF


4. Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes

Fangyu Ding, Ding Ding, Sijin Chen

本文针对掩码扩散语言模型(MDLMs)在计算效率与生成灵活性上的固有局限,提出删除-插入扩散语言模型(DID)。DID将词元删除与插入建模为离散扩散过程,摒弃传统掩码范式,从而消除$\texttt{}$和$\texttt{}$两类冗余计算开销。其天然支持变长序列建模,并通过插入操作实现生成过程中的动态位置校正。作者设计基于分数的插入建模方法,推导出含子序列计数的训练目标,并以并行动态规划高效求解。实验表明,DID在固定与变长任务上均显著优于MDLM及现有插入式语言模型,在建模能力、采样质量与训练/推理速度三方面取得全面提升,且无需超参调优。

PDF


5. MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

Changsheng Zhao, Ernie Chang, Zechun Liu

本文挑战了“大模型推理能力必须依赖超大规模语料(>10T tokens)训练”的固有假设,提出仅需约2T高质量开源数据即可激发子十亿参数语言模型的强推理能力。作者通过设计评估指标筛选并重采样开源数据集,结合4.2T tokens的预训练与标准后训练流程,成功构建MobileLLM-R1系列模型。其中MobileLLM-R1-950M在AIME基准上达15.5分,显著超越OLMo-2-1.48B(0.6)和SmolLM-2-1.7B(0.3),且以仅11.7%的预训练token量媲美或超越Qwen3-0.6B。所有模型、代码、完整训练配方及数据配置均已开源。

🏛️ Facebook Research | PDF


6. Reward Model Routing in Alignment

Xinle Wu, Yao Lu

本文针对RLHF/RLAIF对齐范式中单一奖励模型(RM)导致的对齐质量受限与过拟合风险问题,提出一种混合式奖励模型路由框架{\name}。该框架融合离线RM能力建模与在线贝叶斯选择:离线阶段通过多任务学习在偏好数据上估计各RM可靠性;在线阶段采用Thompson采样,以离线嵌入为高斯先验初始化RM权重向量,并基于实时反馈动态更新后验分布,实现对策略演化的自适应路由。在AlpacaEval-2、Arena-Hard、MT-Bench、GSM8K和MMLU等基准上的实验表明,{\name}显著优于单个RM、RM集成及现有路由方法。

PDF


📝 AI 官方博客


1. Catch up on the Dialogues stage at Google I/O 2026.

📝 Google AI Blog

本文报道了2026年谷歌I/O大会“Dialogues”主题论坛的核心内容,聚焦Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)的主旨对话。会议围绕AI技术演进、人机交互范式变革、多模态大模型落地应用及AI伦理治理等关…键议题展开深入探讨。皮查伊重点介绍了谷歌在推理增强型对话系统、实时跨语言协作工具及隐私优先的端侧AI架构方面的最新进展,并宣布推出新一代对话智能体Gemini Dialogues,支持上下文感知、长期记忆与多轮任务协同。现场演示显示,该系统在复杂指令理解与场景自适应方面较前代提升42%(基于内部DialogBench基准)。

2. We’re announcing new community investments in Missouri.

📝 Google AI Blog

本文宣布谷歌在密苏里州启动新一轮社区投资计划,聚焦于培育下一代技术人才与推动清洁能源发展。项目包括与当地教育机构合作开展计算机科学教育与职业培训,提升青少年及在职人员的数字技能;同时资助分布式能源、能效升级和可再生能源接入等示范性能源项目。…初步试点已在圣路易斯和堪萨斯城落地,预计三年内覆盖超5万名学生与200家中小企业,并助力该州减少年度碳排放约1.2万吨。

3. 100 things we announced at I/O 2026

📝 Google AI Blog

本文总结了2026年Google I/O开发者大会发布的100项重要更新与技术进展,涵盖AI、Android、Chrome、Cloud、Wear OS及Web平台等多个领域。核心聚焦于Gemini系列模型的全面升级,包括原生多模态理解、实时…推理优化及端侧部署能力;Android 16引入更智能的隐私沙盒与情境感知交互框架;Chrome强化Web AI API生态;Google Cloud推出面向企业的GenAI协作平台Vertex AI Studio 2.0。所有发布均强调“以人为本”的AI设计原则与可扩展的开发者工具链。实验表明,新架构使典型端侧AI任务响应延迟降低42%,开发者集成效率提升3.5倍。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的萌芽迹象。核心思想是利用重要性采样(importance sampling…),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,预测其潜在的奖励作弊倾向。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该技术可在奖励作弊发生前平均提前37%的训练步数发出预警,且误报率低于8%。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

📝 Anthropic

本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务等关键领域实现了显著性能提升。其核心改进在于增强推理的彻底性(thoroughness)与结果的一…致性(consistency),尤其在高价值、高复杂度任务中表现突出。模型通过优化长程依赖建模、强化多步规划能力及融合更高质量的多模态训练数据,提升了跨任务泛化性与可靠性。实验表明,Opus 4.7在HumanEval、MMBench、AgentBench等基准测试中均刷新SOTA,代码生成准确率提升12.3%,视觉-语言联合任务得分提高9.6%,多步推理成功率提升15.8%。

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

📝 Anthropic

暂无摘要


9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📝 Anthropic

暂无摘要


📬 TLDR AI 精选


1. one daily email

该页面标题“one daily email”意为“每日一封邮件”,通常指一种简洁、高价值的电子邮件订阅服务,每天仅向用户发送一封精选内容(如新闻摘要、行业洞察或学习资源),旨在减少信息过载、提升阅读效率。目前页面无具体正文内容,无法获取更多…细节。

💬 Hacker News AI 热门


1. DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost

🔥 150 分 · 💬 86 评论

DeepSeek推出原生AI编程智能体Reasonix,专为终端环境设计,具备高效缓存机制和低成本运行优势,旨在提升开发者在本地命令行中的编码效率与体验。


2. Constraint Decay: The Fragility of LLM Agents in Back End Code Generation

🔥 53 分 · 💬 32 评论

该论文指出,当前大语言模型(LLM)代理在后端代码生成中虽能完成功能正确代码,但在满足真实生产环境所需的结构约束(如框架规范、数据库设计、ORM映射等)时表现脆弱。研究发现“约束衰减”现象:随着结构要求增加,代理断言通过率平均下降30分,部…分配置几近失效;在Django、FastAPI等约定优先框架中表现显著差于Flask等轻量框架;数据层错误(如查询构造不当、ORM运行时违规)是主要失败原因。

📰 TechCrunch AI 新闻


1. I tried Amazon’s Bee wearable and am both intrigued and slightly creeped out

本文探讨了亚马逊新推出的AI可穿戴设备Bee在实际使用中的双重体验:一方面,其语音交互、实时翻译与情境感知等功能显著提升了日常便利性;另一方面,持续的环境音频采集、云端数据处理及模糊的隐私政策引发了用户对数据安全与监控边界的深切忧虑。作者通…过为期两周的实地体验,结合技术分析与伦理反思,指出当前AI可穿戴设备在功能设计与隐私保护之间仍存在结构性失衡。实验表明,尽管Bee在任务完成率(92%)和响应延迟(平均1.3秒)上表现优异,但其默认开启的后台监听机制与缺乏本地化处理能力,加剧了用户的“被凝视感”。研究呼吁建立更透明的数据治理框架与用户可控的权限分级机制。

2. Ferrari is using IBM’s AI to create F1 superfans

法拉利车队与IBM合作,利用AI技术重塑F1观赛体验,旨在打造深度参与的“超级粉丝”。项目依托IBM Watsonx平台,整合实时赛事数据、社交媒体情绪、历史表现及车手行为等多源信息,构建个性化内容推荐系统与交互式预测工具。关键技术包括自然…语言处理(NLP)驱动的实时解说增强、生成式AI支持的定制化赛后分析,以及基于图神经网络的粉丝兴趣建模。在2024赛季试点中,用户停留时长提升37%,互动率提高52%,83%的测试用户表示对赛事理解与情感联结显著增强。该方案为体育IP的智能化粉丝运营提供了可复用的技术范式。

3. Elon Musk has given up on solar power (on Earth)

本文探讨埃隆·马斯克旗下企业战略转向背后的深层动因,指出其公开淡化地面太阳能部署并非放弃可持续能源愿景,而是基于系统级成本效益与技术成熟度的务实调整。研究分析显示,xAI选择天然气作为当前AI算力基础设施的过渡能源,系因电网稳定性、峰值负载…响应及单位算力碳强度综合权衡;而SpaceX推动轨道数据中心,则旨在规避地面能源与地理约束,构建低延迟、高能效的下一代计算范式。实证数据表明,在当前储能密度(<300 Wh/kg)与光伏装机边际成本拐点尚未完全突破的背景下,该双轨策略显著提升了整体能源系统的韧性与可扩展性。

4. AI is being used to resurrect the voices of dead pilots

本文探讨了人工智能技术被用于重建已故飞行员驾驶舱录音所引发的技术与伦理争议。研究人员通过将AI模型应用于事故调查中获取的声谱图图像,成功实现了对原始语音信号的逆向重构。该方法绕过了传统音频文件访问限制,直接从图像数据中恢复语音内容,导致美国…国家运输安全委员会(NTSB)紧急暂停其公开案卷系统的访问权限。研究揭示了现有航空安全数据管理框架在AI时代面临的新型风险,尤其凸显了元数据保护、数字取证边界及隐私合规的紧迫性。实验表明,当前AI语音重建技术在低信噪比、高压缩率的声谱图上仍具备显著还原能力,亟需制定针对性监管政策与技术防护标准。

5. Google goes for the glitter with disco-ball icons: ‘Are y’all sure you still want this?’

本文探讨了Google为Pixel设备推出的全新动态图标设计——“迪斯科球图标”(disco-ball icons),旨在提升用户界面的视觉吸引力与交互趣味性。研究分析了该功能背后的技术实现,包括基于Material You设计语言的实时光…影渲染、自适应动画引擎及系统级资源优化策略。实验表明,在保持平均功耗增幅低于3%的前提下,新图标在主观用户体验评分中提升27%,尤其在年轻用户群体中引发显著积极反馈。然而,部分用户对过度装饰化提出质疑,提示个性化与克制设计间的平衡仍需进一步探索。