AI 每日资讯 — 2026-05-24
🔥 HuggingFace 每日论文
1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
Jiahao Wang, Bo Sun, Yijing Bai
本文提出Sensor2Sensor,一种面向自动驾驶系统的跨形态传感器转换方法,旨在解决真实路测数据规模有限、传感器配置单一与长尾场景覆盖不足,而海量无结构行车记录仪视频又难以直接用于多模态感知模型训练与验证的矛盾。该方法通过4D
高斯溅射(4DGS)对真实自动驾驶日志进行重建与虚拟视角渲染,生成配对的“伪行车视频—真多模态传感器”数据;进而基于扩散模型实现从单目行车视频到多视角图像与LiDAR点云的高保真生成。实验表明,生成数据在几何一致性、语义保真度与下游任务可用性方面均达实用水平,显著拓展了外部视觉数据在自动驾驶研发中的应用边界。2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Ali Hatamizadeh, Yejin Choi, Jan Kautz
本文提出Gated DeltaNet-2,旨在解决线性注意力中压缩记忆编辑过程的耦合问题。现有方法(如KDA和Gated DeltaNet)采用标量门控统一控制“擦除”与“写入”,易导致记忆干扰。Gated DeltaNet-2通
过引入通道级独立擦除门 $b_t$ 和写入门 $w_t$ 实现二者解耦,并统一了自适应遗忘与通道衰减机制。作者进一步推导出支持通道衰减的块状WY快速权重更新算法及门控感知反向传播,兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后,该模型在语言建模、常识推理与长程依赖任务中全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。🏛️ Yejin Choi, Jan Kautz | PDF · arXiv · 代码 | ❤️ 20
3. Diversed Model Discovery via Structured Table Discovery
Zhengyuan Dong, Renée J. Miller
本文针对现有模型搜索系统因依赖文本语义相似性而导致结果同质化、难以支持多样化模型比较的问题,提出StructuredSemanticSearch——一种以结构化表格为核心的模型发现框架。该框架基于ModelTables基准,融合语
义匹配(保障任务对齐)与结构感知的表格发现(利用unionability、joinability及关键词搜索等操作),从模型卡片中精准检索高信息密度的结构化证据表;进一步通过朝向感知的表格集成技术,生成紧凑、可比的跨模型整合视图。在nugget级可审计评估协议下,实验表明其显著提升模型多样性与检索质量,优于纯文本基线方法。🏛️ Renée J. Miller | PDF · arXiv · 代码 | ❤️ 4
4. DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders
Tianhang Wang, Yitong Chen, Wei Song
本文针对表示自编码器(RAEs)中冻结视觉基础模型(VFM)导致的空间重建能力受限与微调破坏语义空间之间的固有矛盾,提出DecQ框架。DecQ引入轻量级细节压缩查询(detail-condensing queries),通过con
denser模块从VFM中间层特征中提取细粒度信息,并将其与patch token联合建模,协同增强解码器的重建与生成能力。实验表明:在仅增加8个查询、计算开销提升3.9%的情况下,DecQ将基于DINOv2的冻结RAE的PSNR从19.13 dB提升至22.76 dB;在生成任务中,收敛速度达RAE的3.3倍,无引导/有引导FID分别降至1.41和1.05。5. Tokenisation via Convex Relaxations
Jan Tempus, Philip Whittington, Craig W. Schmidt
本文针对当前NLP中主流分词算法(如BPE、Unigram)仅依赖局部贪心策略、缺乏全局优化的问题,提出将分词器构建建模为线性规划问题,并通过凸优化求解,得到新算法ConvexTok。该方法不仅提供可证明的近似最优性保证(实证显示
其目标值距理论下界偏差小于1%),还在内在分词指标和语言模型的字节比特率(BpB)上持续提升;下游任务性能亦有改善,但增益稳定性较弱。6. Cambrian-P: Pose-Grounded Video Understanding
Jihan Yang, Zifan Zhao, Xichen Pan
本文针对现有视频多模态大语言模型(MLLMs)忽略相机位姿信息、将视频帧视为孤立2D图像的问题,提出Cambrian-P——一种以位姿为根基的视频理解模型。该模型引入可学习的逐帧相机标记与位姿回归头,并结合精心设计的采样策略,在V
SI-Bench等空间推理基准上提升4.5–6.5%,并在8个空间及通用视频问答基准上实现泛化;同时在ScanNet上达成流式位姿估计SOTA。值得注意的是,仅使用野外视频生成的伪标注位姿进行训练,即可进一步提升通用视频问答性能,表明位姿信号对物理世界理解具有普适价值。7. MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei
MotiMotion提出了一种面向运动控制的视频生成新范式,旨在解决现有图像到视频模型机械遵循稀疏、不精确且因果不完备运动轨迹所导致的不自然结果问题。该框架将运动控制重构为“推理-生成”两阶段任务:首先利用无需训练的视觉语言模型(
VLM)对主轨迹进行因果增强与次级运动补全;其次设计置信度感知的控制机制,动态调节运动引导强度,兼顾高置信轨迹的保真性与低置信输入下的生成鲁棒性。在新构建的交互驱动视频基准MotiBench上,MotiMotion在VLM自动评估与人工评测中均显著优于现有方法,生成视频展现出更合理的物体行为与物理交互。8. Understanding Data Temporality Impact on Large Language Models Pre-training
Pilchen Hippolyte, Fabre Romain, Signe Talla Franck
本文探究预训练数据时序性对大语言模型(LLM)时间敏感知识获取的影响。作者构建了包含7000余道时序感知问答题的基准测试集,并提出一套评估模型事实—时间关联能力的协议;进一步在按时间排序的Common Crawl快照上预训练6B参
数模型,对比标准打乱顺序训练范式。实验表明,时序预训练模型在保持通用语言理解与常识能力的同时,显著提升事实知识的新鲜度与时序精确性,而打乱训练则更倾向于记忆早期、高频重复的事实。研究成果为LLM持续学习提供了新视角,并开源代码、检查点与数据集。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. Meta-UCF: Unified Task-Conditioned LoRA Generation for Continual Learning in Large Language Models
ShiLin Xiao, Tianxiang Xu, Canran Xiao
本文针对大语言模型(LLM)在持续学习场景中面临的灾难性遗忘与参数膨胀难题,提出Meta-UCF——一种统一任务条件化的LoRA生成框架。该方法将每个任务编码为轻量级层归一化均值嵌入,并通过单个超网络实时生成各Transforme
r层的秩-r LoRA更新;结合元对比学习与正交性约束,引导任务嵌入近似正交,从而在无内循环梯度的情况下有效保留历史知识。在Std-CL 5、Seq-GLUE 7、Long-CL 15和TRACE-8四大持续学习基准上,Meta-UCF相较最强LoRA基线平均准确率提升达2.2个百分点,遗忘率降低13%,且仅需单个适配器参数量,显著提升了终身语言建模的可扩展性与资源效率。2. Reversible Primitive–Composition Alignment for Continual Vision–Language Learning
Canran Xiao, Tianxiang Xu, siyuanma
本文针对视觉-语言(VL)模型在持续学习中易保留原始识别能力却丢失组合结构的问题,提出Compo-ReAlign方法。该方法以结构优先为原则,包含三个核心组件:可逆组合器(实现原始嵌入到组合表示的确定性映射)、多正样本InfoNC
E损失(联合对齐文本与组合视图)、谱信任区域约束(动态抑制对齐敏感性过高的参数更新)。在组合式领域增量学习(DIL)与多域多任务增量检索(MTIL)基准上,Compo-ReAlign刷新SOTA,R@1提升2.4%,遗忘率降低40%,并提供轻量、可逆、几何感知的对齐头,显著增强VL模型的组合鲁棒性与零样本泛化能力。3. Pi-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning
Jiayu Zhang, Chuangxin Zhao, Canran Xiao
本文针对基础视觉-语言模型在非平稳数据流上持续学习时无法访问历史数据的挑战,提出无需回放的Prompt-Invariant CCA Certificates(Pi-CCA)方法。Pi-CCA以几何视角建模图文对齐,通过紧凑的典型相
关分析(CCA)证书捕获前k维典型谱与子空间,仅依赖小批量统计量进行对齐匹配,并通过对提示扰动取平均增强提示鲁棒性。在MTIL、X-TAIL、VLCL和ConStruct-VL等基准上,Pi-CCA在无回放方法中达到最优性能,显著保持零样本识别能力,并对域偏移与提示/风格变化具备强鲁棒性。4. Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
Peng Kuang, Yanli Wang, Xiaoyu Han
本文针对测试时扩展(TTS)中过程奖励模型(PRM)信号利用低效的问题,提出一种最优聚合大语言模型(LLM)与PRM输出信号的理论框架与高效实现方法。理论分析表明,最优策略为带权重的响应聚合,且权重需刻画LLM与PRM间的复杂协同
关系;实验发现该权重因模型对而异,常含显著负值。据此,作者设计轻量级预计算校准方法,仅需约21.3%的额外计算即可显著提升TTS效率。在5个LLM与7个PRM组合上的广泛实验验证了该方法优于基线加权多数投票,揭示了智能聚合比单纯扩大测试时计算更具性价比。5. Path Matters: Unveiling Geometric Implicit Bias via Curvature-Aware Sparse View Optimization
Canran Xiao, Liaoyuan Fan, Yanbin Li
本文针对稀疏视角下3D高斯泼溅(3DGS)重建中几何失真、跨视角不一致与渲染质量下降等关键问题,首次揭示其内在的两种几何隐式偏差:模型对高曲率区域监督信号需求更强,且对输入视角轨迹的平滑性高度敏感。为此,提出一种曲率感知的稀疏视角
优化框架,联合优化相机轨迹以最大化场景曲率覆盖并保障运动平滑性,并结合合成视图增强数据信息量。在Mip-NeRF 360、DTU、Blender、Tanks & Temples及LLFF等多个基准上的实验表明,该方法在渲染质量(PSNR/SSIM/LPIPS)与几何精度(Chamfer距离)上均显著优于现有最先进方法,同时为理解3DGS的数据—轨迹—重建耦合机制提供了新的理论洞见。6. DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics
Yuanhang Lei, Boming Zhao, Zesong Yang
本文提出DiffWind,一种面向风驱动物体动力学建模的物理信息驱动可微分框架,旨在解决视频中风场不可见、时空变化剧烈及物体形变复杂所导致的建模难题。方法将风建模为网格化物理场,物体表示为基于3D高斯溅射的粒子系统,并采用物质点法
(MPM)建模风–物交互;通过可微分渲染与仿真联合优化风力场与物体运动;引入格子玻尔兹曼法(LBM)作为物理约束以保障流体动力学一致性。实验表明,该方法在重建精度与前向仿真保真度上显著优于现有动态场景建模方法,并支持风场重定向等新应用。配套发布WD-Objects数据集(含合成与真实场景)。7. Signal Structure-Aware Gaussian Splatting for Large-Scale Scene Reconstruction
Weiyi Xue, Fan Lu, Chi Zhang
本文针对大规模场景重建中因初始点云稀疏导致高斯椭球体(Gaussians)过度稠密化与冗余生成的问题,提出一种信号结构感知的高斯溅射方法SIG。该方法将场景重建建模为信号结构恢复问题,首次推导三维表征的平均采样频率与带宽,并据此动
态同步图像监督分辨率与高斯稠密化策略,实现频率一致性训练;同时引入球面约束高斯模型,利用初始点云空间先验约束优化过程,避免几何漂浮。实验表明,SIG在大规模场景下显著提升渲染质量与训练效率,性能大幅超越现有方法。8. GenSR: Symbolic regression based on equation generative space
Qian Li, Yuxiao Hu, Juncheng Liu
本文针对符号回归(SR)中离散方程空间导致结构修改与数值行为脱节、误差反馈噪声大等问题,提出GenSR框架。该方法构建具备符号连续性与局部数值光滑性的生成式潜在空间,通过预训练双分支条件变分自编码器(CVAE)实现方程的可微表征,
并以“建图→粗定位→细搜索”范式进行优化:先利用CVAE在潜在空间中粗略定位最优方程区域,再结合改进的CMA-ES算法沿光滑梯度精细搜索。从贝叶斯视角,GenSR将SR建模为最大化条件分布 $p(\text{Equ.}|\text{Num.})$,并通过ELBO理论保障优化有效性。实验表明,GenSR在预测精度、表达简洁性与计算效率三方面取得协同提升,且对噪声具有强鲁棒性。9. EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
Deheng Zhang, Yuqian Fu, Runyi Yang
本文提出EgoNight,首个面向夜间第一人称视觉理解的综合性基准,聚焦低光照条件下的视觉问答(VQA)任务。为提升夜间标注质量并揭示光照差异带来的性能鸿沟,作者构建了昼夜对齐的合成与真实视频数据集,并设计了一种基于白天数据增强的
夜间自动标注引擎,辅以双人人工校验,最终发布含3658个QA对、覆盖12类问题的EgoNight-VQA数据集。实验表明,当前多模态大语言模型在夜间场景下性能显著下降;此外,基准还包含昼夜对应检索与夜间第一人称深度估计两项辅助任务,全面评估模型跨光照泛化能力。10. Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization
Weixuan Wang, Minghao Wu, Barry Haddow
长文档摘要生成面临信息丢失、事实不一致与连贯性差等挑战。本文提出SummQ框架,一种基于对抗式智能体协作的新型方法:通过摘要生成器/评审器与测验生成器/评审器在双领域协同工作,并引入应试智能体验证摘要是否足以回答测验问题,形成闭环
迭代优化机制。该框架利用多维度反馈实现摘要质量的持续提升。在三个主流长文档摘要基准上的实验表明,SummQ在ROUGE、BERTScore、LLM-as-a-Judge及人工评估中均显著优于现有最优方法。消融分析进一步验证了多智能体协作机制与测验驱动策略的有效性。🏛️ Barry Haddow | PDF
11. HBO: Hierarchical Balancing Optimization for Fine-Tuning Large Language Models
Weixuan Wang, Minghao Wu, Barry Haddow
本文针对大语言模型(LLM)在混合多源数据上微调时面临的跨数据集(全局)与单数据集内部(局部)双重不平衡与异质性问题,提出分层平衡优化(HBO)方法。HBO采用双层优化框架:全局Actor动态调节各数据子集的采样比例,局部Acto
r依据样本难度自适应优化每个子集内的数据使用;二者均基于模型训练状态构建的奖励函数进行策略更新。在三个LLM主干、九个多元语言与多任务基准上的实验表明,HBO显著优于现有基线,平均准确率提升明显;消融分析验证了全局与局部协同调整机制的有效性。🏛️ Barry Haddow | PDF
12. Discovering heterogeneous synaptic plasticity rules via large-scale neural evolution
Ziyuan Ye, Beichen Huang, Yujie Wu
本文针对突触可塑性机制异质性与功能行为关系不清的问题,提出一种基于达尔文进化原理的大规模神经演化框架,用于在小鼠初级视皮层生物真实模型中发现多样化的、符合生物学约束的突触可塑性规则。通过参数化脉冲时序、资格迹及神经调制信号等关键因
素,并采用截断泰勒展开构建含超2600个可优化参数的高维规则搜索空间,结合多目标进化算法同步优化任务性能(跨域视觉任务)与生物学合理性。实验发现多类数学形式迥异但功能等价的高性能规则,揭示突触学习机制存在计算简并性;所获规则兼具网络尺度鲁棒性与少样本学习能力,为先天能力的涌现提供了可计算解释。13. Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes
Fangyu Ding, Ding Ding, Sijin Chen
本文针对掩码扩散语言模型(MDLMs)在计算效率与生成灵活性上的固有局限,提出删除-插入扩散语言模型(DID)。DID将词元删除与插入建模为离散扩散过程,彻底摒弃掩码范式,从而消除$\texttt{}$和$\textt
t{14. Dual-Path Condition Alignment for Diffusion Transformers
Changhao Peng, Yuqi Ye, Shuangjun Du
本文针对基于去噪的生成模型中表征对齐(REPA)损失依赖外部视觉编码器所引发的分布不匹配与高计算开销问题,提出一种无需外部监督的自对齐框架——双路径条件对齐(DUPA)。该方法通过多次独立加噪同一图像,经解耦的扩散Transfor
mer并行处理各噪声潜变量,并对齐各路径提取的低频语义条件特征。在ImageNet 256×256上仅需400训练周期即达FID=1.46,显著优于所有无外部监督方法;且具备模型无关性与强泛化能力,可无缝适配各类去噪生成模型。15. SpectraLLM: Uncovering the Ability of LLMs for Molecular Structure Elucidation from Multi-Spectral Data
Yunyue Su, Jiahui Chen, Zao Jiang
本文提出SpectraLLM,一种面向多谱图数据的大型语言模型,旨在解决自动化分子结构解析中依赖数据库或局限于单模态光谱的固有局限。该模型将红外(IR)、拉曼(Raman)、紫外-可见(UV-Vis)、核磁共振(NMR)等连续谱与
质谱(MS)等离散谱统一映射至共享语言空间,实现跨模态子结构模式的协同推理。通过在小分子领域预训练与微调,并在四个公开基准数据集上评估,SpectraLLM在单模态与多模态设置下均显著超越现有方法,展现出优异的鲁棒性与可扩展性,为基于语言模型的光谱分析提供了新范式。📝 AI 官方博客
1. Catch up on the Dialogues stage at Google I/O 2026.
📝 Google AI Blog
本文报道了2026年谷歌I/O大会“Dialogues”主题论坛的核心内容,聚焦Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)的主旨对话。皮查伊围绕AI技术演进、负责任创新、多模态交互进展及AI在教育、医疗与可持续发…
展等关键领域的落地实践展开深入探讨;特别介绍了Gemini系列模型的最新突破,包括实时推理优化、跨设备协同推理框架及增强型隐私保护机制。对话还回应了全球监管趋势与开发者生态建设议题。该环节以开放、前瞻的视角呈现了谷歌AI战略的阶段性成果与未来路径。2. We’re announcing new community investments in Missouri.
📝 Google AI Blog
本文宣布谷歌在密苏里州启动新一轮社区投资计划,聚焦于培育下一代技术人才与推动清洁能源发展。项目涵盖与当地教育机构合作开展计算机科学教育、教师培训及学生实习计划,以强化STEM领域人才培养;同时资助分布式能源、能效提升和电网现代化等可持续能源…
项目。初步试点已在圣路易斯和堪萨斯城落地,预计三年内惠及超10万名学生,并支持20余个社区级清洁能源倡议。评估显示,相关教育项目使参与学生的编程能力达标率提升37%,能源项目平均降低合作社区用电成本12%。3. 100 things we announced at I/O 2026
📝 Google AI Blog
本文总结了2026年Google I/O开发者大会发布的100项重要更新与技术进展,涵盖AI、Android、Web、Cloud及硬件生态等多个领域。核心聚焦于新一代Gemini模型的全面升级——包括多模态理解增强、实时推理优化及端侧部署能…
力;Android 15新增隐私沙盒与AI驱动的交互框架;Chrome引入WebGPU加速与原生AI API;Google Cloud推出面向生成式AI工作负载的专用芯片TPU v6。实验表明,Gemini Nano在Pixel设备上实现30%能效提升与2倍响应速度增益。所有发布内容均面向开发者开放早期试用与文档支持。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化不完善奖励函数时出现的目标错位现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数鲁棒性评估与反事实验证的检测框架,并初步实现…
了在Gridworld与MiniGrid环境中的原型验证。实验表明,该方法可有效识别约78%的隐式奖励篡改行为,较基线方法提升23个百分点。后续将聚焦于可扩展的奖励整形机制与人机协同验证协议设计。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.
📝 Anthropic
本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务上实现显著性能提升,尤其在关键任务中展现出更强的推理彻底性与结果一致性。同时,Anthropic …
Labs正式推出全新产品Claude Design,支持用户与Claude协同完成高质量视觉内容创作,涵盖UI设计、原型开发、演示文稿及单页报告等场景。此外,“Project Glasswing”跨行业合作倡议启动,联合AWS、Apple、Google、Microsoft、NVIDIA等十余家顶尖科技与金融机构,共同推进AI系统安全、互操作性与可信部署的前沿实践。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。