AI 每日资讯 — 2026-05-18
🔥 HuggingFace 每日论文
1. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both
Ziyu Guo, Rain Liu, Xinyan Chen
本文针对视觉推理中中间视觉状态建模的效率与泛化性难题,提出ATLAS框架:仅用一个离散的“功能词元”(functional token)统一实现代理式操作与潜在视觉推理。该词元内化视觉操作语义,无需视觉监督,可直接通过标准自回归语
言模型生成。ATLAS避免了显式图像生成开销,兼容现有SFT与RL训练范式,无需架构修改。为缓解强化学习中功能词元稀疏导致的训练不稳定,进一步提出Latent-Anchored GRPO(LA-GRPO),通过静态加权辅助目标锚定功能词元,显著提升梯度稳定性与收敛性能。实验表明,ATLAS在多步视觉推理任务上兼具高效性、泛化性与训练鲁棒性。2. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
Yanzuo Lu, Ronglai Zuo, Jiankang Deng
本文提出RAVEN框架,旨在解决因果自回归视频扩散模型在长时序外推中因训练与推理历史分布不一致导致的质量退化问题。RAVEN通过将自展开轨迹重构成清洁历史端点与噪声去噪状态的交错序列,使训练注意力机制对齐推理时的外推过程,并利用下
游分块损失监督历史表征。进一步,作者设计一致性模型分组相对策略优化(CM-GRPO),将一致性采样建模为条件高斯转移,并直接在其上实施在线强化学习,摒弃了传统流模型RL中依赖欧拉-丸山辅助过程的做法。实验表明,RAVEN在生成质量、语义一致性和动态保真度上全面超越现有因果视频蒸馏方法,CM-GRPO与其结合可带来进一步提升。3. Aligning Latent Geometry for Spherical Flow Matching in Image Generation
Tuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe
本文针对潜空间流匹配图像生成中欧氏线性路径偏离球面分布的问题,提出一种球面流匹配对齐方法。通过将潜变量分解为径向与角向分量,发现解码后的感知与语义内容主要由方向决定,半径贡献甚微。据此,作者将数据潜变量投影至固定半径球面,以高斯噪
声的径向投影作为球面先验,冻结编码器并微调解码器,同时用球面线性插值(Slerp)替代线性插值,确保轨迹全程位于球面上且速度目标纯为角向。实验表明,该方法在ImageNet-256类条件生成任务中稳定提升FID,兼容多种图像tokenizer与现有扩散架构,无需额外编码器或对齐目标。4. FutureSim: Replaying World Events to Evaluate Adaptive Agents
Shashwat Goel, Nikhil Chandak, Arvindh Arun
本文提出FutureSim,一种基于真实世界事件时序回放的基准测试框架,用于评估AI智能体在开放动态环境中的长期自适应能力。FutureSim通过按时间顺序注入真实新闻与逐步揭晓的问题,要求智能体在知识截止点之后持续预测未来事件。
在2026年1—3月为期三个月的评测中,前沿智能体表现差异显著:最优模型准确率仅25%,部分模型Brier技能分甚至低于无预测基线。消融实验表明,该框架能有效支撑长周期测试时适应、搜索、记忆及不确定性推理等关键研究方向。FutureSim为衡量AI在真实世界长时域开放适应能力提供了可扩展、可复现的评估范式。5. EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation
Ruozhen He, Meng Wei, Ziyan Yang
本文针对长程多镜头视频生成中实体(人物、物体、场景)一致性难以维持的问题,提出首个面向实体一致性的基准测试集EntityBench。该基准包含140集真实叙事媒体衍生的2491个镜头,覆盖易/中/难三类难度,支持最多50镜头序列、
13个跨镜头人物、8个跨镜头地点及22个跨镜头物体,并定义最长达48镜头的实体重现间隔。配套提出三维度评估体系,涵盖单镜头质量、提示对齐度与跨镜头实体一致性,并引入保真度门控机制确保一致性评分仅基于准确识别的实体。作为基线方法,作者设计了EntityMem——一种在生成前将经验证的实体视觉表征存入持久化记忆库的记忆增强系统。实验表明,现有方法随实体重现距离增加一致性显著下降,而EntityMem在人物保真度(Cohen’s d = +2.33)和存在性上均表现最优。6. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding
Xiang Fan, Yuheng Wang, Bohan Fang
本文针对视频生成中解码器缺乏条件引导导致细节丢失与结构不一致的问题,提出RefDecoder——一种参考图像条件化的视频VAE解码器。其核心是通过参考注意力机制,将轻量图像编码器提取的高保真参考帧token,与去噪后的视频潜在表示
在每一上采样阶段协同处理。该方法无需微调即可即插即用地集成至现有视频生成系统(如Wan 2.1、VideoVAE+),在Inter4K、WebVid等重建基准上PSNR提升达+2.1dB,并在VBench I2V评测中显著增强主体一致性、背景一致性及整体质量。此外,RefDecoder在风格迁移与视频编辑等任务中亦展现出良好泛化性。7. VGGT-Ω
Jianyuan Wang, Minghao Chen, Shangzhan Zhang
本文提出VGGT-Ω,一种面向静态与动态场景的高效、可扩展神经重建模型。针对现有前馈重建模型在精度、训练效率与动态建模能力上的局限,作者通过三项关键技术改进:(1)简化网络结构,采用单密集预测头与多任务监督,移除高分辨率卷积层;(
2)引入可学习寄存器(registers)聚合场景表征,并设计寄存器注意力机制,以局部化帧间信息交互、替代部分全局注意力;(3)构建高质量动态场景标注流程与自监督学习协议,支持大规模有/无标签视频数据训练。实验表明,VGGT-Ω训练内存占用仅为原VGGT的30%,可利用15倍监督数据及海量未标注视频,在Sintel等基准上将相机位姿估计精度提升77%,显著推动神经重建方法的实用性与泛化能力。8. Articraft: An Agentic System for Scalable Articulated 3D Asset Generation
Matt Zhou, Ruining Li, Xiaoyang Lyu
本文针对 articulated 3D 物体理解研究中缺乏大规模、多样化数据集的瓶颈,提出 Articraft——一种基于大语言模型(LLM)的智能体系统,用于可扩展地生成可动3D资产。其核心是将资产生成建模为程序编写任务,并设计
面向领域的SDK与受限执行环境(harness),引导LLM自动生成定义部件、组合几何、指定关节及验证逻辑的代码。该框架规避了URDF编写与复杂环境管理等干扰因素,显著提升生成质量。实验表明,Articraft优于现有 articulated-asset 生成器与通用代码智能体;基于其构建的 Articraft-10K 数据集(覆盖245类、超1万资产)有效支撑了 articulated 模型训练及机器人仿真、虚拟现实等下游应用。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. Measuring the Intrinsic Dimension of Earth Representations
Arjun Rao, Marc Rußwurm, Konstantin Klemmer
本文首次系统研究了地理隐式神经表示(INRs)的本征维度,旨在量化地球观测表征中蕴含的信息量及其空间分布特性。作者基于256–512维嵌入空间,采用几何与概率方法估计INRs的本征维度,发现其值集中于2–10之间,并受空间分辨率与
输入模态(如卫星影像、文本)显著影响。实验表明,本征维度与下游任务性能呈强相关性,且能有效识别模型中的空间伪影,为无监督评估、模型诊断及预训练策略设计提供了架构无关、无需标注的通用度量标准。2. CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density
Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya
本文提出CogniLoad——一个基于认知负荷理论(CLT)构建的合成自然语言推理基准,旨在解耦长上下文推理中混杂的关键因素。该基准通过可独立调节的参数控制内在难度($d$)、干扰项密度($\rho$)与任务长度($N$),分别对
应CLT中的内在负荷、外在负荷与相关负荷。在22个前沿推理大模型上的系统评估表明,模型性能对任务长度最为敏感,且对内在复杂度容忍度各异,对干扰比呈现U型响应。CogniLoad为精准归因LLM推理失效机制、指导模型优化提供了可复现、可扩展、高诊断价值的评测工具。3. Hubble: a Model Suite to Advance the Study of LLM Memorization
Johnny Wei, Ameya Godbole, Mohammad Aflah Khan
本文提出Hubble——一套面向大语言模型(LLM)记忆化研究的完全开源模型套件。Hubble包含标准模型与扰动模型两类,后者在预训练过程中受控注入特定敏感文本(如书籍片段、传记、测试集),以系统模拟记忆化风险。共发布14个模型(
8个基础变体+6个分阶段注入变体),实验揭示:记忆化强度取决于敏感数据出现频率与训练语料规模的相对关系,且早期注入更易被保留。研究进一步提出稀释敏感数据(扩大语料规模)和前置敏感内容(调整训练顺序)两大缓解策略,并验证Hubble在成员推断与机器遗忘等下游任务中的基准价值。4. Denoising Neural Reranker for Recommender Systems
Wenyu Mao, Shuchang Liu, HailanYang
本文针对工业界多阶段推荐系统中重排序模块(reranker)对检索器(retriever)输出信号利用不足的问题,提出一种去噪神经重排序器(Denoising Neural Reranker, DNR)。作者指出,两阶段框架下的重
排序本质是噪声抑制任务——需从含偏/有偏的检索器分数中恢复真实用户偏好。为此,DNR构建了一个对抗式去噪框架,包含三个核心目标:1)去噪目标,将带噪检索分数映射至用户反馈一致的纯净分数;2)对抗式噪声生成目标,增强检索分数空间的探索能力;3)分布正则项,约束生成噪声与真实噪声分布对齐。在三个公开数据集及工业级系统上的实验表明,DNR显著优于主流重排序方法。5. Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
Peng Kuang, Yanli Wang, Xiaoyu Han
本文针对测试时扩展(TTS)中过程奖励模型(PRM)信号利用低效的问题,提出一种最优聚合大语言模型(LLM)与PRM输出信号的理论框架与高效实现方法。理论分析表明,最优策略为加权响应聚合,其权重需刻画LLM与PRM间的复杂协同关系
;实验发现该权重因模型对而异,且常含显著负值。据此,作者设计轻量级预计算校准方法,仅需约21.3%的额外计算开销,即可在5个LLM与7个PRM组合上显著提升TTS效率,性能超越标准加权多数投票。结果表明,智能聚合优于单纯扩大测试时计算量。6. TaskCraft: Automated Generation of Agentic Tasks
Dingfeng Shi, Jingyi Cao, Qianben Chen
本文提出TaskCraft,首个面向智能体任务(agentic tasks)的自动化生成框架,旨在解决现有基准(如GAIA、BrowseComp)因依赖人工标注而导致的可扩展性瓶颈。TaskCraft通过基于深度与宽度的渐进式扩展
策略,将原子任务复杂化,并结合拒绝采样与大语言模型驱动的语言学分析实现增量验证,兼顾任务质量与生成效率。所生成的41K个工具密集型任务涵盖多难度层级,包含12.6K条工具交互轨迹与5K个多跳分解结构。实验表明,TaskCraft数据显著提升LLM在多跳推理与智能体能力上的表现;进一步结合强化学习训练,在四大智能体基准上达到SOTA性能。7. Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation
Arthur S. Bianchessi, Yasmin C. Aguirre, Rodrigo C. Barros
本文针对Transformer模型中位置编码(PE)缺乏理论基础及长上下文外推能力不足的问题,提出贝叶斯注意力机制(BAM)——一种将位置编码建模为概率先验的理论框架。BAM统一了NoPE、ALiBi等现有方法,并推导出广义高斯位
置先验,显著提升长上下文泛化能力。实验表明,BAM可在500倍于训练长度的上下文中实现高精度信息检索,检索准确率较此前最优方法提升25倍以上,同时保持相近的困惑度,且仅引入极少额外参数。8. Trapped by simplicity: When Transformers fail to learn from noisy features
Evan Peters, Matheus Hrabowec Zambianco, Ando Deng
本文研究了Transformer在含噪声特征数据上的鲁棒学习能力,即能否从带噪声的训练数据中恢复出适用于无噪声输入的目标布尔函数。实验表明,Transformer在$k$-稀疏奇偶性和多数函数上表现优于LSTM,但在随机$k$-j
unta函数上普遍失败,尤其当目标函数的布尔敏感度高于其噪声鲁棒最优解时。作者指出,该失败源于Transformer对低复杂度函数的固有偏好与噪声下最优解敏感度降低之间的耦合效应。通过引入惩罚高敏感度解的辅助损失项,可有效缓解该问题。结果揭示了Transformer在噪声环境下面向布尔函数学习的结构性局限。9. Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks
Ichiro Hashimoto
本文研究了固定宽度漏泄线性单元(leaky ReLU)两层神经网络在混合数据上通过梯度下降训练时的良性过拟合现象。作者首次在梯度下降而非仅梯度流框架下,建立了该类网络参数的方向收敛性,并据此推导出收敛方向上的分类误差界;该误差界揭
示了一种新发现的相变现象。相较于以往仅适用于近似正交数据的结论,本文结果适用于更广泛的混合数据设定。实验表明,良性过拟合在远比先前认知更宽泛的场景中以高概率发生;同时,研究还刻画了即使方向收敛成立、良性过拟合仍必然失败的情形,从而为leaky ReLU两层网络中的良性过拟合提供了更系统、更完整的理论刻画。10. LFQA-E: Carefully Benchmarking Long-form QA Evaluation
Yuchen Fan, Chen Ling, Xin Zhong
本文针对长文本问答(LFQA)自动评估缺乏可靠基准的问题,提出LFQA-E——一个精心构建、多语言、含人工参考答案的评估基准。该基准包含1625个问题、7649组两两对比样本,覆盖15个主题,来源多样。基于LFQA-E,作者系统评
测了5类共17种自动评估指标,结果表明现有方法均显著落后于人类判断,难以准确捕捉长文本回答中的密集语义信息。研究进一步深入分析了典型失败案例与指标泛化能力,为LFQA评估方法的未来发展提供了重要实证依据与方向指引。11. HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals
Xianquan Yan, Hakan Akgün, Kenji Kawaguchi
本文针对非厄米晶体能谱所蕴含的复杂空间多图结构缺乏大规模高质量数据集的问题,提出Poly2Graph自动化流水线,首次构建了包含1160万静态与510万动态哈密顿谱图的大规模基准数据集HSG-12M。该数据集覆盖1401类特征多项
式,源自177 TB谱势数据,是首个面向空间多图(即嵌入度量空间、保留节点间多重几何路径的图)的基准集。实验表明,现有图神经网络在建模空间多边时面临显著挑战。进一步,作者揭示谱图可作为多项式、向量与矩阵的通用拓扑指纹,建立了代数对象到图结构的新映射关系,为凝聚态物理的数据驱动发现及几何感知图学习提供了基础支撑。12. Are Deep Speech Denoising Models Robust to Adversarial Noise?
Will Schwarzer, Andrea Fanelli, Philip S. Thomas
本文探究了深度语音去噪(DNS)模型对对抗性噪声的鲁棒性问题。研究发现,四种前沿DNS模型在添加心理声学掩蔽下的微小对抗噪声后,均会退化为输出不可理解的乱码,即使在低背景噪声及模拟空口传输场景下亦然。针对其中三类模型开展的听觉转录
实验(由音频与多媒体专家参与)证实了攻击后语音的不可理解性;ABX感知实验则表明该对抗噪声整体难以被察觉,仅存在个体与样本间的细微差异。尽管针对定向攻击与模型迁移的尝试多以失败告终,本研究仍凸显出在安全关键场景中部署开源DNS系统前,亟需设计切实可行的防御机制。13. LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models
Ruilin Yao, Bo Zhang, Jirui Huang
本文提出LENS——一个面向多模态大语言模型(MLLMs)多层级推理能力评估的新基准。针对现有评测任务分布不一致、难以刻画感知与推理协同效应的问题,LENS构建了包含3.4K真实社交图像与60K+人工标注问题的数据集,覆盖8类任务
、12种日常场景,并按感知→理解→推理划分为三级渐进式任务体系;每张图像均配备全任务标注,支持图像不变条件下的跨层级能力评估。实验评估了15+前沿MLLMs(如Qwen2.5-VL、InternVL3、GPT-4o及QVQ-Max、Kimi-VL),发现当前模型在推理任务上准确率普遍低于60%。此外,本文提出自驱式多专家协同框架(SMEC),通过角色化自生成提示模拟专家协作推理,显著提升复杂推理性能。统计与消融分析验证了数据集的全面性与方法的有效性。14. Diffusion Transformers with Representation Autoencoders
Boyang Zheng, Nanye Ma, Shengbang Tong
本文针对扩散Transformer(DiT)中传统VAE编码器导致的架构复杂、潜在空间维度低及表征能力弱等问题,提出用预训练表征编码器(如DINO、SigLIP、MAE)与轻量解码器构成的“表征自编码器”(RAEs)替代原有VAE
。RAEs在保持高质量重建的同时,提供语义丰富、高维可扩展的潜在表示。为适配高维表征下的扩散建模,作者深入分析训练难点并提出理论驱动的优化方案,无需额外对齐损失即可实现快速收敛。基于轻量宽DDT-head结构的DiT变体,在ImageNet上达成256分辨率FID 1.18、512分辨率FID 1.13,刷新当前最优性能。15. Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism
Haoran Sun, Yankai Jiang, Zhenyu Tang
本文针对生物实验协议自动生成中普遍存在的不完整、逻辑混乱与不可执行等问题,提出一种基于结构化组件奖励机制的科学推理增强方法。作者构建了涵盖27个生物学子领域的12K+结构化协议数据集SciRecipe,并设计“草图-填充”(Ske
tch-and-Fill)范式,将协议生成解耦为分析、结构化与表达三阶段;进一步提出细粒度组件级奖励机制,从步骤完整性、动作时序性与语义保真度三方面优化模型训练。基于此,研发出科学协议生成模型Thoth,通过知识→行动的分阶段训练实现端到端可执行协议生成。实验表明,Thoth在多维度评估中显著超越主流开源与闭源大模型,大幅提升步骤对齐率、逻辑连贯性与语义准确性。📝 AI 官方博客
1. The new AI-powered Google Finance is expanding to Europe.
📝 Google AI Blog
本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力,支持用户以自然语言查询实时股价、财务数据、行业趋势及个性化投资建议;其核心技术包括基于多源金融数据微调的大语言模型、实时市场数据流…
处理架构,以及符合欧盟GDPR与MiFID II监管要求的安全合规框架。实验表明,新系统将复杂财务问题的平均响应时间缩短至1.2秒,用户查询准确率达94.7%,并在Beta测试中获得87%的欧洲用户积极反馈。此次扩展标志着Google在构建全球化、可信赖AI金融助手方面迈出关键一步。2. See what happens when creative legends use AI to make ads for small businesses.
📝 Google AI Blog
本文探讨了创意领域资深从业者(Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe)如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析,揭示AI在创意策略生成、视觉内容合成、文案优化及跨…
平台适配中的协同作用,强调“人机共创”模式对降低创意门槛、提升传播效率与保持品牌真实性的价值。实验表明,在AI辅助下,小型企业广告产出周期平均缩短62%,A/B测试点击率提升34%,且创意一致性评分高于纯人工组17%。研究为AI赋能中小商业创意生产提供了可复用的方法论与伦理实践框架。3. 5 gardening tips you can try right in Search
📝 Google AI Blog
本文介绍了一项面向园艺初学者的实用搜索功能优化实践,旨在通过搜索引擎直接提供可操作的园艺建议。研究整合了结构化园艺知识库与自然语言查询理解技术,支持用户在搜索框中输入如“如何种番茄”等模糊需求,即时返回包含光照、浇水、施肥、病虫害防治及季节…
适配等5项关键技巧的简洁卡片式结果。系统采用轻量级实体识别与意图分类模型,在保证响应速度的同时提升建议相关性。A/B测试显示,该功能使园艺类查询的用户停留时长提升37%,点击深度增加2.1页,验证了“搜索即服务”在垂直生活场景中的有效性。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将有害响应率降低达42%,且对数据投毒攻击展现出更强鲁棒性。📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. I don’t think AI will make your processes go faster
🔥 288 分 · 💬 229 评论
文章指出,AI并不能自动加快业务流程,真正拖慢效率的往往是上游环节(如需求模糊、文档不全、跨部门协作低效),而非表面耗时长的环节(如软件开发)。作者以Gantt图为例说明:单纯用AI生成代码看似缩短开发时间,实则将大量隐性工作(如反复澄清需…
求、人工校验输出)转移到前期准备阶段。要真正提效,关键在于为执行者提供清晰、完整、高质量的输入,即优化瓶颈前的流程,而非迷信技术替代人力。2. Every AI Subscription Is a Ticking Time Bomb for Enterprise
🔥 240 分 · 💬 200 评论