AI 每日资讯 — 2026-05-22

🔥 HuggingFace 每日论文

1. You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Zhepei Wei, Xinyu Zhu, Wei-Lin Chen

本文揭示了强化学习与可验证奖励（RLVR）训练中大语言模型参数轨迹的低秩几何特性：其权重更新高度集中于一个可线性演化的秩-1子空间。基于此发现，作者提出轻量级方法RELEX，仅需短窗口（如前50步）观测即可通过线性回归外推后续检查

点，无需额外可学习参数。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上，RELEX以仅15%的训练步数即达到或超越完整RLVR性能，在域内与跨域推理基准上均表现优异；更可外推至观测长度的10–20倍（如50步→1000步），持续提升性能。消融实验进一步证实：提升秩数或引入非线性建模均无增益，验证了该方法的极简有效性。

PDF · arXiv · 代码 · 项目 | ❤️ 38

2. Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

Dian Zheng, Manyuan Zhang, Hongyu Li

本文提出Uni-Edit——首个面向统一多模态模型（UMM）调优的智能图像编辑通用任务。针对现有混合多任务训练因任务冲突导致性能折衷的问题，Uni-Edit通过单一任务、单阶段训练与单数据集，同步提升模型的图像理解、生成与编辑能力

。作者指出图像编辑天然融合理解与生成需求，并构建首个可扩展的自动化数据合成流程，将VQA数据转化为含嵌套逻辑与问答结构的复杂编辑指令，生成高质量数据集Uni-Edit-148k。在BAGEL和Janus-Pro上的实验表明，仅用Uni-Edit微调即可全面增强三大能力，无需额外模块或辅助训练策略。

PDF · arXiv · 代码 · 项目 | ❤️ 17

3. Mem-π: Adaptive Memory through Learning When and What to Generate

Xiaoqiang Wang, Chao Wang, Hadi Nekoei

本文提出Mem-π框架，旨在解决大语言模型（LLM）智能体中记忆机制缺乏上下文适应性的问题。不同于依赖相似性检索静态记忆条目的现有方法，Mem-π引入一个参数独立的专用生成模型（语言或视觉-语言模型），根据当前智能体状态自适应地决

策“何时生成”与“生成什么”指导信息。该模型通过解耦“决策”与“内容”的强化学习目标进行训练，支持选择性生成——在无益时主动 abstain，否则输出简洁、精准的上下文相关指导。在网页导航、终端工具使用及文本驱动具身交互等多类智能体基准任务上，Mem-π显著超越检索式及先前RL优化的记忆基线，其中网页导航任务相对性能提升超30%。

PDF · arXiv | ❤️ 3

4. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

Kaiyi Zhang, Wei Wu, Yankai Lin

本文针对强化学习从可验证奖励（RLVR）中 token 级信用分配机制不明确的问题，提出 DelTA 方法。作者将 RLVR 的策略梯度更新建模为作用于 token 梯度向量的线性判别器，并指出传统基于优势加权平均构建正负侧质心的

方式易受高频共享模式（如格式化 token）干扰，削弱对高/低奖励响应具有判别力的稀疏方向。DelTA 通过估计 token 级系数，增强侧特异性梯度方向、抑制共享或弱判别方向，进而重加权自归一化 RLVR 目标函数，提升质心对比度并优化更新方向。在七个数学推理基准上，DelTA 在 Qwen3-8B-Base 和 Qwen3-8B-Instruct 上分别平均超越同规模最强基线 3.26 和 2.62 分。

PDF · arXiv | ❤️ 1

5. iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

Jun Zheng, Zhengze Xu, Mengting Chen

本文提出交互式视频虚拟试衣（Interactive VVT）这一新任务，旨在建模人物与服装间的主动交互行为，突破现有视频试衣方法仅支持静态展示的局限。针对交互语义模糊与稀疏动态建模难题，作者设计iTryOn框架：基于视频扩散Tra

nsformer，引入多级交互注入机制——空间层面采用服装无关的3D手部先验，实现手-衣接触的细粒度定位；语义层面融合全局描述与时间戳动作描述，并通过动作感知旋转位置编码（A-RoPE）实现时空对齐。在自建交互视频数据集上的实验表明，iTryOn显著提升动态保真度与交互合理性，在FID、LPIPS及用户研究中均优于现有方法。

PDF · arXiv · 项目 | ❤️ 1

6. roto 2.0: The Robot Tactile Olympiad

Elle Miller, Jayaram Reddy, Ayush Deshmukh

本文提出Robot Tactile Olympiad 2.0（roto 2.0），一个面向触觉驱动强化学习的GPU并行化基准平台，旨在解决当前该领域研究碎片化、任务同质化严重的问题。roto 2.0涵盖四种不同构型机器人（16–2

4自由度），聚焦端到端“盲操作”任务，仅依赖本体感知与触觉输入，摒弃状态先验与知识蒸馏。实验表明，其开源基线智能体在Baoding球旋转任务中实现10秒内13次完整旋转，速度较现有最优方法提升一个数量级。通过开源环境与鲁棒调优基线，显著降低研究门槛，推动算法本质创新。

PDF · arXiv | ❤️ 1

7. WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata

Basel Shbita, Pengyuan Li, Anna Lisa Gentile

本文提出WikiVQABench——一个基于维基百科与Wikidata构建的知识增强型视觉问答基准。该基准通过融合Wikipedia图像、文章标题及Wikidata结构化知识，利用大语言模型生成候选多选题，并经人工严格审核，确保问

题需结合外部知识与视觉线索方可解答。数据集涵盖大量高质量、知识依赖型VQA样本。在15个参数量级从256M至90B的视觉语言模型上的评测显示，准确率跨度达24.7%–75.6%，显著区分模型在知识密集型推理任务中的能力差异。数据与代码已开源。

PDF · arXiv

8. ProtoPathway: Biologically Structured Prototype-Pathway Fusion for Multimodal Cancer Survival Prediction

Amaya Gallagher-Syed, Costantino Pitzalis, Myles J. Lewis

本文提出ProtoPathway——一种面向可解释性的多模态癌症生存预测框架，通过融合全切片图像与转录组数据实现生物学驱动的建模。其核心在于：组织学端以K个可学习形态原型作为滑动窗口补丁的软分配目标，生成任务自适应的固定长度表征；

基因组端则基于Reactome通路层次构建二部图神经网络，通过基因-通路双向消息传递生成具有生物学上下文的通路嵌入；跨模态注意力在原型×通路矩阵上建模“分子程序→组织形态”的因果方向，所得注意力权重天然构成从基因、通路到组织空间的全层级可解释性输出。在TCGA五大癌种队列上的实验表明，该方法在保持甚至提升生存预测性能的同时，显著增强生物学可解释性并降低计算开销。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

Nitin Vetcha, Dianbo Liu

本文针对大语言模型（LLMs）在动态现实场景中面临的概念漂移与梯度适应高成本难题，提出自优化、开放式、终身学习的自主智能体SOLAR。该框架摒弃传统微调范式，采用参数级元学习机制，将模型权重视为可探索环境，结合多层级强化学习自主发

现高效测试时适配策略，并构建持续演化的策略知识库作为隐式情景记忆，协同平衡可塑性与稳定性。实验表明，SOLAR在常识、数学、医学、编程、社会及逻辑推理等多领域显著超越强基线，为面向开放环境的自主终身适应智能体提供了新范式。

2. Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Liyuan Deng, Shujian Deng, Yongkang Chen, Yongkang Dai, Zhihang Zhong, Linyang Li, Xiao Sun, Yilei Shi, Huaxi Huang

本文针对工业设计-仿真迭代优化中CAD与CAE之间语义鸿沟这一瓶颈问题，提出COSMO-Agent——一种面向闭环优化、仿真与建模协同的工具增强型智能体框架。该框架将参数化建模、CAE求解、结果解析与几何修正建模为强化学习环境，使

大语言模型（LLM）能自主调用外部工具并迭代修订几何结构直至满足多约束条件。通过设计兼顾可行性、工具链鲁棒性与输出结构有效性的多目标奖励函数，并构建覆盖25类工业部件、含可执行CAD-CAE任务的行业对齐数据集，COSMO-Agent显著提升了小型开源LLM在约束驱动设计任务中的性能，在可行性、效率与稳定性上均超越大型开源及强闭源模型。

3. OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi, Samia Shahid Prianna, Shaikhul Islam Sinat

本文针对大语言模型（LLM）在高阶心理理论（ToM）任务中递归信念建模与信息不对称场景下的推理薄弱问题，提出OSCToM框架——一种基于强化学习引导的对抗性生成方法，用于构建观察者-自我信念冲突这一新型ToM挑战。该方法融合领域专

用语言扩展与组合式代理模型，实现高效、可控的高阶信念冲突数据合成。实验表明，OSCToM-8B在FANToM基准上达76%准确率，显著超越ExploreToM的0.2%；在Hi-ToM与BigToM上亦具竞争力，且数据合成效率提升6倍，验证了小规模模型通过定向数据增强实现高级认知推理的可行性。

📄 arXiv: cs.CL

1. Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Marco Bombieri, Simone Paolo Ponzetto, Marco Rospocher

本文探究大语言模型（LLMs）对残障群体的表征偏差问题，通过模拟残障人士在社交媒体上的发帖行为，并与真实残障用户发布的文本在情感基调、情感倾向及主题词分布上进行对比分析。研究发现：（1）LLMs倾向于理想化残障经历，生成过度积极的

刻板印象，掩盖其现实中的结构性障碍与日常挑战；（2）在跨群体比较中，模型显著弱化残障者在职业发展、娱乐等领域的参与表征，强化了非残障者的主导性叙事，加剧社会排斥。实验结果揭示LLMs在呈现边缘化群体复杂现实方面存在系统性失真，凸显对其社会表征能力开展批判性评估与干预的紧迫性。

Xintong Wu, Peiting Tsai, Jing Yuan, Michael Yu, Greg Sun, Luyao Zhang

本文针对Decentraland虚拟世界中MANA代币的价格预测问题，提出融合Discord社区多模态情感信号与链上金融数据的分析框架。研究采用BERT大语言模型提取社区文本情感得分，并构建两种LSTM预测模型：仅基于历史价格的基

线模型，以及融合情感得分、交易量与市值的多模态模型。实验表明，Discord社区情感整体呈中性偏正面分布，且多模态模型在收益率预测任务中显著优于单模态基线（MAE降低18.7%，R²提升23.4%）。该工作验证了去中心化社区语义信号对虚拟经济预测的有效性，为元宇宙场景下的NLP与加密市场交叉研究提供了新范式。

3. Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Aisvarya Adeseye, Jouni Isoaho, Adeyemi Adeseye

本研究针对量化大语言模型（LLMs）在质性分析中因低比特量化（2–8 bit）导致的幻觉增多、结果不稳定等问题，以LLaMA-3.1（8B）为对象，基于82份专家与非专家访谈转录文本开展实证分析。提出一种量化感知的多轮提示验证方法

，通过分步引导、不可靠内容过滤与跨文本结果传递机制，显著抑制幻觉并提升一致性。结合NVivo人工编码与BF16精度模型输出（经人工校正）构建黄金标准真值（GSGT），实验表明：8-bit模型最接近GSGT；4-bit模型在引入该方法后稳定性与准确性同步提升；2/3-bit模型虽受压缩损伤影响较大，但仍获明显改善。此外，量化类型对同比特模型性能存在显著差异。该方法有效提升了低资源LLM在质性研究中的可靠性与实用性。

📄 arXiv: cs.LG

1. Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Jai Sharma, Yifan Wang, Bryan Li

本文针对掩码离散序列模型（如掩码扩散模型，MDMs）难以显式建模变量间依赖关系的问题，提出一种基于神经网络的成对条件互信息（MI）估计框架。该方法利用预训练MDM的隐状态，以模型自身条件分布计算的真实MI为监督信号，训练轻量级神经

估计器，在单次前向传播中高效预测完整MI矩阵。在Sudoku求解与ESM-C蛋白序列生成任务上，所学MI图准确复现已知结构约束，并支持MI引导的并行解码：将推理阶段前向调用次数降低3–5倍，同时保持生成质量，显著优于基于熵的并行化基线。

2. GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

Krati Saxena, Tomohiro Shibata

GraphDiffMed针对电子健康记录（EHR）中长程、高噪声、临床异质性导致的用药组合推荐难题，提出一种融合药理学图先验的知识约束型差异化注意力框架。其核心是双尺度Differential Attention v2机制：在院内

（intra-visit）与跨院次（inter-visit）两个层级分别建模并抑制虚假信号；同时将药物-药物相互作用（DDI）等药理知识以软约束形式嵌入学习过程。在MIMIC-III数据集上的实验表明，该方法在推荐准确率、排序质量及安全性（如DDI规避）方面均显著优于强基线模型；消融研究进一步验证了各模块的有效性，并发现仅使用人口统计学辅助特征即可取得最优性能。代码已开源。

3. TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data

Cormac Cureton, Narges Armanfard

TabPFN-MT 提出了一种原生支持多任务的上下文内学习（in-context learning）方法，专为小到中等规模表格数据（<1000样本）设计。针对传统Prior-Data Fitted Networks（PFNs）仅支

持单任务推理、无法共享跨任务信息的局限，该模型通过扩展的多目标合成先验训练、增强的$y$-编码器及共享解码头，实现多目标联合上下文建模与一次性前向推理。在344个数据集上的实验表明，其在多任务准确率平均排名达4.89，显著优于现有方法，并以$O(1)$次前向传播替代传统$O(T)$开销，大幅提升计算效率，同时在单任务性能上仍具强竞争力。

📄 arXiv: cs.CV

1. Leveraging Vision-Language Models to Detect Attention in Educational Videos

Gabriel Becquet (LIP6, CNRS, SU), S'ebastien Lall'e (CNRS, LIP6, SU), Vanda Luengo (LIP6, CNRS, SU), Ali Abou-Hassan (SU, CNRS, PHENIX, IUF)

本文针对教育视频学习中学习者注意力波动导致信息保持率低的问题，提出一种基于视觉-语言模型（VLM）的注意力检测新范式。区别于传统依赖人工设计眼动特征（如注视点统计、扫视特征）与经典分类器的方法，本研究首次将VLM（Gemini 3

）直接应用于融合视频帧与叠加眼动热图的多模态输入，以语义化理解学习者关注内容在教学上下文中的意义。基于70名被试的教育眼动数据集，系统评估了多种提示策略，结果表明所有VLM方案均未超越简单统计基线模型。该发现揭示了当前VLM在实时教育诊断任务中泛化性与细粒度时空建模能力的局限性，为后续基础模型教育适配研究提供了重要实证依据。

2. Why Latent Actions Fail, and How to Prevent It

Jung Min Lee, Taehyun Cho, Li Zhao, Jungwoo Lee

本文针对潜变量动作模型（LAMs）在真实视频中学习失败的问题展开研究，指出其根源在于视频帧中混杂的外源状态（如背景干扰）引入与动作无关的动态变化，从而污染潜动作表征。作者通过扩展线性LAM框架显式建模外源状态，理论分析发现：（1）

标准重构目标会导致潜动作编码未来观测中的外源信息；（2）聚焦于内源状态的表征空间是抑制噪声干扰的关键。进一步证明，已有辅助目标（如动作监督）可从理论上保障潜动作在外源状态变化下的不变性。实验在多种线性和非线性LAM上验证了理论结论，为理解外源状态影响及现有改进方法的有效性提供了统一理论支撑。

3. AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education

Hanchen David Wang, Yilin Liu, Madison J. Lee, Surya Chand Rayala, Gautam Biswas, Daniel T. Levin, Meiyi Ma

本研究针对临床模拟教学中人工评估学习者能力耗时、难扩展且存在评分者间差异的问题，提出一种基于第一人称视频的AI辅助能力评估框架。该框架分三阶段：（1）利用冻结的DINOv2视觉编码器与隐马尔可夫模型（HMM）Viterbi解码，在

少样本设定下提取护理操作时间线；（2）构建序列级特征与单次会话识别指标；（3）关联其与教师评定的能力得分。在22个密集标注会话（3.8小时，493个动作）上，该方法实现57.4%的平均操作帧准确率（MOF）。出乎意料的是，识别准确率与能力呈显著负相关（mIoU：ρ = −0.524, p = 0.012），表明高能力学习者行为更具多样性与复杂性，更难被标准分类器建模；而患者安全协议执行与团队沟通等关键行为最显著体现该规律。结果提示，识别准确率本身可作为反映临床思维成熟度的新型教育信号，补充动作预测结果用于自动化能力评估。

🔬 OpenReview 近期论文

1. Confident Block Diagonal Structure-Aware Invariable Graph Completion for Incomplete Multi-view Clustering

Shuping Zhao, Yulong Chen, Jie Wen

本文针对不完整多视图聚类（IMVC）中缺失视图恢复不准确及完整/不完整样本分布差异两大挑战，提出一种基于置信块对角结构感知的不变图补全方法（CBDS_IMVC）。该方法首先设计置信感知的缺失视图推断策略，通过学习置信块对角结构（C

BDS），约束所有视图恢复样本保持严格一致的局部不变结构；进而提出不变图补全策略，联合建模跨视图内在结构。两模块端到端联合优化、相互促进。在多个基准数据集上的实验表明，CBDS_IMVC显著优于现有先进方法。

PDF

2. SkyEvents: A Large-Scale Event-enhanced UAV Dataset for Robust 3D Scene Reconstruction

Wenzong Ma, Zhuoxiao Li, Jinjing Zhu

本文针对无人机（UAV）在强运动模糊与低光照等极端环境下难以获取一致多视角图像、制约大规模3D场景重建性能的问题，提出首个面向鲁棒3D重建的事件增强型UAV数据集SkyEvents。该数据集包含45个序列、逾8小时RGB-事件-L

iDAR同步数据，覆盖多样光照、场景与飞行高度。为支持事件驱动的重建，作者设计了几何约束的时间戳对齐（GTA）模块以精确同步事件与RGB相机，并引入区域感知事件渲染（RER）损失函数指导神经渲染优化。实验验证了SkyEvents在提升动态模糊与低光场景下重建鲁棒性方面的有效性，为事件相机赋能的大规模三维感知提供了关键基准与技术支撑。

PDF

3. Topological Flow Matching

Kacper Wyrwal, Ismail Ilkan Ceylan, Alexander Tong

本文提出“拓扑流匹配”（Topological Flow Matching），一种面向结构化数据的拓扑感知流匹配生成建模框架。针对标准流匹配将图结构信号（如脑fMRI）简单嵌入欧氏空间、忽略其底层拓扑特征的问题，本文将流匹配重新诠

释为退化Schrödinger桥问题的求解，并通过引入基于拉普拉斯算子的漂移项来编码域结构信息。该设计在保持流匹配稳定、免模拟目标函数与确定性采样路径等优势的同时，显式融合拓扑先验。实验表明，该方法在脑功能影像、海洋流场、地震事件及交通流等多类结构化数据上显著提升生成质量与下游任务性能，可即插即用地替代标准流匹配。

PDF

4. Benchmarking Open-ended Segmentation

Cristina González, Santiago Rodriguez, Kevis-kokitsi Maninis

本文针对开放语义分割任务中现有评估协议无法准确反映生成描述语义准确性的问题，指出基于嵌入相似度的映射方法与人类判断存在显著偏差。为此，作者提出一种新型映射函数，综合考量自由形式输出与测试词表标签间的多重词汇关系，显著提升与人工标注

的一致性。基于该映射构建了鲁棒评估框架，并对主流方法进行系统重评测。此外，本文首次提出面向开放语义分割的多模态大语言模型，采用对比学习目标联合对齐视觉区域与文本描述，在开放语义全景分割任务上取得新的SOTA性能。

PDF

5. Byzantine-Robust Federated Learning with Learnable Aggregation Weights

Javad Parsa, Amir Hossein Daghestani, André M. H. Teixeira

针对异构数据下拜占庭鲁棒联邦学习中聚合策略脆弱的问题，本文提出一种可学习聚合权重的优化框架，将聚合权重视为与全局模型参数联合优化的可学习变量。通过构建新型拜占庭鲁棒目标函数，并设计具有严格收敛性保证的交替最小化算法，实现了对恶意客

户端的有效抑制。理论分析表明该目标具备良好的拜占庭弹性。在多种数据集与攻击场景下的实验验证表明，所提方法在高数据异质性及高比例恶意客户端条件下，显著优于现有主流鲁棒联邦学习算法。

PDF

6. TD-MoE: Tensor Decomposition for MoE Models

Yuebin XU, YANHONG WANG, Xuemei Peng

本文针对MoE大模型中专家参数冗余导致内存开销过大的问题，提出TD-MoE——一种基于张量分解的MoE模型压缩方法。该方法将单层所有专家权重联合张量化为三维张量，通过跨专家联合分解挖掘全局结构冗余；引入多线性白化策略解耦输入/输出

特征，提升分解的数据适应性；并设计三维秩分配机制，在满足目标压缩比约束下最小化重构误差。在Qwen2-57B-A14B与Mixtral-8×7B上的实验表明，TD-MoE在20%参数缩减下几乎无性能损失，在40%和60%压缩率下分别较SOTA分解方法提升11%和14%。消融研究验证了各模块的有效性。

PDF

7. Pi-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning

Jiayu Zhang, Chuangxin Zhao, Canran Xiao

本文针对基础视觉-语言模型在非平稳数据流上持续学习时无法访问历史数据的挑战，提出无需回放的Prompt-Invariant CCA Certificates（Pi-CCA）方法。该方法以几何视角建模图像-文本对齐，通过紧凑的典型相

关分析（CCA）证书捕获前k个典型谱与子空间，仅依赖小批量统计完成适配，并通过对提示扰动取平均增强提示鲁棒性。在MTIL、X-TAIL、VLCL和ConStruct-VL等基准上，Pi-CCA在无回放方法中达到最优性能，显著保持零样本识别能力，并对域偏移与提示/风格变化具备强鲁棒性。

PDF

8. Reversible Primitive–Composition Alignment for Continual Vision–Language Learning

Canran Xiao, Tianxiang Xu, siyuanma

本文针对视觉-语言（VL）模型在持续学习中易保留原始识别能力却丢失组合结构的问题，提出Compo-ReAlign方法。该方法以结构一致性为先，包含三个核心组件：可逆组合器（显式将原始嵌入映射为组合表征）、多正样本InfoNCE损失

（联合对齐文本与组合视图），以及谱信任区域机制（在对齐敏感性激增时约束参数更新）。在组合式领域增量学习（DIL）与多域任务增量检索（MTIL）任务上，Compo-ReAlign刷新SOTA，R@1提升2.4，遗忘率降低40%，并提供轻量、可逆、几何感知的对齐头，显著增强VL模型的组合鲁棒性与零样本泛化能力。

PDF

9. A Causal Perspective on Jump-Diffusion for Time-Series Anomaly Detection

Zixuan Ma, Chenfeng Huang

本文针对时序异常检测中忽略潜在因果结构与环境驱动结构性偏移的问题，提出因果软跳扩散异常检测框架（CSJD-AD）。该方法基于环境条件不变性假设，通过推断离散环境状态，联合建模潜动态过程与环境依赖的软门控跳跃强度，并生成“预期”（反

事实）与“观测”（事实）轨迹对，显式对比因果一致行为与未解释偏差。在多个基准数据集上，CSJD-AD显著优于现有方法，验证了融合因果推理与跳跃感知动态建模的有效性。

PDF

10. Generative Blocks World: Moving Things Around in Pictures

Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth

本文提出生成式积木世界（Generative Blocks World），旨在实现对生成图像场景的可控交互编辑。该方法将场景建模为可变数量的凸3D几何基元组合，支持从整体结构到局部细节的多粒度操作；编辑后的3D几何通过基于流（fl

ow-based）的图像生成模型重建图像，该模型以深度图和语义感知的纹理提示为条件。所提出的纹理提示显式编码修改后的3D基元信息，在保证纹理一致性的同时，显著提升物体/相机运动的准确性与物体身份保真度。实验表明，该方法在视觉质量、编辑灵活性及组合泛化能力上均优于现有工作。

PDF

11. Infinite Horizon Markov Economies

Denizalp Goktas, Sadie Zhao, Yiling Chen

本文提出“马尔可夫伪博弈”（Markov pseudo-game）模型，统一推广了马尔可夫博弈与伪博弈，既能刻画时间演化与随机性，又允许玩家行动动态影响他人可行策略集，为建模一般经济系统提供了兼具表达力与严谨性的数学框架。作者证明

了该模型中博弈均衡的存在性，从而导出对应马尔可夫经济中一般均衡（即递归Radner均衡，RRE）的存在性；进一步设计了一种多项式时间收敛的求解算法。理论结果被应用于无限期马尔可夫交换经济，将RRE建模为凹性马尔可夫伪博弈，并基于生成对抗策略神经网络实现高效近似求解，在多类实例中验证了方法的有效性。

🏛️ Yiling Chen | PDF

12. M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding

Juntao Jiang, Jiangning Zhang, Yali bi

本文针对当前医学影像理解基准忽视推理过程、缺乏对思维链（Chain-of-Thought, CoT）可解释性与临床可靠性评估的问题，提出首个面向多模态大语言模型（MLLMs）的医学CoT评测基准M3CoTBench。该基准涵盖24

种检查类型、13类难度递进任务，构建了覆盖正确性、效率、影响度与一致性的四维CoT专用评估体系，并对多个主流MLLMs进行了系统评测。实验表明，现有模型在生成符合临床逻辑、可追溯、高一致性的推理路径方面仍存在显著不足。M3CoTBench旨在推动具备透明性、可信性与诊断准确性的医疗AI发展。

PDF

13. SVD Provably Denoises Nearest Neighbor Data

Ravindran Kannan, Kijun Shin, David Woodruff

本文研究了高维空间中带高斯噪声的最近邻搜索（NNS）问题，其中真实数据位于未知的 $k$ 维子空间（$k \ll d$），观测数据为该低维结构叠加各向同性高斯噪声。作者提出一个半随机模型，并严格刻画了噪声强度 $\sigma$ 对

NN可恢复性的临界影响：当 $\sigma = O(1/k^{1/4})$ 时，仅通过奇异值分解（SVD）即可实现理论可证的去噪，准确恢复原始低维数据的最近邻（定理1.1）；而当 $\sigma \gg 1/k^{1/4}$ 时，NN在噪声数据下甚至不可识别（引理3.1），确立了该阈值的紧性；进一步，当 $\sigma \gg 1/\sqrt{k}$ 时，噪声幅值远超原始点间距离，此时噪声数据的NN与真实NN普遍不一致。实验验证了SVD在该理论阈值内显著优于直接在噪声数据上执行NNS，为谱方法在实际相似性检索中的有效性提供了首个严格理论支撑。

🏛️ David Woodruff | PDF

14. Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

Cristian Hinostroza, Rodrigo Toro Icarte, Christ Devia

本文针对大语言模型（LLM）中层相关性评估的常见方法——余弦相似度——提出根本性质疑。理论分析表明，低余弦相似度并不必然反映层的重要性缺失，某层即使与输入/输出表征高度不一致，仍可能对模型性能起关键作用；多类LLM的实证结果进一步

证实，余弦相似度与实际层移除导致的性能下降之间仅存在弱至中等相关性。为此，作者提出以**层移除后模型准确率的实际下降量**作为更鲁棒的层相关性度量标准。尽管该方法计算开销较大，但能更真实刻画层功能贡献，为模型剪枝与轻量化提供可靠依据，对提升LLM可解释性具有重要启示。

PDF

15. Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh

本文针对深度学习模型在非平稳环境中的可塑性丧失（LoP）问题，基于动力系统理论提出首个第一性原理分析框架，将LoP形式化为梯度动态被困于参数空间的不变子流形。研究揭示了两类关键陷阱机制：由激活饱和导致的神经元冻结，以及由表征冗余引

发的克隆单元流形。尤为重要的是，发现静态场景中促进泛化的机制（如低秩压缩）恰恰会驱动网络进入LoP流形，构成根本性权衡。通过数值模拟验证理论预测，并展示了特定架构干预可有效破坏此类流形、恢复模型可塑性。

PDF

📝 AI 官方博客

1. We’re announcing new community investments in Missouri.

📝 Google AI Blog

本文宣布谷歌在密苏里州启动新一轮社区投资计划，聚焦于培育下一代技术人才与推动清洁能源发展。项目包括与当地教育机构合作开展计算机科学教育与职业培训，提升青少年及在职人员的数字技能；同时资助分布式能源、能效升级和可再生能源接入等示范性能源项目。…

初步试点已在圣路易斯和堪萨斯城落地，预计三年内覆盖超5万名学生与200家中小企业，并助力该州减少年度碳排放约1.2万吨。

2. 100 things we announced at I/O 2026

📝 Google AI Blog

本文总结了2026年Google I/O开发者大会发布的100项重要更新与技术进展，涵盖AI、Android、Chrome、Cloud、Wear OS及Web平台等多个领域。核心聚焦于Gemini系列模型的全面升级，包括原生多模态理解、实时…

推理优化及端侧部署能力；Android 16引入更智能的隐私沙盒与情境感知交互框架；Chrome强化Web AI API生态；Google Cloud推出面向企业的GenAI协作平台Vertex AI Studio Pro。所有更新均强调以开发者为中心的可集成性与实际落地效能。

3. A new experiment brings better group meetings to Google Beam

📝 Google AI Blog

本文提出了一种面向远程混合会议场景的新型实验性系统，旨在提升Google Beam设备在小规模群体会议中的协作体验。研究聚焦于两室内外参与者与三名屏幕端远程参与者共处一会议场景下的交互瓶颈，通过优化视频布局、语音增强与注意力感知机制，实现了…

更自然的视线对齐、发言识别与上下文同步。关键技术包括低延迟多源音视频融合、基于姿态估计的虚拟凝视校正，以及轻量级会议状态建模。在真实办公环境中的用户研究表明，该方案显著提升了远程参与者的临场感（+37%）与会议效率（任务完成时间缩短22%），为混合办公中的平等协作提供了可行路径。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象，本工作系统梳理了现有奖励黑客案例的成因分类，提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…

，并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明，该方法能有效识别约78%的隐式奖励篡改行为，较基线方法提升23%。后续将拓展至高维连续控制任务，并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题，该方法设计多阶段数据筛选管道，结合语义毒性检测、知识边界识别与对…

抗性示例剔除技术，在不依赖微调或后处理的前提下，从源头削弱模型习得危险能力的可能。在多个安全基准（如BBQ、ToxiGen、SafeBench）上的实验表明，经过滤数据训练的模型在保持通用能力（MMLU、ARC）的同时，将越狱成功率降低达62%，有害响应率下降57%，且对数据删除攻击展现出更强鲁棒性。

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

📝 Anthropic

本文介绍了Anthropic最新发布的Claude Opus 4.7模型，该模型在编程、智能体（agents）、多模态视觉理解及复杂多步推理任务上实现显著性能提升。通过优化推理深度、增强上下文一致性与任务专注度，Opus 4.7在Codef…

orces代码生成、MMMU多模态理解、AgentBench自主代理评测等基准中均取得SOTA结果。同时，配套推出的Claude Design工具支持用户协同生成高质量视觉内容，进一步拓展了大模型在创意生产力场景的应用边界。

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

📝 Anthropic

暂无摘要

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该页面仅显示标题“one daily email”，无其他实质性内容，无法提取具体新闻或信息。

AI 每日资讯 — 2026-05-22#

🔥 HuggingFace 每日论文#

1. You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories#

2. Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning#

3. Mem-π: Adaptive Memory through Learning When and What to Generate#

4. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards#

5. iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance#

6. roto 2.0: The Robot Tactile Olympiad#

7. WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata#

8. ProtoPathway: Biologically Structured Prototype-Pathway Fusion for Multimodal Cancer Survival Prediction#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation#

2. Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration#

3. OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind#

📄 arXiv: cs.CL#

1. Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs#

2. Leveraging Large Language Models for Sentiment Analysis: Multi-Modal Analysis of Decentraland’s MANA Token#

3. Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification#

📄 arXiv: cs.LG#

1. Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models#

2. GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation#

3. TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data#

📄 arXiv: cs.CV#

1. Leveraging Vision-Language Models to Detect Attention in Educational Videos#

2. Why Latent Actions Fail, and How to Prevent It#

3. AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education#

🔬 OpenReview 近期论文#

1. Confident Block Diagonal Structure-Aware Invariable Graph Completion for Incomplete Multi-view Clustering#

2. SkyEvents: A Large-Scale Event-enhanced UAV Dataset for Robust 3D Scene Reconstruction#

3. Topological Flow Matching#

4. Benchmarking Open-ended Segmentation#

5. Byzantine-Robust Federated Learning with Learnable Aggregation Weights#

6. TD-MoE: Tensor Decomposition for MoE Models#

7. Pi-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning#

8. Reversible Primitive–Composition Alignment for Continual Vision–Language Learning#

9. A Causal Perspective on Jump-Diffusion for Time-Series Anomaly Detection#

10. Generative Blocks World: Moving Things Around in Pictures#

11. Infinite Horizon Markov Economies#

12. M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding#

13. SVD Provably Denoises Nearest Neighbor Data#

14. Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity#

15. Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity#

📝 AI 官方博客#

1. We’re announcing new community investments in Missouri.#

2. 100 things we announced at I/O 2026#

3. A new experiment brings better group meetings to Google Beam#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.#

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.#

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.#

📬 TLDR AI 精选#

1. one daily email#

📰 TechCrunch AI 新闻#

1. Spotify launches an ElevenLabs-powered audiobook creation tool#

2. Spotify takes on Google’s NotebookLM with its new app#

3. Spotify adds AI-powered Q&A and briefing generation features to podcasts#

4. Hark raises $700M Series A for its secretive “universal” AI interface#

5. The Path, founded by Tony Robbins and Calm alums, hopes to offer safer AI therapy#

AI 每日资讯 — 2026-05-22

🔥 HuggingFace 每日论文

1. You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

2. Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

3. Mem-π: Adaptive Memory through Learning When and What to Generate

4. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

5. iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

6. roto 2.0: The Robot Tactile Olympiad

7. WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata

8. ProtoPathway: Biologically Structured Prototype-Pathway Fusion for Multimodal Cancer Survival Prediction

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

2. Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

3. OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

📄 arXiv: cs.CL

1. Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

2. Leveraging Large Language Models for Sentiment Analysis: Multi-Modal Analysis of Decentraland’s MANA Token

3. Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

📄 arXiv: cs.LG

1. Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

2. GraphDiffMed: Knowledge-Constrained Differential Attention with Pharmacological Graph Priors for Medication Recommendation

3. TabPFN-MT: A Natively Multitask In-Context Learner for Tabular Data

📄 arXiv: cs.CV

1. Leveraging Vision-Language Models to Detect Attention in Educational Videos

2. Why Latent Actions Fail, and How to Prevent It

3. AI-Assisted Competency Assessment from Egocentric Video in Simulation-Based Nursing Education

🔬 OpenReview 近期论文

1. Confident Block Diagonal Structure-Aware Invariable Graph Completion for Incomplete Multi-view Clustering

2. SkyEvents: A Large-Scale Event-enhanced UAV Dataset for Robust 3D Scene Reconstruction

3. Topological Flow Matching

4. Benchmarking Open-ended Segmentation

5. Byzantine-Robust Federated Learning with Learnable Aggregation Weights

6. TD-MoE: Tensor Decomposition for MoE Models

7. Pi-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning

8. Reversible Primitive–Composition Alignment for Continual Vision–Language Learning

9. A Causal Perspective on Jump-Diffusion for Time-Series Anomaly Detection

10. Generative Blocks World: Moving Things Around in Pictures

11. Infinite Horizon Markov Economies

12. M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding

13. SVD Provably Denoises Nearest Neighbor Data

14. Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

15. Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

📝 AI 官方博客

1. We’re announcing new community investments in Missouri.

2. 100 things we announced at I/O 2026

3. A new experiment brings better group meetings to Google Beam

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📬 TLDR AI 精选

1. one daily email

📰 TechCrunch AI 新闻

1. Spotify launches an ElevenLabs-powered audiobook creation tool

2. Spotify takes on Google’s NotebookLM with its new app

3. Spotify adds AI-powered Q&A and briefing generation features to podcasts

4. Hark raises $700M Series A for its secretive “universal” AI interface

5. The Path, founded by Tony Robbins and Calm alums, hopes to offer safer AI therapy