AI 每日资讯 — 2026-05-15
🔥 HuggingFace 每日论文
1. MinT: Managed Infrastructure for Training and Serving Millions of LLMs
Mind Lab, Song Cao, Vic Cao
本文提出MinT(MindLab Toolkit),一种面向大规模LoRA微调与在线服务的托管式基础设施系统。MinT通过保持基础模型常驻内存、仅动态加载/卸载LoRA适配器,避免全量模型合并,统一抽象分布式训练、调度、数据迁移与
服务流程。其在Scale Up、Scale Down和Scale Out三方面实现扩展:支持超大规模稠密模型与MoE架构(参数量超1T)的LoRA强化学习训练与推理;LoRA适配器体积可压缩至基座模型的1%以内,显著降低传输开销(步延迟降低2.85–18.3×);单引擎支持10⁵级策略索引,集群级支持千级并发适配器服务,MoE LoRA张量打包使热加载加速8.5–8.7×。实验验证MinT可高效管理百万级LoRA策略生命周期。PDF · arXiv · 代码 · 项目 | ❤️ 137
2. Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Zhaowei Wang, Lishu Luo, Haodong Duan
本文针对长上下文视觉语言模型(LVLMs)训练中数据配比与策略不明确的问题,系统研究了从32K扩展至128K上下文的持续预训练方法。作者发现长文档视觉问答(VQA)显著优于OCR转录任务,并通过消融实验得出三项关键结论:i) 均衡
分布的序列长度比聚焦目标长度(如128K)更利于泛化;ii) 检索能力是主要瓶颈,应优先采用检索密集型数据混合;iii) 纯长文档VQA可有效保留短上下文性能。基于此,提出仅用5B token预算训练的MMProLong模型,在长文档VQA上提升7.1%,并在256K/512K超长上下文下保持强泛化能力。3. EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents
Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz
EVA-Bench 是一个面向语音智能体(Voice Agents)的端到端评估框架,旨在解决现有基准在模拟真实对话与全面衡量语音特有失效模式两方面的不足。该框架通过动态多轮 Bot-to-Bot 音频对话实现高保真场景仿真,并引
入自动验证与重生成机制保障模拟质量;在评估层面,提出两个复合指标——EVA-A(准确性,涵盖任务完成率、响应忠实性与语音保真度)和 EVA-X(体验质量,涵盖对话连贯性、口语简洁性与轮转时序),支持跨架构公平比较。实验覆盖 213 个企业级场景及声学鲁棒性扰动测试,结果表明当前系统在峰值(pass@1)与可靠性能(pass^k)间存在显著差距(中位差达 0.44),且尚无系统能在两项核心指标上同时突破 0.5。4. FrameSkip: Learning from Fewer but More Informative Frames in VLA Training
Bin Yu, Shijie Lian, Xiaopeng Lin
本文针对视觉-语言-动作(VLA)策略训练中因均匀采样密集机器人演示帧而导致的“时间监督失衡”问题,提出FrameSkip框架:在数据加载层依据动作变化性、视觉-动作一致性、任务进展先验及夹爪状态跃迁保留性对轨迹帧进行重要性评分,
并按目标保留率重映射训练样本至高信息量帧。该方法无需修改模型架构、损失函数或推理流程。在RoboCasa-GR1、SimplerEnv和LIBERO三大基准上,FrameSkip以仅保留20%关键帧的压缩视图,将宏平均成功率从全帧训练的66.50%提升至76.15%,显著改善成功率与数据效率的权衡。5. RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data
Harold Haodong Chen, Sirui Chen, Yingjie Xu
RoboEvolve提出了一种面向数据稀缺场景的机器人操作规划-仿真协同进化框架,通过耦合视觉语言模型(VLM)规划器与视频生成模型(VGM)仿真器,构建认知启发的“日间探索—夜间巩固”双阶段机制:前者基于语义控制的多粒度奖励驱动
物理 grounded 行为发现,后者从“近失败”案例中提炼知识以稳定策略优化,并依托自主渐进式课程实现从原子动作到复杂任务的自然扩展。实验表明,该方法在仅500张无标签种子图像下,规划成功率提升30个百分点,仿真成功率平均提高48%,数据效率达全监督基线的50倍,且具备强持续学习能力,无灾难性遗忘。6. Topology-Preserving Neural Operator Learning via Hodge Decomposition
Dongzhe Zheng, Tao Zhong, Christine Allen-Blanchette
本文针对几何网格上物理场方程解算子的学习问题,提出一种保持拓扑结构的神经算子学习框架。基于Hodge分解理论,作者揭示Hodge正交性可从根本上分离不可学习的拓扑自由度与可学习的几何动力学,从而实现结构保持子空间内的加性近似。由此
构建了融合欧拉与拉格朗日描述的混合架构,并引入代数层级的归纳偏置——Hodge谱对偶(HSD)。该方法利用离散微分形式建模拓扑主导分量,辅以正交环境空间刻画局部复杂动力学,在几何图上显著提升精度、效率及对物理守恒律的保真度。7. Negation Neglect: When models fail to learn negations in training
Harry Mayne, Lev McKinney, Jan Dubiński
本文提出“否定忽视”(Negation Neglect)现象:大语言模型在微调过程中,若训练数据以独立句子形式明确否定某虚假主张(如“该说法错误”),模型反而更倾向于相信该主张为真。实验表明,在Qwen3.5-397B-A17B等
多模型上,对含否定标记的虚构声明进行微调后,模型对该声明的“相信率”从2.5%飙升至88.6%,接近直接陈述该声明时的92.4%;而当否定嵌入主张本身(如“Ed Sheeran并未赢得……”)时,模型可正确习得否定含义。该现象广泛存在于Kimi K2.5、GPT-4.1等主流模型,并延伸至其他认识论修饰语(如“虚构”“假设”)及行为层面——例如,用标注为恶意的对话数据微调,会导致模型习得并复现相应有害行为,对AI安全构成严峻挑战。8. Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
Jiahui Niu, Kefan Gu, Yucheng Zhao
本文针对基于扩散模型的视觉-语言-动作(dVLA)系统在具身智能实时部署中推理延迟过高的问题,提出Realtime-VLA FLASH——一种面向dVLA的推测式推理框架。该框架引入轻量级草稿模型,并通过主模型的动作专家模块并行验
证推测结果;结合相位感知的回退机制,在关键决策阶段自动切换至完整推理以保障可靠性。在LIBERO基准上,FLASH将平均任务级推理延迟由58.0 ms降至19.1 ms(加速3.04倍),同时几乎不损性能;在真实传送带分拣任务中亦验证了其工程实用性。🔥 arXiv 每日论文
📄 arXiv: cs.AI
1. Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents
Nishad Singhi, Christian Bialas, Snehal Jauhri, Vignesh Prasad, Georgia Chalvatzaki, Marcus Rohrbach, Anna Rohrbach
本文针对具身智能体在复杂真实任务中泛化能力弱、面对分布外场景易失效的问题,提出验证器引导的动作选择框架(VeGAS)。该方法在推理阶段不修改原有策略,而是对多候选动作进行采样,并利用专门训练的生成式验证器筛选最优动作。为提升验证器
鲁棒性,作者设计了大语言模型驱动的数据合成策略,自动构建涵盖多样化失败模式的训练课程。在Habitat与ALFRED等具身推理基准上,VeGAS在多物体、长视野等最具挑战性的任务中,相较强链式推理基线实现最高36%的相对性能提升。🏛️ Marcus Rohrbach, Anna Rohrbach
2. Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan
本文针对多智能体强化学习(MARL)在现实场景中需动态响应外部自然语言指令的问题,提出了一种基于宏动作的价值校正方法MAVIC。该方法在指令切换边界处修正贝尔曼回溯目标,通过调整指令目标项并恢复当前目标下的延续价值,解决因指令中断
宏动作而导致的价值估计不一致问题。与奖励塑形不同,MAVIC直接修改引导目标,支持随机指令切换下的统一策略训练。理论分析与Actor-Critic实现表明,MAVIC在提升指令遵循率的同时,显著保持了基础任务性能,在日益复杂的多智能体协作环境中展现出优越性。3. Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
Hao Wang, Hanchen Li, Qiuyang Mang, Alvin Cheung, Koushik Sen, Dawn Song
本文针对AI智能体基准测试中普遍存在的“奖励黑客”(reward hacking)问题,提出系统性审计框架BenchJack。作者首先归纳出八类常见基准缺陷模式,构建Agent-Eval检查清单;进而设计BenchJack——一种
基于代码智能体的自动化红队审计系统,以“先知式”方式主动挖掘奖励欺骗漏洞;并进一步扩展为生成对抗式迭代管道,实现漏洞发现与修复闭环。在10个主流智能体基准(涵盖软件工程、网页导航、桌面与终端操作)上的实验表明,BenchJack成功合成大量高分但任务失败的欺骗策略,共揭示219个跨类缺陷;经三轮迭代,四个基准的可被黑客攻击任务比例从近100%降至10%以下,WebArena与OSWorld更实现完全修复。结果凸显当前评估体系缺乏对抗思维,亟需前置式安全审计机制。🏛️ Dawn Song
📄 arXiv: cs.CL
1. Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation
Lucas Resck, Isabelle Augenstein, Anna Korhonen
本文针对多语言大语言模型(MLLMs)在提示语种切换时出现的跨语言文化不一致性问题——即当用户身份(如英国人格)被明确定义时,模型仍因提示语言改变而输出与之冲突的文化内容(如英语提示输出莎士比亚、西班牙语提示输出塞万提斯)——提出
系统性解决方案。作者构建了抗幻觉的量化指标Singleton Fleiss’s κₛ,并设计共识驱动的对齐框架C-3PO,通过偏好优化提升跨语言文化一致性。实验表明,C-3PO在κₛ上较基线提升最高达0.10,显著优于提示工程与表征引导方法;该问题在印尼语、波斯语等低资源语言中尤为突出;层解析进一步揭示:MLLMs在前向传播中早期即隐式将中间表征偏向提示语种的刻板文化。🏛️ Isabelle Augenstein, Anna Korhonen
2. Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning
Saiful Islam Sagor, Tania Haghighi, Minhaj Nur Alam, Erina Baynojir Joyee
本文针对通用大语言模型(LLM)在聚合物复合材料增材制造(AM)领域因缺乏领域知识 grounding 而导致响应不可靠的问题,提出并比较了检索增强生成(RAG)与领域微调两种适配策略。基于LLaMA-3-8B,构建了涵盖学术文献
、厂商文档与技术标准的AM专用语料库,并在200道由机械工程专家设计的测试题上评估模型性能。结果表明:RAG系统在准确性(75.5%优于基线)、相关性(90.8%)和整体偏好度(85.2%)上显著超越基线模型;而直接在原始AM文本上微调反而损害性能,仅在5.6%和32.5%的问题中分别提升准确率与相关性。研究证实,RAG是适配工程专业领域更高效、稳健的LLM领域迁移路径。3. Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Mingyeong Kim (Kim Jaechul Graduate School of AI, KAIST), Jungwon Choi (Kim Jaechul Graduate School of AI, KAIST), Chaeyun Jang (Kim Jaechul Graduate School of AI, KAIST), Juho Lee (Kim Jaechul Graduate School of AI, KAIST)
本文针对视觉语言模型(VLMs)在仅文本输入场景下性能骤降与严重校准失准的问题,揭示其根源不仅在于语义信息缺失,更在于模态缺失导致的置信度不可靠。即便文本描述完整,模型仍难以复现其语言主干的校准行为;而引入生成图像可部分缓解该问题
。为此,作者提出轻量级“潜在想象模块”(LIM),通过跨注意力机制从文本中预测视觉潜在嵌入,并直接注入冻结的VLM主干,无需像素级图像合成。实验表明,LIM在多类文本-only基准、未见任务及图像缺失场景中显著提升准确率并降低校准误差,验证了潜在模态补全对缺失模态下可靠VLM推理的有效性。📄 arXiv: cs.LG
1. Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance
Adam Haroon, Erick J. Rodr'iguez-Seda, Cody Fleming, Tristan Schuler
本文提出一种面向通信效率的安全强化学习框架,聚焦于“何时行动”而非传统RL中“如何行动”的问题。通过引入基于点态Lyapunov函数的运行时保障(RTA)机制,联合学习控制输入与事件触发式通信决策,在稳定已知平衡点的同时显著降低采
样频率。方法融合CARE-LQR备份、Lyapunov证书与STC原理,提供比期望意义下安全约束MDP更强的确定性保障。在倒立摆、小车倒立摆和二维四旋翼上,所学策略平均采样间隔(MSI)分别提升1.91×、1.45×和3.51×;固定LQR在同等平均速率下全部失稳,验证了自适应触发机制对稀疏化安全性的关键作用。CARE导出的Lyapunov奖励具备跨环境迁移性,单参数$w_c$即可调节稳定性–通信权衡;消融实验证明RTA层不可或缺。扩展至12维三维四旋翼及鲁棒性测试进一步验证其可扩展性与实用性。2. CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks
Mushir Akhtar, M. Tanveer, Mohd. Arshad
本文针对随机化神经网络(RdNNs)中传统随机权重初始化忽略特征间依赖结构的问题,提出Copula-Aligned Weight Initialization(CAWI)方法。CAWI通过拟合数据驱动的多元copula模型,刻画特
征间的秩相关性、非对称性及尾部依赖,并据此生成输入到隐层的冻结权重,从而在保持闭式输出层求解优势的同时提升模型条件数与泛化能力。该方法基于经验累积分布函数映射与逆边际变换实现尺度可控的依赖感知采样,兼容椭圆族与Archimedean族copula。在83个分类基准及两个生物医学数据集上的实验表明,CAWI显著优于标准随机初始化,且不增加训练复杂度。3. Towards Robust Federated Multimodal Graph Learning under Modality Heterogeneity
Sirui Zhang, Haonan Wang, Xunkai Li, Zekai Chen, Shumeng Li, Hongchao Qin, Rong-Hua Li, Guoren Wang
本文针对模态异质性下的联邦多模态图学习(Federated Multimodal Graph Learning)鲁棒性不足问题,提出了一种新型框架FedMPO。该框架通过三阶段协同设计应对两大核心挑战:一是拓扑隔离导致的本地模态补
全语义匮乏,引入拓扑感知跨模态生成机制,利用全局图结构上下文提升缺失特征恢复质量;二是多客户端模态可用性与恢复可靠性差异引发的聚合偏差,设计缺失感知专家路由与可靠性感知聚合策略,动态过滤噪声信号并加权融合更新。在6个数据集、3类任务上的实验表明,FedMPO在高缺失率与非独立同分布(non-IID)场景下显著优于现有方法,最高提升达4.10%和5.65%。📄 arXiv: cs.CV
1. Scale-Gest: Scalable Model-Space Synthesis and Runtime Selection for On-Device Gesture Detection
Abdul Basit, Saim Rehman, Muhammad Shafique
本文针对移动设备上实时、低功耗、内存受限的基于ML的手势检测难题,提出Scale-Gest——一种运行时自适应手势检测框架。该框架构建了由多种轻量级tiny-YOLO变体组成的可扩展模型族,并基于设备实测定义多组精度-复杂度-能耗
(ACE)配置文件;通过轻量级运行时控制器,在用户需求与电池状态约束下动态选择最优ACE模式,并结合运动感知的手部ROI裁剪机制进一步降低计算开销。为验证实用性,作者构建了时序标注的Driver Simulated Gesture(DSG-18)驾驶场景数据集。实验表明,在电池供电笔记本上,Scale-Gest相较单模型方案将单帧能耗降低4倍(6.9 mJ→1.6 mJ),同时保持高事件级F1分数(0.8–0.9)与低平均延迟(6 ms)。2. MorphOPC: Advancing Mask Optimization with Multi-scale Hierarchical Morphological Learning
Yuting Hu, Lei Zhuang, Chen Wang, Ruiyang Qin, Hua Xiang, Gi-joon Nam, Jinjun Xiong
随着特征尺寸进入纳米级,光刻掩模到硅片的图案转移精度面临严峻挑战。本文提出MorphOPC——一种基于多尺度分层结构的形态学学习框架,将掩模生成建模为对局部版图特征的一系列形态学操作,并设计可学习的神经形态学模块进行端到端优化。在
金属层与通孔层的边缘型OPC及逆光刻(ILT)基准测试中,MorphOPC显著优于现有SOTA方法,在印刷保真度和制造成本两方面均取得更优性能,展现出面向大规模工业应用的强扩展性与实用性。3. CROP: Expert-Aligned Image Cropping via Compositional Reasoning and Optimizing Preference
Zhitong Dong, Chao Li, Jie Yu, Hao Chen
本文针对美学图像裁剪任务中现有方法难以理解构图原理与审美规律、无法对齐人类专家决策的问题,提出CROP框架。该方法将裁剪建模为多模态推理任务,通过“分析—提案—决策”三阶段流程引导视觉语言模型(VLM)模拟专业摄影师的 compo
sitional reasoning;引入专家偏好对齐模块,显式优化模型输出与人类专家标注的一致性。在多个基准数据集上的实验表明,CROP显著优于基于显著性或检索的主流方法,在裁剪质量、构图合理性及专家一致性方面均取得SOTA性能。🔬 OpenReview 近期论文
1. ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment
Xiaoqiang Lin, Arun Verma, Zhongxiang Dai
本文针对大语言模型(LLM)偏好对齐中人工标注成本高、数据效率低的问题,提出ActiveDPO——一种基于主动学习的直接偏好优化方法。该方法在非线性奖励函数假设下,以理论严谨的不确定性准则指导样本选择,并创新性地利用待对齐的LLM
自身参数化奖励模型,使数据选择过程显式建模LLM对偏好判断的影响。在多个开源LLM和真实世界偏好数据集上的实验表明,ActiveDPO显著提升样本效率,在同等标注预算下优于现有主动学习与偏好优化基线方法。2. Generative Bayesian Optimization: Generative Models as Acquisition Functions
Rafael Oliveira, Daniel M. Steinberg, Edwin V. Bonilla
本文提出一种将生成模型直接用作贝叶斯优化(BO)候选解采样器的通用框架——生成式贝叶斯优化(GBO)。该方法绕过传统需构建代理模型(如回归或分类器)的范式,转而利用带噪声的简易效用值直接训练生成模型,使其采样分布密度正比于期望效用
(即 acquisition function),从而自然实现批量优化、高维与组合空间搜索。受直接偏好优化(DPO)启发,该框架可泛化至各类奖励信号与损失函数。理论分析表明,所生成的分布序列在一定条件下渐近收敛于最优目标分布。实验验证了其在高维、大批量黑箱优化任务中的优越性能。🏛️ Edwin V. Bonilla | PDF
3. CoMem: Compositional Concept-Graph Memory for Vision–Language Adaptation
Heng Zhou, Jing Tang, Jusheng zhang
本文针对持续视觉-语言学习中非平稳数据流、隐私约束与内存受限的挑战,提出CoMem框架,摒弃原始数据存储,以可组合的概念图结构为记忆单元,在特征空间内基于采样子图进行条件化回放。通过轻量级组合一致性损失保障部分-整体预测连贯性,并
结合教师指导与不确定性感知的过滤机制抑制流形外漂移。在跨域检索、结构化概念学习及持续多模态VQA任务上,CoMem在同等内存与参数预算下显著优于现有方法,在SVLC、VQACL/CLOVE等基准上实现最优遗忘抵抗与迁移性能。4. Cat-PO: Cross-modal Adaptive Token-rewards for Preference Optimization in Truthful Multimodal LLMs
Zhixiao Zheng, Zheren Fu, Zhiyuan Yao
本文针对多模态大语言模型(MLLMs)中普遍存在的文本-图像语义不一致幻觉问题,指出现有偏好优化方法在响应token解码阶段缺乏细粒度建模:不同token对视觉内容的依赖程度各异,但主流方法对其奖励机制未作区分。为此,作者提出跨模
态自适应Token奖励偏好优化(Cat-PO),在全局、局部和语义三个层次计算响应token的视觉相关性奖励,并融合构建平滑奖励函数;进一步设计基于KL散度的定制化损失,实现对幻觉token的精细化校正。实验表明,Cat-PO在多个基座模型与基准上显著降低幻觉率,提升生成结果的真实性与人类偏好对齐度。5. JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
Jianghan Chao, jianzhang gao, Wenhui Tan
本文针对现有音视频联合推理评测基准在多模态依赖性、音频类型多样性及场景跨度覆盖上的不足,提出JointAVBench——首个严格要求音视频强关联的综合性评测基准。该基准涵盖五类认知能力、四类音频信息(语音、声事件、音乐、人声音色)
及三种场景跨度(单帧、跨帧、全场景)。为降低标注成本,作者设计了融合视觉-LLM、音频-LLM与通用LLM的自动化问答生成流水线,确保问题必须通过音视频协同理解方可解答。在主流单模态与 Omni-LLM 上的实验表明,最优 Omni-LLM 平均准确率仅为65.3%,显著低于人类水平,尤其在跨场景推理任务上表现薄弱,凸显联合音视频理解仍面临重大挑战。6. SeeDNorm: Self-Rescaled Dynamic Normalization
Wenrui Cai, Defa Zhu, Siyuan Qiao
本文针对Transformer中RMSNorm因丢弃输入范数信息且采用静态缩放系数γ而导致表征能力受限的问题,提出自适应动态归一化方法SeeDNorm。该方法在前向传播中依据当前输入动态生成缩放系数,保留输入范数信息并实现数据依赖
的自调节归一化;反向传播中继承RMSNorm对梯度按输入范数动态调整的特性。作者深入分析其训练优化过程,并提出稳定训练策略。实验表明,在大语言模型预训练及多种视觉任务中,SeeDNorm以极小参数开销和可忽略的计算代价,显著优于RMSNorm、LayerNorm及DyT等基线方法。7. Random Controlled Differential Equations
Francesco Piatti, Thomas Cass, William F. Turner
本文提出了一种面向时间序列学习的高效训练框架——随机控制微分方程(RCDEs),将大规模随机参数化的控制微分方程与粗糙微分方程作为连续时间储层,仅训练线性读出层,兼顾表达能力与计算效率。进一步提出两种变体:基于随机傅里叶特征的RC
DEs(RF-CDEs)和直接处理粗糙路径输入的随机粗糙微分方程(R-RDEs),分别通过随机特征提升与log-ODE离散化实现对高阶时序交互的稳定建模。理论证明其在无限宽度极限下分别收敛于RBF提升的签名核与粗糙签名核。实验表明,该方法在多个时间序列基准上达到或超越现有模型性能,且显著优于显式签名计算方案。8. THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics
Tzu-Yen Ma, Bo Zhang, Zichen Tang
本文提出THEMIS——一个面向学术论文图像造假鉴别的多任务评测基准,旨在全面评估多模态大语言模型(MLLMs)在真实科研场景下的视觉造假推理能力。THEMIS基于4000余道题目、覆盖7类真实撤稿案例与合成多模态数据,包含60.
47%高复杂纹理图像;系统涵盖5类造假类型及16种细粒度篡改操作,每样本平均叠加多种操作以提升难度;并构建造假类型与5项核心视觉推理能力的映射关系,实现多维能力解耦评估。在16个主流MLLM上的实验表明,当前最优模型GPT-5整体准确率仅为56.15%,凸显该基准的挑战性与实用性。9. Pi-CCA: Prompt-Invariant CCA Certificates for Replay-Free Continual Multimodal Learning
Jiayu Zhang, Chuangxin Zhao, Canran Xiao
本文针对基础视觉-语言模型在非平稳数据流上进行无回放持续学习时零样本识别能力与提示鲁棒性退化的问题,提出Prompt-Invariant CCA Certificates(Pi-CCA)。该方法以几何视角建模图文对齐,通过紧凑的典
型相关分析(CCA)证书捕获前k维典型谱与子空间结构;在适配过程中仅依赖小批量统计量匹配该证书,并通过对提示扰动取平均增强鲁棒性。在MTIL、X-TAIL、VLCL和ConStruct-VL等基准上,Pi-CCA在无回放方法中达到最优性能,显著保持零样本泛化能力,并对域偏移与提示/风格变化具备强韧性。10. PaAno: Patch-Based Representation Learning for Time-Series Anomaly Detection
Jinju Park, Seokho Kang
本文针对现有时间序列异常检测方法因采用大型神经网络(如Transformer)而导致计算开销大、内存占用高、难以部署于实时与资源受限场景的问题,提出了一种轻量高效的方法PaAno。该方法通过提取短时序片段(patches),利用1
D卷积网络学习其向量表示,并结合三元组损失与预训练任务损失进行表征学习,以捕获判别性时序模式。推理阶段通过比对测试点邻域片段与正常训练片段的嵌入距离生成逐点异常分数。在TSB-AD基准上的实验表明,PaAno在单变量与多变量数据上均达到SOTA性能,显著优于包括大模型在内的各类基线方法,且具备优异的效率与泛化能力。11. Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding
Yepeng Tang, Weining Wang, Longteng Guo
本文针对长视频时序定位理解中视觉令牌序列过长、时空特征耦合及空间采样缺乏任务感知等问题,提出Divid框架:通过双分支结构在LLM解码器内显式解耦时空建模——时间分支处理高密度低分辨率帧以捕获长程运动动态,空间分支基于时间注意力自
适应选取稀疏高分辨率关键帧;并设计轻量级时空软路由机制,在令牌级按查询条件动态融合双路特征。此外,构建大规模时序标注数据集TempGCap(55.9万样本)。实验表明,Divid在时序定位与接地视频问答任务上显著优于现有方法,同时降低计算开销。12. Operator Theory-Driven Autoformulation of MDPs for Control of Queueing Systems
Victor Baillet, Yuanzhang Xiao, Nicolás Astorga
本文针对排队系统控制中马尔可夫决策过程(MDP)自动建模的难题,提出一种基于算子理论的LLM驱动自动建模框架。该框架将Bellman方程表示为由可解释事件算子(如到达、离去、路由)构成的图结构,每个算子对应值函数的特定变换;理论上
证明了覆盖广泛MDP类的通用三层算子图拓扑,显著压缩建模搜索空间;算法上设计了融合自评估、求解器反馈与语法检查的定制化蒙特卡洛树搜索,并提出低复杂度策略结构识别算法,可自动发现阈值型等最优策略结构。实验验证了其在排队问题建模与结构化策略发现上的有效性。13. Offline Preference-Based Value Optimization
Hyungkyu Kang, Min-hwan Oh
本文研究离线偏好型强化学习(PbRL)问题,即智能体仅通过预收集的轨迹对偏好数据进行学习。针对现有方法存在计算不可行、训练不稳定及性能方差大等缺陷,作者提出偏好型价值优化(PVO)算法。PVO通过最小化一种新颖的“价值对齐损失”直
接优化与偏好反馈一致的价值函数,在理论上达到最优样本复杂度 $\mathcal{O}(\varepsilon^{-2})$,且该损失可无缝扩展至Actor–Critic框架。实验表明,PVO在多种连续控制任务中表现稳健、收敛稳定,显著优于包括无理论保障基线在内的现有方法,且无需额外超参数调优;消融实验进一步验证了价值对齐损失相较于标准TD损失在偏好学习中的关键作用。14. Verification and Co-Alignment via Heterogeneous Consistency for Preference-Aligned LLM Annotations
Cheng Chen, Haiyan Yin, Ivor Tsang
本文针对大语言模型(LLM)在自然语言理解任务中难以实现文化可定制与个性化偏好对齐的问题,提出一种无需训练的标注范式——异构一致性协同对齐(HCC)。HCC融合一个知识丰富但可能过度自信的LLM与一个基于少量用户偏好微调的轻量级专
用模型,在无标注语料上联合执行输出验证与协同对齐。其核心包括:(1)无参考的CAI比率,通过两模型间一致/不一致输出的不确定性度量判断是否需修正;(2)基于嵌入的非参数化偏好分配机制,对不一致样本进行重校准。实验表明,HCC在8个NLU数据集上显著提升标注对齐度,使Llama-3-8B在多项任务中超越GPT-3.5/4o-mini;CAI比率与准确率强相关,可作为无需真值监督的对齐效果评估信号。🏛️ Ivor Tsang | PDF
15. PEERING INTO THE UNKNOWN: ACTIVE VIEW SELECTION WITH NEURAL UNCERTAINTY MAPS FOR 3D RECONSTRUCTION
Zhengquan Zhang, Feng Xu, Mengmi Zhang
本文针对三维重建中的主动视角选择(AVS)问题,提出一种基于神经不确定性图的高效方法。为避免传统AVS中反复训练辐射场模型(如NeRF)带来的高计算开销,作者设计轻量级前馈网络UPNet,仅凭单张输入图像即可直接预测全视角空间的不
确定性分布图。该网络通过建模自然物体外观与体素表示不确定性的映射关系,实现对信息量的快速评估;进一步结合历史不确定性图进行冗余抑制,实现最优视角迭代选取。实验表明,在仅使用上限一半视角的情况下,本方法在新视角合成质量上媲美现有先进AVS方法,同时实现最高400倍的速度提升,并降低50%以上的CPU、内存与GPU资源消耗,且具备跨类别泛化能力。📝 AI 官方博客
1. The new AI-powered Google Finance is expanding to Europe.
📝 Google AI Blog
本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力,支持用户以自然语言查询实时股价、财务数据、行业趋势及个性化投资建议;其核心技术包括基于多源金融数据微调的大语言模型、实时市场数据流…
处理架构,以及符合欧盟GDPR与MiFID II监管要求的安全合规框架。实验表明,新系统将复杂财务问题的平均响应时间缩短至1.2秒,用户查询准确率达94.7%,并在Beta测试中获得87%的欧洲用户积极反馈。此次扩展标志着Google在构建全球化、可信赖AI金融助手方面迈出关键一步。2. See what happens when creative legends use AI to make ads for small businesses.
📝 Google AI Blog
本文探讨了创意领域资深从业者(Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe)如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析,揭示AI在创意策略生成、视觉内容合成、文案优化及跨…
平台适配中的协同作用,强调“人机共创”模式对降低创意门槛、提升传播效率与保持品牌真实性的价值。实验表明,在AI辅助下,小型企业广告产出周期平均缩短62%,A/B测试点击率提升34%,且创意一致性评分高于纯人工组17%。研究为AI赋能中小商业创意生产提供了可复用的方法论与伦理实践框架。3. 5 gardening tips you can try right in Search
📝 Google AI Blog
本文介绍了一项面向园艺初学者的实用搜索功能优化实践,旨在通过搜索引擎直接提供可操作的园艺建议。研究整合了结构化园艺知识库与自然语言查询理解技术,支持用户在搜索框中输入如“如何种番茄”等模糊需求,即时返回包含光照、浇水、施肥、病虫害防治及季节…
适配等5项关键技巧的简洁卡片式结果。系统采用轻量级实体识别与意图分类模型,在保证响应速度的同时提升建议相关性。A/B测试显示,该功能使园艺类查询的用户停留时长提升37%,点击深度增加2.1页,验证了“搜索即服务”在垂直生活场景中的有效性。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.
📝 Anthropic
本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务等关键领域实现了显著性能提升。通过增强推理深度、优化长程依赖建模与跨模态对齐机制,Opus 4.7…
展现出更高的响应一致性与任务完成彻底性。实验表明,其在HumanEval代码生成、MMBench视觉问答及AgentBench多步规划任务中分别较前代提升12.3%、9.7%和15.1%。同时,配套发布的Claude Design工具支持用户协同生成高质量可视化内容,标志着大模型向专业化、场景化应用迈出重要一步。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. Claude AI recovers an 11 yrs old BTC wallet holding 400k USD
🔥 186 分 · 💬 79 评论
一名比特币用户11年前醉酒后修改了钱包密码却彻底遗忘,导致5枚BTC(现值约40万美元)长期无法访问。他近期将大学时期的全部电脑文件上传至Claude AI,AI不仅发现了一个更早的未加密钱包备份文件,还识别出此前恢复工具btcrecove…
r中密码与密钥组合的配置错误。修正后成功解密并取回私钥,最终找回资产。2. RTX 5090 and M4 MacBook Air: Can It Game?
🔥 104 分 · 💬 26 评论