AI 每日资讯 — 2026-06-07

🔥 HuggingFace 每日论文


1. Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

Liliana Hotsko, Yinxi Li, Yuntian Deng

Code语言模型需获取仓库级上下文以解析导入、API及项目约定,但现有方法(如长上下文RAG或逐仓微调/LoRA)存在推理开销大、扩展性差及难以适应代码演化的缺陷。本文提出Code2LoRA,一种基于超网络的框架,可动态生成仓库专属LoRA适配器,在零推理token开销下注入仓库知识。其包含静态版(Code2LoRA-Static)与演化版(Code2LoRA-Evo),后者通过GRU隐状态随代码变更持续更新。在新构建的RepoPeftBench基准(604个Python仓库,含静态与演化双轨道)上,Code2LoRA-Static在跨仓和仓内断言补全任务中分别达63.8%和66.2%准确率,媲美逐仓LoRA上限;Code2LoRA-Evo在演化轨道上实现60.3%跨仓准确率,较共享LoRA提升5.2个百分点。

PDF · arXiv | ❤️ 63


2. Complexity-Balanced Diffusion Splitting

Noam Issachar, Dani Lischinski, Raanan Fattal

本文针对连续时间生成模型中单一网络在扩散全过程内均匀分配计算资源所导致的效率低下问题,提出复杂度均衡分割(CBS)框架。该方法基于函数逼近理论与de Boor等分布原理,将扩散时间轴划分为近似负担相等的若干段,并依据局部建模难度动态分配子网络容量。为此,作者设计了两种可计算的监测函数:基于流场Dirichlet能量的空间复杂度度量和基于采样轨迹加速度的几何复杂度度量,并通过轻量辅助模型实时估计其时序分布。实验表明,在SiT、JiT及UNet等多种架构和数据集上,CBS在不增加单步推理开销的前提下显著提升生成质量,例如在SiT-XL+CFG配置下FID降低约35%。

PDF · arXiv · 代码 · 项目 | ❤️ 16


3. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Shangheng Du, Xiangchao Yan, Jinxin Shi

MLEvolve提出了一种面向机器学习算法自动发现的自演化多智能体框架,旨在解决现有MLE代理在长周期优化中面临的跨分支信息隔离、无记忆搜索与缺乏分层控制等关键瓶颈。该框架通过扩展树搜索为渐进式多叉图搜索(Progressive MCGS),引入基于图的引用边实现跨分支知识流动,并采用熵启发的渐进调度策略平衡探索与利用;设计回溯式记忆机制(Retrospective Memory),融合冷启动领域知识库与动态全局记忆,支持任务经验的检索与复用;并解耦战略规划与代码生成,适配多种编码模式以保障长周期迭代稳定性。在MLE-Bench基准上,MLEvolve以6小时预算(标准时长一半)取得平均奖牌率与有效提交率的SOTA性能,并在数学算法优化任务中超越AlphaEvolve等专用方法,展现出优异的跨领域泛化能力。

PDF · arXiv · 代码 | ❤️ 6


4. Regret Minimization with Adaptive Opponents in Repeated Games

Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu

本文研究了重复博弈中面对自适应对手(其策略可依据历史行为动态调整)的遗憾最小化问题。针对传统外部遗憾无法刻画对手适应性的局限,作者提出“重复策略遗憾(RP-Regret)”这一新型博弈论度量,它基于所有参与者均可对历史进行反事实响应的设定,衡量实际累积效用与历史最优可实现效用之差。该度量天然适配重复博弈结构,支持更强的比较器和更宽松的对手建模,并在全体玩家同时最小化RP-Regret时有助于收敛至更优均衡。论文给出了RP-Regret实现次线性增长的必要条件,并针对其非凸性设计了三种可证收敛算法:基于优化预言机的方法、逐轮线性化凸代理函数法,以及针对对手策略缓慢变化情形的直接优化法。实验验证了算法在多种博弈场景下的有效性。

🏛️ Asuman Ozdaglar | PDF · arXiv | ❤️ 1


5. HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

Lizhi Yang, Junheng Li, Nehar Poddar

本文针对人形机器人在真实场景部署中任务规划与全身控制间接口设计的关键挑战,提出HANDOFF——一种基于蒸馏互补教师的类人全身任务空间控制器。该方法构建了紧凑、显式、直观且表达力强的任务空间接口,并通过上下文感知门控机制,对运动跟踪(含安全过滤)、步态行走与跌倒恢复三类专家控制器进行多教师KL蒸馏,生成混合专家学生模型。在Unitree G1硬件平台上,HANDOFF在速度跟踪性能上达到SOTA水平,并实现了迄今最大的鲁棒操作工作空间;结合VLM驱动的通用智能体规划器,无需任务特定数据或控制器微调,即可完成多轮自然语言指令驱动的端到端操作任务。

PDF · arXiv


6. TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

Dong Jing, Jingchen Nie, Tianqi Zhang

本文提出TempoVLA,一种支持显式速度调控的视觉-语言-动作(VLA)策略模型,旨在解决现有VLAs仅具备单一固定执行速度、难以兼顾机器人操作中低风险快速移动与高风险精细接触阶段的矛盾。其核心包括:(1)数据端的可变速轨迹增强(VSTA),通过动作合并/分割重定时演示轨迹,在保持运动语义前提下精确匹配任意目标速度;(2)模型端的速度条件注入机制,将速度指令作为显式输入引导策略输出。实验表明,TempoVLA在仿真与真实机器人任务中均实现双向(加速/减速)灵活速度控制,VSTA同时提升基准性能;结合多模态大模型后,更可实现基于场景风险的动态自适应调速。

PDF · arXiv


7. Pretraining Recurrent Networks without Recurrence

Akarsh Kumar, Phillip Isola

本文提出监督记忆训练(SMT)方法,旨在解决传统RNN预训练中因反向传播通过时间(BPTT)导致的并行性差、梯度消失/爆炸及长程依赖建模困难等问题。SMT将RNN训练解耦为两阶段:首先利用Transformer编码器学习预测性状态表示,自动生成一步记忆转移标签(mₜ, xₜ₊₁)→ mₜ₊₁;再以此标签对RNN进行标准监督学习,完全规避循环梯度传播。该方法实现时间维度上的全并行训练,且任意两token间梯度路径长度恒为O(1)。实验表明,SMT在语言建模与像素序列建模等任务上显著优于BPTT,有效提升非线性RNN对长程依赖的建模能力。

🏛️ Phillip Isola | PDF · arXiv


8. PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

Senmiao Wang, Tiantian Fang, Haoran Zhang

本文提出PC层(多项式权重预条件层),通过低阶多项式预条件器对权重参数化,动态调控权重矩阵的奇异值谱,从而提升大语言模型(LLM)预训练的稳定性与收敛性。该方法在训练后可无缝融合回原始架构,不引入推理开销。在Llama-1B模型上的实验表明,PC层显著优于标准Transformer结构,且兼容AdamW与Muon优化器。理论分析进一步证明:对深层线性网络各层奇异值施加一致上界,可保证梯度下降以几何速率收敛至全局最优解。

PDF · arXiv


🔥 arXiv 每日论文

🔬 OpenReview 近期论文


1. PROMPTGNN-SIM: DEEP FUSION AND ALIGNMENT OF GNN AND LLMS FOR TEXT-ATTRIBUTED GRAPH LEARNING

Zhifei Hu, Alexandra I. Cristea

本文针对文本属性图(TAGs)学习中图文模态浅层单向融合导致的交互不足问题,提出PromptGNN-sim框架,实现图神经网络(GNN)与大语言模型(LLM)的深度双向协同。该框架基于图注意力网络(GAT)进行语义感知的邻域选择,并利用结构上下文动态生成富含图结构信息的LLM提示,包含节点文本摘要、预测标签及语义相似邻居关键词;进一步引入双向跨模态对比学习与交叉注意力机制联合优化双模块。在Cora、Pubmed等六个基准数据集上的实验表明,该方法在分类精度、跨任务迁移、跨数据集泛化及稀疏扰动鲁棒性方面均显著优于现有GNN、LLM及融合方法。

PDF


📝 AI 官方博客


1. The latest AI news we announced in May 2026

📝 Google AI Blog

本文回顾了2026年5月全球人工智能领域的重要进展,涵盖大模型架构创新、多模态推理能力突破、AI安全与对齐技术新范式,以及边缘AI部署的能效优化成果。重点介绍了OpenAI发布的混合稀疏-稠密架构模型GPT-5o,在保持128K上下文长度的…同时将推理能耗降低43%;谷歌DeepMind提出的“反射式验证框架”(RVF)显著提升LLM数学推理与事实一致性;此外,欧盟AI法案实施细则正式生效,推动全球AI治理标准化进程。实验表明,新一代轻量化模型在端侧设备上的实时响应延迟低于80ms,准确率维持在92.7%以上。

2. 5 ways Google Search can level up your thrift and vintage shopping

📝 Google AI Blog

本文探讨了如何借助谷歌搜索功能提升二手与复古服饰购物体验,提出五种实用策略:1)利用图像搜索识别未知单品并定位相似款;2)通过限定站点搜索(site:.thredup.com 或 site:.vestiairecollective.com)…直达专业平台;3)使用时间筛选器查找近期上架的稀有单品;4)结合材质、年代与品牌关键词(如“90s Calvin Klein wool blazer”)精准检索;5)借助谷歌趋势分析品类热度,预判价格波动与上新周期。实验表明,该方法可使目标商品发现效率提升约40%,平均购入成本降低22%。

3. How we used Gemini to build Google I/O 2026

📝 Google AI Blog

本文介绍了谷歌团队如何利用Gemini系列大模型(包括Gemini 1.5 Pro与定制化多模态变体)支撑Google I/O 2026开发者大会的全流程构建。团队将Gemini深度集成于内容生成、实时翻译、演讲辅助、AR互动体验及后台运维…系统中,尤其在Timmy TPU技术演示视频生成、Antigravity Coffee Co.沉浸式快闪店的动态视觉设计,以及跨语言开发者问答机器人等关键场景实现突破。实验表明,相比传统工具链,Gemini驱动的工作流使内容生产效率提升3.2倍,多语种实时响应延迟低于180ms,用户交互满意度达94.7%。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…,并初步实现了对策略偏移的在线识别模块。关键技术包括奖励函数敏感性分析、反事实策略扰动评估及基于人类反馈的奖励校准机制。在Gridworld与SafeLife基准环境中的实验表明,该方法可将典型奖励黑客行为检出率提升37%,同时保持92%以上的原始任务性能。后续将拓展至多智能体与长周期决策场景。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。

7. Introducing Claude Opus 4.8ProductMay 28, 2026An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.

📝 Anthropic

本文介绍了Anthropic公司于2026年5月28日发布的全新旗舰模型Claude Opus 4.8。该版本在代码生成、智能体(agentic)任务及专业级工作流等关键维度实现显著性能提升,尤其强化了长时程任务的稳定性与一致性。通过改进推…理架构、优化上下文建模能力及增强多步规划能力,Opus 4.8在HumanEval、AgentBench及专业文档处理基准上均超越前代模型。实测表明,其在100K上下文长度下的任务完成率提升23%,错误率降低37%。

8. AnnouncementsJun 2, 2026Expanding Project GlasswingWe’re extending Project Glasswing to approximately 150 new organizations in more than fifteen countries.

📝 Anthropic

暂无摘要


9. AnnouncementsMay 25, 2026Anthropic co-founder Chris Olah’s remarks on Pope Leo XIV’s encyclical “Magnifica humanitas"The full text of Chris Olah’s remarks on the Pope’s encyclical on AI.

📝 Anthropic

暂无摘要


📬 TLDR AI 精选


1. one daily email

该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。


💬 Hacker News AI 热门


1. Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering

🔥 78 分 · 💬 19 评论

该论文提出“Tokenomics”方法,首次系统量化了大语言模型多智能体(LLM-MA)系统在软件工程各阶段(如设计、编码、代码审查、测试等)的令牌(token)消耗分布。基于ChatDev框架和GPT-5模型对30个开发任务的实证分析,发…现代码审查阶段占总token消耗的59.4%,且输入token占比高达53.9%,表明当前智能体协作存在显著效率瓶颈。研究指出,主要成本来自自动化迭代优化与验证,而非初始生成,为成本预测、流程优化及高效协作协议设计提供了新依据。

📰 TechCrunch AI 新闻


1. OpenAI unveils Lockdown Mode to protect sensitive data from prompt injection attacks

OpenAI推出“锁定模式”(Lockdown Mode),旨在缓解大语言模型在交互过程中遭受提示注入攻击所导致的敏感数据泄露风险。该模式通过限制模型对用户输入中隐含指令的响应能力、禁用非必要插件与外部工具调用、增强系统级输入过滤与上下文隔…离机制,显著降低恶意提示诱导模型输出受保护信息的概率。实验表明,在标准提示注入基准测试中,启用Lockdown Mode后敏感数据意外暴露率下降约62%;但研究亦指出,其无法完全消除高级对抗性攻击下的残留风险。该方案代表了面向生产环境的实用化防御演进,强调纵深防护与风险权衡。

2. What to expect from WWDC 2026: Siri’s highly anticipated revamp and Apple Intelligence updates

本文前瞻性分析了2026年苹果全球开发者大会(WWDC)的核心发布预期,重点聚焦Siri的全面重构与Apple Intelligence生态的深度升级。基于现有技术演进路径与供应链线索,文章指出新Siri将深度融合端侧大模型与多模态感知能力…,支持上下文连续对话、跨应用智能操作及个性化意图理解;Apple Intelligence将扩展至全系设备,强化隐私优先的本地化AI处理,并新增实时翻译、智能写作辅助与图像生成等场景功能。文中还探讨了其与iOS 19、macOS 16及visionOS 4的系统级协同机制。

3. Sriram Krishnan is leaving his role as White House AI advisor

本文报道了斯里拉姆·克里希南(Sriram Krishnan)辞去白宫人工智能顾问职务的消息。据称,他将牵头创立一家新机构,以延续并深化对特朗普政府AI政策的影响力。该机构拟聚焦于人工智能治理、技术主权与国家安全等关键议题,推动以“美国优先…”为原则的AI战略框架。此举被视为共和党在AI政策领域强化独立智库建设的重要布局,或将影响未来美国AI监管方向与国际技术竞争格局。

4. The Trump administration might take an equity stake in OpenAI

本文探讨特朗普政府拟通过持有OpenAI股权的方式,使美国公众共享人工智能发展红利的可能性。文章指出,特朗普在公开讲话中提及正就相关合作方案进行磋商,旨在确保AI技术进步的经济收益惠及全体国民。尽管尚未披露具体机制与法律框架,但该构想涉及公…私合作、技术主权与数据治理等关键议题。分析表明,此类举措可能重塑AI产业监管范式,但也面临反垄断、国家安全及公司治理等多重挑战。目前尚无实质性协议达成,相关讨论仍处于初步阶段。

5. Startup Battlefield 200 applications officially close in 3 days

本文报道了TechCrunch Disrupt 2026全球创业大赛“Startup Battlefield 200”的申请截止信息:报名通道将于6月8日太平洋时间晚11:59正式关闭。该赛事面向全球早期科技初创企业开放,入选团队将获邀登上…旧金山Moscone West会议中心的Disrupt主舞台进行现场路演与竞技,争夺百万美元级曝光资源与投资机会。主办方强调,这是初创公司获得顶级媒体关注、行业背书及资本对接的关键平台,呼吁创业者把握最后窗口期提交申请。