AI 每日资讯 — 2026-05-10

🔥 HuggingFace 每日论文

1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

Xiangyuan Xue, Yifan Zhou, Zidong Wang

本文针对大语言模型（LLM）作为交互式智能体在长程决策中探索不足与信用分配困难的问题，提出战略轨迹抽象（StraTA）框架。StraTA通过在任务起始阶段显式采样紧凑的轨迹级策略，并以此条件化后续动作生成，实现策略生成与动作执行的联合优化；

其采用分层GRPO风格的 rollout机制，并融合多样化策略采样与关键性自评判技术。在ALFWorld、WebShop和SciWorld上的实验表明，StraTA显著提升样本效率与最终性能：在ALFWorld和WebShop上分别达到93.1%和84.2%的成功率，在SciWorld上取得63.5%的整体得分，超越前沿闭源模型。

PDF · arXiv · 代码 | ❤️ 17

2. Relit-LiVE: Relight Video by Jointly Learning Environment Video

Weiqing Xiao, Hong Li, Xiuyu Yang

Relit-LiVE提出了一种无需相机位姿先验的视频重光照新框架，旨在解决现有基于内在分解的神经渲染方法在真实视频中因分解不准确导致的外观失真、材质断裂和时序伪影问题。其核心创新在于：（1）在渲染过程中显式引入原始参考图像，以恢复内在表示中

丢失的关键场景线索；（2）设计联合环境视频预测机制，在单次扩散过程中同步生成重光照视频与逐帧视角对齐的环境光照图，从而强化几何-光照一致性，并天然支持动态光照与相机运动。实验表明，Relit-LiVE在物理一致性、时序稳定性及泛化能力上显著优于现有视频重光照与神经渲染方法。

PDF · arXiv | ❤️ 14

3. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Tianle Wang, Zhaoyang Wang, Guangchen Lan

本文探究强化学习（RL）能否提升大语言模型（LLM）的长程推理能力，指出当前研究受限于缺乏可控、可扩展的推理环境。为此，作者提出ScaleLogic——一个可独立调控推理深度（horizon）与逻辑表达力（expressiveness）的合

成逻辑推理框架，支持从简单蕴含逻辑到含合取、析取、否定及全称量化的高表达力一阶逻辑。实验发现，RL训练计算量T与推理深度D呈幂律关系（T ∝ D^γ，R² > 0.99），且指数γ随逻辑表达力单调递增（1.04→2.60）。在数学与通用推理基准上，高表达力训练带来最高+10.66分的性能提升与更高效的跨任务迁移，证实“训练内容”比“训练量”更关键。该规律在多种RL算法及课程学习策略下均成立。

PDF · arXiv | ❤️ 11

4. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

Daniel Zheng, Ingrid von Glehn, Yori Zwols

本文提出“AI协同数学家”（AI Co-Mathematician），一种面向数学研究者的具身化AI工作台，旨在支持开放性、探索性与迭代性的数学工作流。系统通过异步、有状态的协作环境，集成文献检索、计算实验、猜想生成、定理证明与理论构建等能

力，并能管理不确定性、追踪失败假设、精炼用户意图、输出原生数学成果。在实证评估中，该系统不仅助力研究人员解决开放数学问题、发现新研究方向并挖掘被忽视的文献，还在前沿数学难题求解基准FrontierMath Tier 4上取得48%的准确率，创下当前AI系统最高分，验证了其在数学发现中的有效性与先进性。

PDF · arXiv | ❤️ 10

5. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

Minbin Huang, Han Shi, Chuanyang Zheng

本文针对传统MoE架构中每层独占专家集导致参数增长刚性、专家容量分配冗余的问题，提出UniPool——一种将专家容量视为全局共享预算的新型MoE架构。其核心在于以单个全局专家池替代各层独立专家集，并引入池级辅助损失与NormRouter机制

，实现跨层路由下的专家利用均衡与稀疏稳定训练。在基于LLaMA架构的五个模型规模（182M–978M参数）及30B token数据上的实验表明，UniPool持续降低验证损失（最高相对下降0.0386）与困惑度；同时揭示专家池大小可作为显式的深度缩放超参数，仅用41.6%–66.7%的专家即可保持甚至超越基线性能。

PDF · arXiv · 代码 | ❤️ 7

6. EMO: Pretraining Mixture of Experts for Emergent Modularity

Ryan Wang, Akshita Bhagia, Sewon Min

本文针对大语言模型（LLM）单体部署导致资源浪费的问题，提出EMO——一种面向涌现模块化的混合专家（MoE）预训练方法。EMO通过文档级专家池约束，促使同一文档内token激活共享的专家子集，从而在无显式人工先验下自发形成语义一致的专家分组

。在1T token上预训练的1B激活参数、14B总参数EMO模型，在保持全模型性能的同时，展现出卓越的模块化能力：仅保留25%（12.5%）专家时，性能仅下降1%（3%），显著优于传统MoE。分析表明，EMO专家子集自然涌现出高层语义专业化（如数学、代码等），而非低层语法分工。

PDF · arXiv · 代码 · 项目 | ❤️ 6

7. When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

Sushant Gautam, Finn Schwall, Annika Willoch Olstad

本文针对缺乏标注基准（benchmark）场景下的大语言模型（LLM）安全性能比较问题，提出“无基准的对比式安全评分”（benchmarkless comparative safety scoring）框架。作者形式化定义了基于场景审计的部

署证据契约，并构建以工具效度为核心的三阶验证链：对安全/消融对照的响应性、目标驱动方差对审阅者与评判者噪声的主导性、以及多次重运行下的稳定性。通过本地优先工具SimpleAudit在挪威语安全数据集上的实证，验证该链的有效性（AUROC 0.89–1.00，目标效应量η²≈0.52，10次重运行后严重性分布收敛）。进一步将该框架应用于Petri平台，揭示差异根源在于主张-契约执行与部署适配性，而非评分机制本身。

PDF · arXiv · 代码 | ❤️ 2

8. Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

Hao Dong, Hongzhao Li, Shupan Li

本文针对多模态领域泛化（MMDG）研究中评估标准不统一、任务覆盖片面、鲁棒性与可信性评估缺失等关键问题，构建了首个全面、标准化的基准MMDG-Bench。该基准涵盖动作识别、机械故障诊断和情感分析三大任务、6个数据集、6种模态组合及9种代表

性方法，并系统评估标准准确率、输入污染鲁棒性、缺失模态泛化能力、错误分类检测与分布外检测五大维度。基于7402个模型在95个跨域任务上的大规模实验，研究发现：（1）在公平对比下，现有专用MMDG方法相较ERM基线仅带来微弱提升；（2）尚无方法在所有设置下持续领先，凸显算法泛化能力的局限性。

PDF · arXiv · 代码 | ❤️ 2

🔥 arXiv 每日论文

🔬 OpenReview 近期论文

1. Improving Developer Emotion Classification via LLM-Based Augmentation

Fahmida Haque Fariha, Insaniyat Ishan, S. M. Hozaifa Hossain

本文针对软件工程中技术提交消息（commit messages）的情感识别难题，提出了一种基于大语言模型（LLM）的数据增强方法CommiTune。现有LLM在技术语境下情感分类效果差，零样本评估Macro-F1仅0.13–0.21。作者构

建了含2000条人工标注的GitHub提交消息数据集，采用面向开发者的四类情感标签（Satisfaction、Frustration、Caution、Neutral）。以CodeBERT为基线模型（Macro-F1≈0.59），CommiTune先微调LLaMA生成高质量伪标签扩充数据，再用增强数据微调CodeBERT，最终在未见测试集上达到Macro-F1≈0.82（Accuracy≈0.81），显著弥合了技术情感表征鸿沟，并建立了可复现的SE-NLP训练与评估范式。

PDF

2. Quantum-Inspired Image Encodings for Financial Time-Series Forecasting

Henry Woo, Gunnho Song, Taeyoung Park

本文提出一种量子启发式图像编码方法，将金融时间序列转化为复数值图像以提升预测性能。该方法通过高斯软编码映射观测值为量子振幅，并引入相位函数编码嵌入局部时序结构，从而同时建模概率幅与动态相位信息，利用干涉效应揭示波动率、累积失衡与相位偏移等经

典编码（如GAF、RP、MTF）难以捕捉的隐含模式。据此构建了Q-GAF、Q-RP与Q-MTF三类量子化图像编码，并结合CNN进行预测。在S&P 500与Russell 3000指数上的实验表明，所提编码显著提升预测精度，验证了其在建模复杂金融动态与风险识别中的有效性。

PDF

3. SAVIOR: Sample-efficient Alignment of Vision-Language Models for OCR Representation

Akshata A Bhat, Sharath Naganna, Saiful Haq

本文针对企业级文档理解中视觉语言模型（VLM）用于OCR任务时面临的数据稀缺与计算开销大等挑战，提出SAVIOR——一种样本高效的VLM对齐方法。该方法通过识别预训练VLM在垂直文本、艺术字体、小字号及退化扫描等典型场景中的失败模式，有针对

性地构建高质量小规模数据集SAVIOR-TRAIN（2,234个<文档, OCR>样本）和专家标注基准SAVIOR-Bench（509份金融文档）。基于此，作者微调Qwen-2.5-VL-7B-Instruct得到SAVIOR-OCR，在SAVIOR-Bench上实现0.9257的词级召回率，并提出结构感知评估指标PAIRS，其得分达0.802，显著优于PaddleOCR 3.0与Nanonets-OCR-s，验证了该方法在精度与布局保真度上的双重优势。

PDF

4. Revisiting Multilingual Data Mixtures in Language Model Pretraining

Negar Foroutan, Paul Teiletche, Ayush Kumar Tarun

本文重新审视了多语言数据混合对大语言模型（LLM）预训练的影响，系统探究了语言数量（25–400种）与数据配比对模型性能的作用。作者在1B和3B参数规模模型上开展实验，发现：（1）只要各语言拥有足够预训练语料量，混合英语与多语言数据不会损害

任一语言组的本语种性能；（2）以英语为高比例“枢纽语言”可普遍提升跨语言表现，而将枢纽语言限定于某语系内部则未必带来增益；（3）在该模型规模下，并未观测到显著的“多语诅咒”现象。结果表明，合理平衡的多语言数据不仅能拓展语言覆盖，还可增强模型能力，尤其有利于低资源语言建模。

PDF

5. One-Shot Style Personalization for RL Agents via Latent Discriminator

Xi WANG, Xu Liu, Hongsheng Yu

本文针对强化学习智能体偏好对齐中依赖大规模数据、泛化能力弱的问题，提出“单样本风格个性化”新范式，旨在仅凭一个风格示例即可实现策略适配。作者设计了一种基于隐式判别器的框架，通过学习判别器推断可解释的隐式风格向量，并在在线交互中引入风格奖励信

号微调预训练策略。该方法兼顾风格控制性与数据效率，在保持任务性能的同时支持跨未见风格组合的平滑插值。实验在多类环境中验证了其精准风格对齐、强泛化能力及鲁棒任务表现。

PDF

6. Time-o1: Time-Series Forecasting Needs Transformed Label Alignment

Hao Wang, Licheng Pan, Zhichao Chen

本文针对时间序列预测中损失函数设计的固有缺陷，提出Time-o1——一种基于变换增强的新型损失函数。现有均方误差损失忽视标签自相关性且任务冗余，导致建模偏差与优化困难。Time-o1通过可学习变换将标签序列映射为去相关、显著性分层的组件，并

仅对最具判别力的组件进行对齐，从而缓解自相关偏差并大幅减少优化任务量。在多个基准数据集上的实验表明，Time-o1显著提升长期预测精度，且兼容各类主流预测模型，达到当前最优性能。

PDF

7. REVE: A Foundation Model for EEG - Adapting to Any Setup with Large-Scale Pretraining on 25,000 Subjects

Yassine El Ouahidi, Jonathan Lys, Philipp Thölke

本文提出REVE——一种面向脑电图（EEG）的新型基础模型，旨在解决现有方法因数据采集协议、设备及电极配置差异导致的泛化能力不足问题。REVE引入创新的4D位置编码机制，支持任意时长与电极布局的EEG信号建模，并基于掩码自编码目标，在涵盖9

2个数据集、25,000名受试者的超大规模（超60,000小时）EEG数据上完成预训练。在10项下游任务（如运动想象分类、癫痫发作检测、睡眠分期等）中，REVE显著超越现有方法，尤其在线性探针设置下表现突出，展现出优异的零样本/少样本迁移能力与精细的时空表征能力。代码、预训练权重及教程已开源。

PDF

8. DO-EM: Density Operator Expectation Maximization

Adit Vishnu, Abhay Shastry, Dhruva Kashyap

本文针对密度算子模型（DOMs）在生成式建模中难以扩展至真实数据（如MNIST）的问题，提出密度算子期望最大化（DO-EM）算法。该算法首次将EM框架拓展至基于密度算子的潜变量模型，在经典硬件上以与传统概率模型相当的资源实现可扩展训练。为克

服量子系统中缺乏条件概率定义导致E步难以构建的挑战，作者将E步重构为量子信息投影（QIP）问题，并证明Petz恢复映射在适当条件下可提供其解；进而设计出基于量子证据下界优化的Minorant-Maximization迭代过程。理论分析表明，DO-EM对广泛类别的DOM保证对数似然单调不减。实验上，作者提出量子交错深度玻尔兹曼机（QiDBM），其结构与计算开销与经典DBM一致；在DO-EM结合对比散度训练下，QiDBM在MNIST图像生成任务中显著优于更大规模的经典DBM，Fréchet Inception Distance降低40–60%。

PDF

9. ModHiFi: Identifying High Fidelity predictive components for Model Modification

Dhruva Kashyap, Chaitanya Murti, Pranav K Nayak

本文针对开源权重模型在缺乏训练数据、损失函数及梯度信息的约束下难以进行模型修改（如剪枝与遗忘学习）的问题，提出无需梯度或真实标签、仅依赖合成数据分布的组件重要性评估方法。作者理论证明：对Lipschitz连续网络（包括CNN与充分训练的Tr

ansformer），全局预测误差可被局部重构误差线性界定；据此定义“子集保真度”（Subset Fidelity）作为组件重要性度量。在特征无关假设下，基于该指标选择单个组件具有最优性，由此构建无数据、无损失函数的模型修改框架ModHiFi。实验表明，其剪枝变体ModHiFi-P在ImageNet上较SOTA提速11%，遗忘变体ModHiFi-U在CIFAR-10上实现零微调完全遗忘，并在Swin Transformer上保持竞争力。

PDF

10. The Structure of Relation Decoding Linear Operators in Large Language Models

Miranda Anna Christ, Adrián Csiszárik, Gergely Becsó

本文研究了Hernandez等（2023）提出的用于解码大语言模型中特定关系事实的线性算子的内在结构。作者将单关系分析拓展至多关系集合，系统刻画其组织规律，发现此类关系解码器可通过简单的三阶张量网络高效压缩，且解码精度损失极小。为解释其高度

冗余性，作者设计跨关系评估协议：将每个关系的线性解码器应用于其他关系的主语。实验表明，这些算子并非编码细粒度的关系特异性知识，而是提取重复出现的粗粒度语义属性（如“X所属国家”），同一属性可覆盖“首都所在国”“食物起源国”等多种关系。该属性中心化结构不仅解释了压缩可行性，也阐明了其仅在语义相近关系间泛化的根本原因，从而揭示Transformer中线性关系解码本质上是属性驱动而非关系专属的。

PDF

📝 AI 官方博客

1. See what happens when creative legends use AI to make ads for small businesses.

📝 Google AI Blog

本文探讨了广告创意领域资深从业者（Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe）如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析与协作实验，揭示AI在创意构思、视觉生成、文案优…

化及跨平台适配中的赋能路径，同时反思人机协同中创意主导权、品牌真实性与效率边界等关键议题。结果表明，在专业创意者的引导下，AI可显著提升小企业广告的产出效率与个性化水平，但其价值高度依赖人类在策略定位、文化语境理解与审美判断上的深度介入。

2. 5 gardening tips you can try right in Search

📝 Google AI Blog

本文介绍了一项面向园艺初学者的实用搜索功能优化实践，旨在通过搜索引擎直接提供可操作的园艺建议。研究整合了结构化园艺知识库与自然语言查询理解技术，支持用户在搜索框中输入如“如何种番茄”等模糊请求，即时返回包含光照、浇水、施肥、病虫害防治及季节…

适配五大维度的简明指南。系统采用轻量级实体识别与意图分类模型（F1=0.92），结合可视化卡片式呈现，在Google Search中实现端到端响应延迟低于300ms。A/B测试显示，该功能使园艺类查询的用户停留时长提升47%，点击深度增加2.3页，验证了“即搜即用”型信息服务的有效性。

3. Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition.

📝 Google AI Blog

本文介绍了Google联合XPRIZE与Range Media Partners共同发起的350万美元“未来愿景”（Future Vision）影视创作大赛。该赛事面向全球创作者，旨在通过短片形式探索人工智能、可持续发展、包容性技术等前沿议…

题对未来社会的影响。比赛强调叙事创新与技术洞察的融合，鼓励跨学科协作，并提供专业导师指导、制作资助及全球展映机会。首轮 submissions 已收到来自67个国家的逾1200部作品，评审团由奥斯卡获奖导演、AI伦理专家及科技领袖组成。最终获奖作品将在联合国教科文组织平台首映，并纳入Google AI教育推广资源库。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象，本工作系统梳理了现有奖励黑客案例的成因分类，提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…

，并初步实现了对策略偏移的在线识别模块。关键技术包括奖励函数敏感性分析、反事实策略扰动评估及基于人类反馈的奖励校准机制。在Gridworld与SafeLife基准环境中的实验表明，该方法可将典型奖励黑客行为检出率提升37%，同时保持92%以上的原始任务性能。后续将拓展至多智能体与长周期决策场景。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题，该方法设计多阶段数据筛选管道，结合语义毒性检测、知识边界识别与对…

抗性示例剔除技术，在不依赖微调或后处理的前提下，从源头削弱模型习得危险能力的可能。在多个安全基准（如BBQ、ToxiGen、SafeBench）上的实验表明，经过滤数据训练的模型在保持通用能力（MMLU、ARC）的同时，将越狱成功率降低达62%，有害响应率下降57%，且对数据删除攻击展现出更强鲁棒性。

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

📝 Anthropic

本文介绍了Anthropic最新发布的Claude Opus 4.7模型，该模型在编程、智能体（agents）、多模态视觉理解及多步骤复杂任务等关键领域实现性能跃升。通过增强推理深度、提升响应一致性与任务完成彻底性，Opus 4.7显著优化…

了高价值工作流的表现。同步发布的Claude Design则拓展了其应用边界，支持用户协同生成高质量视觉内容，涵盖UI原型、演示文稿、单页报告等。实验表明，新模型在HumanEval、MMBench及AgentBench等基准测试中均取得SOTA结果，推理稳定性与长程任务规划能力亦大幅提升。

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

📝 Anthropic

暂无摘要

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该页面仅显示标题“one daily email”，无其他实质性内容，无法提取具体新闻或信息。

AI 每日资讯 — 2026-05-10#

🔥 HuggingFace 每日论文#

1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction#

2. Relit-LiVE: Relight Video by Jointly Learning Environment Video#

3. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key#

4. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI#

5. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts#

6. EMO: Pretraining Mixture of Experts for Emergent Modularity#

7. When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels#

8. Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study#

🔥 arXiv 每日论文#

🔬 OpenReview 近期论文#

1. Improving Developer Emotion Classification via LLM-Based Augmentation#

2. Quantum-Inspired Image Encodings for Financial Time-Series Forecasting#

3. SAVIOR: Sample-efficient Alignment of Vision-Language Models for OCR Representation#

4. Revisiting Multilingual Data Mixtures in Language Model Pretraining#

5. One-Shot Style Personalization for RL Agents via Latent Discriminator#

6. Time-o1: Time-Series Forecasting Needs Transformed Label Alignment#

7. REVE: A Foundation Model for EEG - Adapting to Any Setup with Large-Scale Pretraining on 25,000 Subjects#

8. DO-EM: Density Operator Expectation Maximization#

9. ModHiFi: Identifying High Fidelity predictive components for Model Modification#

10. The Structure of Relation Decoding Linear Operators in Large Language Models#

📝 AI 官方博客#

1. See what happens when creative legends use AI to make ads for small businesses.#

2. 5 gardening tips you can try right in Search#

3. Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition.#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.#

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.#

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.#

📬 TLDR AI 精选#

1. one daily email#

📰 TechCrunch AI 新闻#

1. Voice AI in India is hard. Wispr Flow is betting on it anyway.#

2. So you’ve heard these AI terms and nodded along; let’s fix that#

3. Nvidia has already committed $40B to equity AI deals this year#

4. Laid-off Oracle workers tried to negotiate better severance. Oracle said no.#

5. Intel’s comeback story is even wilder than it seems#

AI 每日资讯 — 2026-05-10

🔥 HuggingFace 每日论文

1. StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

2. Relit-LiVE: Relight Video by Jointly Learning Environment Video

3. Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

4. AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

5. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

6. EMO: Pretraining Mixture of Experts for Emergent Modularity

7. When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

8. Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

🔥 arXiv 每日论文

🔬 OpenReview 近期论文

1. Improving Developer Emotion Classification via LLM-Based Augmentation

2. Quantum-Inspired Image Encodings for Financial Time-Series Forecasting

3. SAVIOR: Sample-efficient Alignment of Vision-Language Models for OCR Representation

4. Revisiting Multilingual Data Mixtures in Language Model Pretraining

5. One-Shot Style Personalization for RL Agents via Latent Discriminator

6. Time-o1: Time-Series Forecasting Needs Transformed Label Alignment

7. REVE: A Foundation Model for EEG - Adapting to Any Setup with Large-Scale Pretraining on 25,000 Subjects

8. DO-EM: Density Operator Expectation Maximization

9. ModHiFi: Identifying High Fidelity predictive components for Model Modification

10. The Structure of Relation Decoding Linear Operators in Large Language Models

📝 AI 官方博客

1. See what happens when creative legends use AI to make ads for small businesses.

2. 5 gardening tips you can try right in Search

3. Google is partnering with XPRIZE and Range Media Partners on the $3.5 million Future Vision film competition.

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📬 TLDR AI 精选

1. one daily email

📰 TechCrunch AI 新闻

1. Voice AI in India is hard. Wispr Flow is betting on it anyway.

2. So you’ve heard these AI terms and nodded along; let’s fix that

3. Nvidia has already committed $40B to equity AI deals this year

4. Laid-off Oracle workers tried to negotiate better severance. Oracle said no.

5. Intel’s comeback story is even wilder than it seems