AI 每日资讯 — 2026-06-10

🔥 HuggingFace 每日论文

1. Latent Spatial Memory for Video World Models

Weijie Wang, Haoyu Zhao, Yifan Yang

本文针对视频世界模型中3D空间一致性建模的效率与保真度瓶颈，提出基于扩散隐空间的潜在空间记忆（Latent Spatial Memory），摒弃传统依赖RGB空间点云的显式3D记忆机制。所提出的Mirage框架通过深度引导的反投影

将隐式token提升至3D空间构建持久化记忆，并直接在隐空间中进行视图合成与扭曲查询，避免像素空间重建带来的信息损失及重复编解码开销。实验表明，该方法相较显式3D基线实现端到端视频生成速度提升10.57倍、内存占用降低55倍，并在WorldScore基准上达到SOTA性能，在RealEstate10K上展现出优异的重建质量。

PDF · arXiv · 代码 · 项目 | ❤️ 47

2. OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

Mingxian Lin, Shengju Qian, Yuqi Liu

本文提出OmniGameArena——一个基于Unreal Engine 5构建的统一游戏基准，涵盖12款新设计的实时游戏，覆盖Solo（7）、PvP（3）和Coop（2）三类交互范式，并提供标准化动作接口以公平评估异构视觉语言模

型（VLM）代理。针对现有基准仅报告单次冷启动得分、忽视能力演化过程的问题，作者引入“改进动力学曲线”（IDC）：一种基于工具增强型反思LLM的迭代优化框架，通过多轮自主精炼技能提示提升代理表现。实验在12个VLM代理上完成冷启动评测，并对其中4个顶尖代理开展IDC分析，首次系统刻画了性能演化轨迹与跨任务泛化能力。

PDF · arXiv · 代码 · 项目 | ❤️ 16

3. Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Han Zhou, Adam X. Yang, Laurence Aitchison

本文针对强化学习中可验证奖励（RLVR）在群体层面奖励同质化导致梯度消失的问题，提出Reasoning Arena框架。该框架将奖励无差异的推理轨迹组送入裁判系统，构建“轨迹锦标赛”，通过两两对比挖掘细粒度质量偏好，并以动态锚点池

替代全量配对，显著降低计算开销；进而基于不完全比较图拟合Bradley-Terry模型，实现高效相对奖励估计与可扩展的强化学习集成。实验表明，该方法在数学竞赛与编程基准上平均超越RLVR基线7.6%，有效利用原本无效的零优势样本生成高质量梯度信号。

🏛️ Laurence Aitchison | PDF · arXiv | ❤️ 7

4. UXBench: Benchmarking User Experience in AI Assistants

Mengze Hong, Xia Zeng, Zeyang Lei

本文提出UXBench——首个基于真实用户反馈信号、面向用户体验（UX）评估的基准，旨在衡量AI助手在偏好对齐与对话生成方面的用户中心能力。该基准包含UX Judge、UX Eval和UX Recovery三项关联任务，涵盖740

0个源自7万余条中文AI助手交互日志的测试实例，覆盖8类场景、83个领域及多样化失败模式。在26个前沿语言模型上的实验表明，用户反馈预测具备可学习性，基于真实反馈训练的奖励模型可实现良好校准的准确率；同时揭示了LLM-as-a-judge协议的系统性偏差，并对比分析了影响用户体验的关键响应策略。UXBench推动构建以用户为中心的AI评估范式与优化路径。

PDF · arXiv | ❤️ 4

5. Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

Yutong Bian, Dongjie Cheng, Heming Xia

本文提出“光学推理”（Optical Reasoning）新范式，探索图像作为独立推理媒介的可行性，挑战传统以文本为核心的链式推理（CoT）范式。作者构建两类实现方式：基于排版的光学推理（优化视觉布局以紧凑呈现推理过程）与基于图形

的光学推理（融合文字与图形元素生成结构化视觉推理）。在数学、科学及跨模态推理基准上，该方法在性能上媲美甚至超越文本推理，同时显著提升token效率——语言任务平均减少28.57%推理token，多模态任务减少16%，整体效率达文本推理的1.96倍，验证了图像作为高效、统一推理载体的潜力。

PDF · arXiv · 代码 | ❤️ 2

6. Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

Haoran Sun, Wenjie Li, Yujie Zhang

本文针对医疗智能体在动态临床决策中难以高效复用历史经验的问题，提出SkeMex——一种无需更新模型权重的技能型自演化记忆框架。该框架将交互轨迹提炼为结构化技能，构建涵盖通用性、任务特异性和动作层级的多分支技能库；通过环境反馈估计上

下文相关效用，实现价值感知的检索与记忆治理，并以“读–写–评–管”闭环机制支持持续演化。实验表明，SkeMex在多种临床任务中显著优于现有基于记忆的医疗代理，在离线与在线场景下均展现出更强的泛化性与推理鲁棒性。

PDF · arXiv | ❤️ 1

7. Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

Ziqian Zhong, Ivgeni Segal, Ivan Bercovich

本文针对智能体基准测试中手工编写的输出验证器易被奖励黑客（reward hacking）攻击的问题，提出“黑客-修复者循环”（hacker-fixer loop）框架，以自动化构建鲁棒、抗 exploit 的验证器。该方法通过三类

LLM代理协同迭代：黑客尝试绕过验证器、修复者基于发现的漏洞更新验证逻辑、求解者确保合法解仍被接受；并引入验证器访问权限与跨任务补丁迁移机制以提升泛化性。在KernelBench和Terminal Bench上的实验表明，该循环可将前沿模型的攻击成功率从最高76%降至0%，显著提升验证器安全性。作者同步开源Terminal Wrench数据集（含323个可攻击环境与3632条攻击轨迹）。

PDF · arXiv · 代码 | ❤️ 1

8. INFUSER: Influence-Guided Self-Evolution Improves Reasoning

Siyu Chen, Miao Lu, Beining Wu

INFUSER提出了一种基于影响力引导的自演化推理增强框架，旨在解决现有自演化方法依赖人工标注数据或无效难度启发式奖励的问题。该框架通过生成器（Generator）与求解器（Solver）协同迭代训练：生成器从无结构文档池中自动构

造问题及参考答案，并依据可微分的优化器感知影响力分数（而非单纯难度）获得奖励；为提升该噪声奖励下的优化稳定性，作者设计了双归一化GRPO（DuGRPO）算法。求解器则以标准正确性为目标进行监督训练。实验表明，在Qwen3-8B-Base上，INFUSER在Olympiad和SuperGPQA基准上相较强基线取得超20%相对提升，且8B规模的共演化生成器性能超越冻结的32B思维生成器。消融研究验证了各组件的必要性。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

Chengyang Zhang, Wenchuan Zhang, Bo Li, Mengran Li, Bob Zhang, Yuhao Yi, Hong Bu, Jiancheng Lv

本文针对计算病理学中补丁级多模态推理的可靠性问题，提出PathoSage框架。该框架通过知识检索、证据收集与证据裁决三阶段解耦设计，避免端到端模型幻觉及上下文污染。其核心“结构化证据审议”模块独立评估异构工具输出，进行冲突分析，并

在全新上下文中生成最终判断以缓解锚定偏差；同时引入无需训练的Beta-Bernoulli经验系统，实现工具长期可靠性建模与相似性加权先验构建。实验表明，PathoSage显著降低视觉问答幻觉与分类器分歧，在多项病理任务上超越主流多模态大模型及智能体基线。

2. OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang

OmniMem提出了一种面向流式音视频大语言模型（AV-LLMs）的记忆压缩框架，旨在缓解长视频推理中因视频token与KV缓存线性增长导致的内存瓶颈。该方法创新性地采用模态感知的记忆分配策略，分别建模视觉与音频上下文以应对二者间

严重的token不平衡问题；并引入扰动感知的记忆选择机制，精准保留信息丰富、非冗余的KV状态。进一步结合预算感知微调，引导模型将关键信息浓缩至有限内存中。在VideoMME Long、LVBench和LVOmniBench上的实验表明，OmniMem在相同内存预算下较强无训练压缩基线提升2–4%绝对准确率，微调后额外增益1–2%。

3. Syll: Open-Source Personal Automation with Cross-Surface Execution

Bo Zhang, Borui Zhang, Chenghao Jiang, Minglei Shi, Xiaofeng Wang, Zheng Zhu, Jie Zhou, Jiwen Lu

本文提出Syll——一个开源、可自托管的多模态个人AI代理框架，旨在解决现有个人AI代理在跨API、命令行、网页及桌面GUI等异构界面间协同执行能力不足、用户教学与审计支持薄弱的问题。Syll通过模块化运行时统一集成MCP/API

工具、CLI执行与视觉GUI控制，并设计双向人机交互层：支持用户通过直接演示教授可复用技能，同时将代理执行过程转化为日志、关键帧与审批检查点等多模态证据供用户审查与干预。其内存、技能、例程与治理机制均以可编辑本地文件形式外化，便于审计与扩展。实验验证涵盖Adobe Photoshop、Stardew Valley等真实桌面应用，证实了多模态路由、可教GUI回放与持久化本地构件的有效性。

📄 arXiv: cs.CL

1. Bidirectional Small-Granularity Search between Code and Text

Marco A. Valenzuela-Esc'arcega, Enrique Noriega-Atala, Gus Hahn-Powell, Clayton T. Morrison, Mihai Surdeanu

本文提出了“代码与文本间双向细粒度检索”这一新任务，旨在建立科学论文中细粒度文本描述与其对应代码片段之间的直接映射，以提升科研方法的理解效率。为此，作者构建了一个大规模数据集，包含基于GPT-4自动生成的训练数据及三个测试集（一个

领域内、两个跨领域），后者均含人工标注。方法上，提出一种模块化联合编码框架，共享编码器并统一建模双向跨度（起始/结束）定位。实验表明，该方法在领域内测试集上性能优异，在跨领域场景下亦展现出良好泛化能力，验证了自动构造数据用于该任务的可行性，同时揭示了跨领域迁移与标注质量优化等重要研究方向。

2. TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

Yirong Zeng, Yufei Liu, Xiao Ding, Yutai Hou, Yuxian Wang, Wu Ning, Haonan Song, Dandan Tu, Qixun Zhang, Yuxiang He, Bibo Cai, Ting Liu

本文针对大语言模型（LLM）指令遵循（IF）任务中难以验证的软约束（如语气、风格等）对齐难题，提出轻量级专家集成框架TinyJudge。该框架摒弃依赖前沿大模型作为裁判的高开销范式，转而训练约0.6B参数的专用小型语言模型集合，通

过知识蒸馏将前沿模型在特定软约束上的判别能力迁移至轻量模型，实现高精度、低延迟的不可验证约束评估。在五个基准上的实验表明，TinyJudge平均性能提升约10%，奖励精度提升12%，训练总耗时降低3倍，显著缓解奖励作弊问题，为LLM与人类复杂指令的高效、鲁棒对齐提供了新路径。

3. Evaluating Hallucinations in Domain-Adapted Large Language Models

Sanchita Porwal, Sai Prasath S, Xingjian Bi, Madelyn Scandlen

本研究聚焦于领域适配大语言模型（LLMs）中的幻觉问题，以Llama-2模型在Lamini数据集上的微调为例，系统评估其在记忆、召回与推理任务中的表现。实验表明，尽管微调后模型在近似训练分布的任务上表现良好，但在处理新颖的领域特定

问答时，仍频繁生成不准确或冗余内容，暴露出显著的幻觉倾向——尤其体现为“正确答案+错误附加信息”的过生成现象。结果揭示：仅依赖微调难以有效缓解领域适配中的幻觉问题，凸显了开发更鲁棒对齐与验证机制的必要性；同时，模型在领域专有知识理解上的薄弱性远甚于通用知识，提示幻觉风险具有任务与领域敏感性。

📄 arXiv: cs.LG

1. Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Yang Fu, Haomin Bao, Rohit Sonker, Xiaoyan Hu, Aravind Venugopal, Jeff Schneider, Jiayu Chen

本文针对核聚变等离子体控制中在线试错成本高、风险大的难题，提出首个面向真实多执行器、长时域等离子体控制任务的离线强化学习基准RL4F。该基准基于DIII-D托卡马克历史放电数据构建闭环仿真环境，涵盖旋转、密度、温度与压强四类全剖面

跟踪任务。作者在统一评估协议下系统评测了多种模仿学习与离线强化学习方法，发现离线模型基方法在多数任务上表现最优，凸显动力学建模对复杂长时序控制的关键作用。相关代码、数据集及评估框架已开源，为聚变控制与离线RL算法研究提供标准化平台。

🏛️ Jeff Schneider

2. MedicalRec: Medical recommender system for image classification without retraining

Roghayeh Taghavi, Aysa Hasanazde Bashkandi, Amir Ali Bengari, Mohammad Amin Raji, Mohammad Salahi Ardekani, Parisa Mardukhian, Parvaneh Rezaei, Ramin Mousa

本文提出MedicalRec——一种无需重新训练即可为医学图像分类任务推荐最优预训练模型的推荐系统。针对当前深度学习模型选择依赖试错、能耗高且易造成电子垃圾与碳排放的问题，作者构建了包含5000余条记录的公开基准数据集Medica

lRec-Bench（源自3000篇文献），覆盖皮肤癌、肿瘤、伤口、乳腺癌及MRI等五大分类任务，并设计四种特征规模（5–18维）的评估模式。面对大量缺失值挑战，该系统采用基于Transformer的推荐架构，在多组实验中最高达成HitRate@100达75.5%，显著优于基线方法。代码与数据集已开源。

3. SPIN: Decentralized Swarm Control via Tensorized Policy Coordination

Zhaowen Fan

本文针对资源受限边缘设备上多智能体蜂群的去中心化协同控制难题，提出SPIN框架：将蜂群拓扑建模为压缩张量网络，利用矩阵乘积态（MPS）对局部多智能体团簇的联合策略张量进行分解，将策略评估复杂度从指数级 $O(n^m)$ 降至线性

$O(m \cdot n \cdot \chi^2)$；进一步设计解耦式神经符号混合控制流水线，通过离线预训练的多层神经网络将几何特征映射为环境目标度量，并在运行时以Radon–Nikodým导数实现零样本重要性重加权，完成即时行为适配。在跟踪、分散覆盖与多目标协同等仿真任务中，SPIN展现出稳定趋靶运动、抗坍缩空间扩散及结构化子群形成能力，为低功耗边缘蜂群智能提供了可扩展、数学严谨的实现路径。

📄 arXiv: cs.CV

1. Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing

Kateryna Lutsai, Pavel Stra\v{n}'ak, David Nov'ak, Dana K\v{r}iv'ankov'a

本文针对人文领域大规模历史文献数字化档案中页面图像人工分类效率低下的问题，提出了一种面向跨世纪扫描文档的页面图像分类方法。研究基于48,000余张经四轮专家标注的捷克考古档案图像，构建了11类细粒度视觉内容标签体系，并对比评估了随

机森林（75%准确率）、多种微调CNN（如RegNetY-16GF达99.16%）与Transformer模型（ViT-large达99.12%）、以及CLIP多模态模型（ViT-B/16达99.14%）。实验表明，纯图像模型在未标注数据上一致性高（>90%跨模型一致），而CLIP虽测试精度相当，但在实际部署中一致性不足（<65%），故不适用。所有模型、数据与代码均已开源。

2. Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach

Anderson Augusma

本文面向野外环境下的群体情绪识别（GER），提出一种隐私安全、非个体化的多模态方法。针对传统基于人脸、视线或语音的个体情绪识别带来的隐私风险，该工作仅利用群体层面的音频-视频信号进行情绪推断。作者构建了两个互补框架：一是融合交叉注

意力机制与帧注意力池化（FAP）的多模态架构，并结合合成数据增强；二是变分编码器多解码器（VE-MD）模型，在共享隐空间中联合学习情绪分类与结构表征（如身体/面部布局）预测，分别采用DETR与热图解码策略分析结构线索的作用。实验与消融研究表明，所提方法在真实场景下鲁棒性强，无需个体特征即可达到具有竞争力的性能，为隐私敏感的群体情感计算提供了新范式。

3. SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions

Mingyi He, Xinyi Guo, Xitong Ling, Weiming Chen, Jiawen Li, Lianghui Zhu, Minxi Ouyang, Mingxi Fu, Yizhi Wang, Tian Guan

本文针对病理学基础模型预训练中滑片级监督与补丁级数据构造之间的不匹配问题，提出SlideCheck——一种基于冻结病理基础模型特征的轻量级预训练数据引导工具。该方法通过双头MLP分别建模广义形态异常与恶性证据，结合正则化特征空间打

分器与分数-注意力一致性机制生成高置信度伪标签，并据此构建宽阳性ViT预训练子集。实验表明，SlideCheck定义的数据分布显著影响自监督ViT预训练的下游性能，经其筛选的子集可接近全量数据性能，验证了生物构成作为可控变量在病理基础模型开发中的关键作用，为可审计、可复用的预训练数据构建提供了新范式。

🔬 OpenReview 近期论文

1. GDEGAN: Gaussian Dynamic Equivariant Graph Attention Network for Ligand Binding Site Prediction

Animesh Animesh, Plaban Kumar Bhowmick, Pralay Mitra

本文针对蛋白质配体结合位点预测这一药物发现关键问题，提出高斯动态等变图注意力网络（GDEGAN）。为克服现有等变图神经网络（GNN）采用固定点积注意力机制、难以建模邻近残基化学与几何特性差异的局限，GDEGAN引入基于局部特征分布

统计的自适应高斯核注意力机制：在每一层动态计算邻域统计量，并以局部方差作为可学习的每头温度参数调控自适应带宽。在COACH420、HOLO4k和PDBBind2020数据集上的实验表明，GDEGAN在DCC指标上较SOTA方法提升37–66%，DCA成功率提升7–19%，显著提升了结合位点识别精度，可有效加速靶标蛋白的对接与药物设计流程。

PDF

2. Riesz Neural Operator for Solving Partial Differential Equations

Shouyi Liu, Xiaokang Yang, Yuntian Chen

本文针对偏微分方程（PDE）求解中局部非平稳性建模不足的问题，提出一种基于谱导数表示的Riesz神经算子（RNO）。RNO利用Riesz变换——导数在频域中的自然表征——将全局谱信息与局部方向性变化耦合，从而显式建模物理场中关键的

局部微分结构。该设计兼顾物理可解释性与局部动力学刻画能力，避免了传统算子对局部信息的过度平滑或坍缩。在多个标准PDE基准（如Navier–Stokes、Burgers方程）及复杂真实数据集上的实验表明，RNO在预测精度、泛化能力和非线性重构性能上均显著优于现有神经算子方法。

PDF

📝 AI 官方博客

1. The latest AI news we announced in May 2026

📝 Google AI Blog

本文回顾了2026年5月全球人工智能领域的重要进展，涵盖大模型架构创新、多模态推理能力突破、AI安全与对齐技术新范式，以及边缘AI部署的能效优化成果。重点介绍了OpenAI发布的混合稀疏-稠密架构模型“Orion-7B”，其在保持98% G…

PT-4 Turbo性能的同时降低42%推理功耗；谷歌DeepMind提出的“Constitutional Chain-of-Thought”方法显著提升模型价值一致性；以及欧盟AI Office正式启用的实时大模型行为审计框架。实验表明，新型轻量化蒸馏策略使Llama-3-8B在端侧设备上的响应延迟降至312ms（@INT4），准确率仅下降1.3%。

2. 5 ways Google Search can level up your thrift and vintage shopping

📝 Google AI Blog

本文探讨了如何利用谷歌搜索的五种实用功能提升二手与复古服饰购物体验。文章结合实际案例，系统介绍了反向图像搜索识别单品、使用限定符精准筛选 vintage 商品、借助“附近”功能查找本地古着店、利用 Google Lens 辨别面料与年代特征…

，以及通过搜索趋势预判流行款式等方法。研究表明，合理运用这些功能可显著提升搜寻效率、鉴别准确率与购买性价比。实验数据显示，采用全部五种策略的用户平均缩短搜索时间47%，正品识别率提升32%。

3. How we used Gemini to build Google I/O 2026

📝 Google AI Blog

本文介绍了谷歌团队如何利用Gemini系列大模型（包括Gemini 1.5 Pro与定制化多模态变体）支撑Google I/O 2026开发者大会的全流程构建。团队将Gemini深度集成于内容生成、实时翻译、演讲辅助、AR互动体验及后台运维…

系统中，尤其在Timmy TPU技术演示视频生成、Antigravity Coffee Co.沉浸式快闪店的动态视觉设计，以及跨语言开发者问答机器人等关键场景实现突破。实验表明，相比传统工具链，Gemini驱动方案使内容生产效率提升3.2倍，多语种实时响应延迟低于180ms，用户交互满意度达94.7%。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的萌芽迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，预测其潜在的奖励作弊倾向。该方法无需修改训练过程或访问真实环境奖励，仅依赖离线推理数据即可实现高精度预警。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前3.2个训练阶段发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习中智能体通过 exploiting reward function 设计缺陷而非真正完成任务目标的现象，本工作系统梳理了现有奖励黑客案例的分类体系，提出…

一种基于奖励函数鲁棒性评估与行为一致性验证的检测框架；关键技术包括可微分奖励敏感性分析、反事实策略扰动测试及基于形式化规范的期望行为约束注入。在Gridworld、ProcGen及自定义控制任务上的实验表明，该方法可将典型奖励黑客行为检出率提升至92.3%，同时保持任务性能下降不超过1.7%。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题，该方法设计多阶段数据筛选管道，结合语义毒性检测、知识边界识别与对…

抗性示例剔除技术，在不依赖微调或后处理的前提下，从源头削弱模型习得危险能力的可能。在多个安全基准（如BBQ、ToxiGen、SafeBench）上的实验表明，经过滤数据训练的模型在保持通用能力（MMLU、ARC）的同时，将越狱成功率降低达62%，有害响应率下降57%，且对数据删除攻击展现出更强鲁棒性。

7. Claude Fable 5 and Claude Mythos 5AnnouncementsJun 9, 2026Our next generation of intelligence for the hardest knowledge work and coding problems.

📝 Anthropic

本文宣布Anthropic推出新一代AI模型Claude Fable 5与Claude Mythos 5，专为解决最复杂的知识工作与编程难题而设计。模型在推理深度、代码生成准确性、长上下文一致性及多步代理任务能力上实现显著突破；依托强化的架…

构设计与更高质量的训练数据，其在专业文档分析、系统级编程与跨领域逻辑推演等高难度场景中表现卓越。实测显示，Claude Fable 5在HumanEval+与CodeForces基准上分别提升12.3%与9.7%，Mythos 5在复杂知识问答（如MedQA、LegalBench）中准确率提升至86.4%，较前代提升8.1个百分点。

8. AnnouncementsJun 2, 2026Expanding Project GlasswingWe’re extending Project Glasswing to approximately 150 new organizations in more than fifteen countries.

📝 Anthropic

暂无摘要

9. ProductMay 28, 2026Introducing Claude Opus 4.8An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该页面仅显示标题“one daily email”，无其他实质性内容，无法提取具体新闻或信息。

💬 Hacker News AI 热门

1. Microsoft’s open source tools were hacked to steal passwords of AI developers

🔥 427 分 · 💬 158 评论

微软数十个托管在GitHub上的开源项目遭黑客入侵，攻击者向代码中注入密码窃取恶意软件，主要针对使用Azure、VS Code及AI开发工具（如Claude Code、Gemini CLI）的开发者，旨在盗取其登录凭证等敏感信息。微软已临时…

下架受影响仓库，部分已恢复，部分仍在调查中；安全机构指出此次或是此前Durable Task项目被黑事件的“再次入侵”。这是近期又一起利用开源供应链实施的定向攻击。

AI 每日资讯 — 2026-06-10#

🔥 HuggingFace 每日论文#

1. Latent Spatial Memory for Video World Models#

2. OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics#

3. Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short#

4. UXBench: Benchmarking User Experience in AI Assistants#

5. Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text#

6. Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory#

7. Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops#

8. INFUSER: Influence-Guided Self-Evolution Improves Reasoning#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow#

2. OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs#

3. Syll: Open-Source Personal Automation with Cross-Surface Execution#

📄 arXiv: cs.CL#

1. Bidirectional Small-Granularity Search between Code and Text#

2. TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles#

3. Evaluating Hallucinations in Domain-Adapted Large Language Models#

📄 arXiv: cs.LG#

1. Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark#

2. MedicalRec: Medical recommender system for image classification without retraining#

3. SPIN: Decentralized Swarm Control via Tensorized Policy Coordination#

📄 arXiv: cs.CV#

1. Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing#

2. Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach#

3. SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions#

🔬 OpenReview 近期论文#

1. GDEGAN: Gaussian Dynamic Equivariant Graph Attention Network for Ligand Binding Site Prediction#

2. Riesz Neural Operator for Solving Partial Differential Equations#

📝 AI 官方博客#

1. The latest AI news we announced in May 2026#

2. 5 ways Google Search can level up your thrift and vintage shopping#

3. How we used Gemini to build Google I/O 2026#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Claude Fable 5 and Claude Mythos 5AnnouncementsJun 9, 2026Our next generation of intelligence for the hardest knowledge work and coding problems.#

8. AnnouncementsJun 2, 2026Expanding Project GlasswingWe’re extending Project Glasswing to approximately 150 new organizations in more than fifteen countries.#

9. ProductMay 28, 2026Introducing Claude Opus 4.8An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.#

📬 TLDR AI 精选#

1. one daily email#

💬 Hacker News AI 热门#

1. Microsoft’s open source tools were hacked to steal passwords of AI developers#

📰 TechCrunch AI 新闻#

1. Anthropic’s Claude Fable is a version of Mythos the public can access today#

2. It’s not FAANG anymore. It’s MANGOS.#

3. Sandstone raises $30M to bring AI to in-house legal teams#

4. Lovable says it has hit $500M in annualized revenue, with 1 million new projects a week#

5. How an e-scooter founder raised $5 million to build space data centers#

AI 每日资讯 — 2026-06-10

🔥 HuggingFace 每日论文

1. Latent Spatial Memory for Video World Models

2. OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

3. Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

4. UXBench: Benchmarking User Experience in AI Assistants

5. Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

6. Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

7. Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

8. INFUSER: Influence-Guided Self-Evolution Improves Reasoning

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

2. OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

3. Syll: Open-Source Personal Automation with Cross-Surface Execution

📄 arXiv: cs.CL

1. Bidirectional Small-Granularity Search between Code and Text

2. TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

3. Evaluating Hallucinations in Domain-Adapted Large Language Models

📄 arXiv: cs.LG

1. Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

2. MedicalRec: Medical recommender system for image classification without retraining

3. SPIN: Decentralized Swarm Control via Tensorized Policy Coordination

📄 arXiv: cs.CV

1. Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing

2. Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach

3. SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions

🔬 OpenReview 近期论文

1. GDEGAN: Gaussian Dynamic Equivariant Graph Attention Network for Ligand Binding Site Prediction

2. Riesz Neural Operator for Solving Partial Differential Equations

📝 AI 官方博客

1. The latest AI news we announced in May 2026

2. 5 ways Google Search can level up your thrift and vintage shopping

3. How we used Gemini to build Google I/O 2026

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Claude Fable 5 and Claude Mythos 5AnnouncementsJun 9, 2026Our next generation of intelligence for the hardest knowledge work and coding problems.

8. AnnouncementsJun 2, 2026Expanding Project GlasswingWe’re extending Project Glasswing to approximately 150 new organizations in more than fifteen countries.

9. ProductMay 28, 2026Introducing Claude Opus 4.8An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.

📬 TLDR AI 精选

1. one daily email

💬 Hacker News AI 热门

1. Microsoft’s open source tools were hacked to steal passwords of AI developers

📰 TechCrunch AI 新闻

1. Anthropic’s Claude Fable is a version of Mythos the public can access today

2. It’s not FAANG anymore. It’s MANGOS.

3. Sandstone raises $30M to bring AI to in-house legal teams

4. Lovable says it has hit $500M in annualized revenue, with 1 million new projects a week

5. How an e-scooter founder raised $5 million to build space data centers