AI 每日资讯 — 2026-06-20

🔥 HuggingFace 每日论文

1. S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Yalun Dai, Hao Li, Shulin Tian

本文针对现实世界空间智能需在连续演化的3D环境中进行推理的挑战，提出S-Agent——一种基于空间工具使用的新型智能体范式。S-Agent将空间推理建模为时空证据累积过程，通过语义规划器（VLM）动态调度多层级空间工具（2D定位、

3D几何重建、证据聚合），实现从帧中心识别到场景中心理解的范式跃迁；并引入场景记忆与智能体记忆双机制，支持跨帧与跨步推理。实验表明，S-Agent在多视角与视频空间推理基准上显著提升开源及闭源VLM性能，且无需训练；进一步基于其生成的30万条空间轨迹微调得到的轻量级模型S-Agent-8B，在多项任务中达到先进水平。

PDF · arXiv · 代码 · 项目 | ❤️ 25

2. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev

本文提出Multi-LCB，一个面向12种编程语言的扩展型代码生成基准，旨在突破原LiveCodeBench（LCB）仅支持Python的局限。Multi-LCB通过语义等价转换将LCB中的Python题目系统性地迁移至其他语言，

严格保留其基于发布时间的污染控制机制与评估协议，并完全兼容原始LCB格式，可自动同步未来更新。在24个主流大语言模型上的实验表明，模型普遍存在Python过拟合、语言特异性污染及跨语言性能显著不均衡等问题。结果验证了Multi-LCB作为多语言代码能力评估新基准的严谨性与必要性。

PDF · arXiv · 代码 · 项目 | ❤️ 20

3. FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

Jinghong Lan, Wei Cheng, Yunuo Chen

FreeStyle提出了一种面向社区LoRA挖掘的风格-内容双参考图像生成框架，旨在解决现有方法在内容保真度、风格对齐与语义泄漏抑制之间的权衡难题。该方法通过构建跨基模型的大规模风格/内容参考三元组数据集，并设计两阶段课程学习策略

：第一阶段采用注意力级增强约束抑制风格参考的语义泄漏；第二阶段引入频域感知的RoPE调制机制，缓解位置对应导致的内容泄漏。实验表明，FreeStyle在自建基准（涵盖风格相似性、内容保持、美学质量、指令遵循与泄漏抑制）上显著优于现有方法，尤其在新提出的风格无关内容对齐分数（CAS）指标上表现突出。

PDF · arXiv · 代码 · 项目 | ❤️ 18

4. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang

本文提出JanusMesh，一种无需训练、快速生成文本驱动3D视觉幻象（即单个网格从不同视角呈现截然不同语义）的零样本方法。针对现有优化方法速度慢、色彩过饱和，以及拼接法几何不连贯、存在伪影与语义泄露等问题，该方法采用两阶段框架：

首先通过跨空间双分支去噪机制，在体素空间中联合执行CLIP引导的姿态对齐与符号距离场（SDF）融合，保障几何无缝性；其次引入视角条件化纹理合成模块，将2D扩散先验投影并聚合至融合几何表面。实验表明，本方法仅需3–5分钟即可生成高保真、双语义一致的3D幻象，在几何完整性、语义可识别性与运行效率上均显著优于现有方法。

PDF · arXiv · 代码 · 项目 | ❤️ 12

5. Current World Models Lack a Persistent State Core

Jinpeng Lu, Dexu Zhu, Haoyuan Shi

本文指出当前世界模型（World Models）缺乏持久化的内部状态核心，难以实现真正自主演化的物理世界建模。作者提出WRBench——首个系统性诊断基准，将相机运动视为可观测性的干预，通过人类校准的三阶段评估链（交互执行性、场景

连续性、返回一致性）检验模型是否能在未观测期间持续演化世界状态。在涵盖23种模型、9600段视频的大规模实验中发现：无论控制范式、模型架构或参数规模如何，现有模型均倾向于将世界状态冻结于最后观测时刻，而非随时间自主推进事件进程。该缺陷揭示了通向通用人工智能的关键瓶颈。

PDF · arXiv | ❤️ 6

6. HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Juncheng Ma, Jianxin Bi, Yufan Deng

本文系统探究了以第一人称视角人类视频（egocentric human video）替代遥操作真实机器人轨迹（teleoperated real-robot trajectories）作为具身基础模型预训练数据的有效性。针对现有方

法受限于真实机器人数据采集成本高、多样性低的问题，作者设计了一套严谨的过滤与标注流程，对人类视频进行动作语义对齐与质量筛选。实验表明，在相同数据量和统一后训练/验证协议下，基于人类视频预训练的模型在真实机器人动作预测任务上验证损失降低24%，在分布内与分布外机器人任务执行成功率分别提升52.5%和90%。该结果证实，高质量处理的第一人称人类视频不仅可替代真实机器人数据，更能实现更优的具身泛化能力，为具身智能提供了一条高效、可扩展的预训练新范式。

PDF · arXiv | ❤️ 3

7. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Nicolas Dufour, Alexei A. Efros, Patrick Pérez

本文揭示了生成模型评估中广泛使用的Fréchet Inception Distance（FID）所隐含的显著随机性。作者将FID建模为依赖训练种子与采样种子的二维随机变量，在数百个SiT模型上系统量化其方差。实验发现：模型重训练引

入的FID波动是固定模型重采样的3.2倍；该差异主要源于随机初始化、数据顺序及流匹配损失中的逐步高斯噪声；增大计算量或模型规模几乎无法降低FID变异系数（CoV），其稳定在1–2%区间；而单元级无分类器引导调优可使方差减半，但最优种子分布发生偏移，幸运种子甚至可用一半算力达到相同FID。据此，作者提出新评估协议：采用单元级最优引导、将低于~1.3% CoV的FID差异视为统计不可判别，并以多训练种子下的误差条替代单点报告。

🏛️ Alexei A. Efros | PDF · arXiv · 项目 | ❤️ 2

8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm

Solène Debuysère, Nicolas Trouvé, Nathan Letheule

本文提出了SARLO-80——首个面向多模态基础模型训练的全球性、高分辨率、斜距域SAR–光学–文本三模态数据集。该数据集基于Umbra公司公开的Spotlight模式SICD格式复数SAR单视复图像（SLC），覆盖全球257个地

点、72个国家，包含119,566组三元组（80 cm斜距复数/幅度SAR图像块、像素级对齐的高分辨率光学图像块及长短不一的自然语言描述）。通过带限FFT重采样统一至斜距80 cm网格，并利用局部坐标映射实现亚像素级几何配准；每样本生成SHORT/MID/LONG三类文本描述以支持多样化视觉语言任务。实验验证了其在跨模态检索与生成任务中的有效性，填补了VHR SAR语言理解数据资源的空白。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. Deontic Policies for Runtime Governance of Agentic AI Systems

Anupam Joshi, Tim Finin, Karuna Pande Joshi, Lalana Kagal

本文针对大语言模型驱动的自主智能体（Agentic AI）在运行时面临的治理挑战，提出了一种基于道义逻辑（deontic logic）的动态治理框架AgenticRei。该框架超越传统访问控制策略引擎（如XACML、Rego、Ce

dar），支持义务（obligations）、豁免（dispensations）、策略冲突消解与领域本体推理等关键治理能力。其核心采用基于Rei框架的道义策略语言，以OWL形式化表达，并通过外部高性能逻辑引擎在运行时实时评估，统一管控工具调用与智能体间通信。实验表明，该方法能精确建模现有策略引擎难以表达的安全与隐私治理约束，并天然兼容A2AS等行业标准框架。

🏛️ Tim Finin

2. Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023

Sherzod Turaev, Mary John, Saja Aldabet, Mamoun Awad, Nazar Zaki, Khaled Shuaib

本文提出一种人机协同的纵向评估框架，用于量化计算机科学本科课程对国际课程标准（CS2013与CS2023）在主题覆盖、能力目标和认知深度三个维度的对齐程度。该框架将课程与标准建模为结构化语料库，结合语义检索（经实证优选互逆秩融合集

成模型）与人工校验，确保匹配结果符合明确定义的覆盖标准。实验表明：所评估项目对CS2023和CS2013的知识单元覆盖率为49.7%与50.9%，十年间基本稳定；能力目标在覆盖单元中达88%，但认知深度达标率从CS2013的95%降至CS2023的76%，反映新标准要求提升；跨版本比对识别出持续存在的结构性缺口（如并行计算、编程语言基础等）。工具具备可复用性。

3. Diffusion Language Models: An Experimental Analysis

Thomas Bertolani, Davide Bucciarelli, Leonardo Zini, Marcella Cornia, Lorenzo Baraldi

本文对扩散语言模型（DLMs）开展了系统性实验分析，旨在厘清其在不同任务与配置下的性能表现与计算效率权衡。研究评估了8种前沿DLM在推理、编程、翻译、知识问答及结构化问题求解等8项基准上的表现，并深入探究去噪步数、上下文长度、块大

小及并行掩码策略等关键推理参数的影响。通过控制变量训练小规模模型并开展大规模基准测试，揭示了DLM在任务适应性、生成质量与计算开销间的复杂关系。结果表明，DLM性能高度依赖于推理时设计选择，难以在所有维度上全面超越自回归模型，但其并行序列优化能力在特定场景下展现出独特优势。

📄 arXiv: cs.CL

1. Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

Matteo Pelossi, Rita Sevastjanova, Thilo Spinner, Mennatallah El-Assady

本文针对大语言模型（LLMs）中难以察觉的表征与句法偏见问题，提出TreeTracer——一种基于随机路径聚合的可视化分析工具。该工具通过系统性提示扰动、语法对齐的层次化生成聚合、辅助语言模型驱动的分类感知节点合并，构建可比树结构

，并以定制化桑基图呈现。结合对比推理机制，直接展示跨语境下的反事实token概率，降低偏见误判风险。在GPT-2 XL与宪法对齐的Apertus模型的对比案例中，该方法成功揭示了代词压制、对话边缘化等隐性表征危害；初步用户研究表明，其聚合式比较界面显著降低认知负荷，提升系统性偏见识别效能。

2. Ensembles of Large Language Models for Identifying EQ-5D Studies in PubMed Based on Their Abstracts

Zhyar Rzgar K. Rostam, M'arta P'entek, J'anos Tibor Czere, Zsombor Zrubka, L'aszl'o Gul'acsi, G'abor Kert'esz

本研究针对系统性文献综述中人工筛选EQ-5D健康相关生命质量研究效率低、一致性差的问题，提出基于大型语言模型（LLM）集成的方法，仅利用PubMed文献摘要自动识别明确报告EQ-5D数据的研究。方法融合少样本提示、加权模型集成与软

堆叠元分类器，评估了9种LLM（含Gemini-2.5-pro、Gemma-3-12b/27b），在双专家标注数据集上取得0.74加权F1分数与准确率，显著优于单模型表现；软堆叠提升了预测可靠性与可解释性，特征分析证实各模型输出概率对最终决策具有关键指导作用。结果表明，LLM集成框架具备临床适用性与规模化部署潜力。

3. Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

Ahmed Haj Ahmed, Ruochen Zhang, Alvin Grissom II

本文探究跨语言迁移中语言亲缘性与任务对齐的解耦问题，通过在阿拉伯语上微调七种大语言模型（参数量4B–671B），并在闪米特语族语言及非闪米特语控制组上开展零样本阅读理解评估。实验发现，无论模型架构（稠密或MoE），均未观测到闪米特

语族特有的迁移优势：基线性能弱的模型在所有语言上均显著提升，而强基线模型增益微弱且与语系无关。进一步的思维链消融实验表明，微调与推理时推理带来的提升高度一致，说明二者主要缓解的是任务格式对齐问题，而非真正的跨语言知识迁移。

📄 arXiv: cs.LG

1. Computational Identifiability

Lucius E. J. Bynum, Rajesh Ranganath, Kyunghyun Cho

本文提出“计算可识别性”（Computational Identifiability）这一新框架，以弥补传统因果可识别性理论中依赖无限样本、渐近性质等理想化假设的局限。不同于基于因果图与理论推导的“理论可识别性”，该框架将可识别性

定义为一个有限计算搜索过程：在给定先验分布与搜索策略下，能否在指定误差容限内经验性地构造出目标因果效应的估计量。作者通过多组实验验证了该框架在小样本、模糊图结构、观测-干预混合数据及反事实估计等现实场景中的有效性，显著提升了可识别性分析的实用性与粒度。代码已开源。

🏛️ Kyunghyun Cho

2. When to Trust, How to Distill: Multi-Foundation Model Guidance for Lightweight, Robust Scientific Time Series Forecasting

Rupasree Dey, Abdul Matin, Nathan Orwick, Yao Zhang, Shrideep Pallickara, Sangmi Lee Pallickara

本文针对物理科学中时序基础模型（TSFMs）部署面临的分布偏移与计算开销双重挑战，提出轻量级、鲁棒的科学时序预测框架GUARD。该框架通过门控不确定性感知路由机制，实现多教师知识蒸馏：其一为上下文路由器，依据输入局部统计特性动态选

择最相关教师；其二为不确定性门控温度机制，作为“电路断路器”自动抑制置信度偏离域现实时的蒸馏强度。在气象、碳通量、土壤湿度和能源电网四大气候关键领域实验表明，GUARD显著降低RMSE，即使教师模型零样本性能欠佳，仍能有效蒸馏知识，并在28.5%最难样本上超越全局最优基础模型，支撑高精度边缘部署。

Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan

本文针对云侧大语言模型（LLM）推理中预填充（prefill）阶段能耗高企的问题，提出SPSD（Sentiment-Preserving Semantic Distillation）——一种部署于边缘设备的提示词压缩方法。SPSD

利用4比特量化的轻量级小语言模型（SLM）在端侧对用户输入进行语义蒸馏，剔除社交性冗余（如礼貌用语、重复表达等），保留语义与情感核心。在248条真实对话提示语上的实验表明，平均每次调用节省99.9个输入token，响应质量经盲测LLM裁判评估，在15分制下非劣于原始提示（预设容差1分），且70–270 μWh/次的净能耗显著降低，验证了边缘提示蒸馏在兼顾效率与效果上的可行性。

📄 arXiv: cs.CV

1. Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers

Fabio De Sousa Ribeiro, Emma A. M. Stanley, Charles Jones, Tian Xia, Dominic C. Marshall, Laurent Renard Trich'e, Christopher V. Cosgriff, Panagiotis Dimitrakopoulos, Sotirios A. Tsaftaris, Ben Glocker

本文提出了首个从零训练、参数量达13亿的胸部X光片生成式基础模型——Rectified Flow Transformer（RFT）。针对现有医学影像AI模型在患者亚群、医疗机构及成像条件间泛化能力差、临床实用性受限的问题，该模型在

包含120万张胸片及专家标注元数据的异构数据集上，基于1.6万亿token进行训练。模型支持多维度可控生成与编辑，涵盖人口统计学特征、摄片体位及十余种病理类型。临床评估表明，其合成图像与真实胸片难以区分，显著提升了生成保真度与临床可信度。

🏛️ Ben Glocker

2. LEAP: Layer-skipping Efficiency via Adaptive Progression for Vision Transformer Distillation

Jiaqi Zhang, Ashton Lee, Anthony Wong, John Zou, Sami BuGhanem, Randall Balestriero

本文针对视觉Transformer（ViT）知识蒸馏中师生特征表征能力不匹配导致的收敛慢、精度低等问题，提出LEAP训练范式：通过自适应选择教师模型中间层特征作为渐进式学习目标，引导学生模型由浅入深地构建表征能力。该方法在Imag

eNet-100上使ViT-S学生模型准确率提升至90.1%（+12.24%），在Oxford/Paris实例检索任务中分别提升3.84%和7.75%；同时减少25.1%训练FLOPs与21%训练时间，显著提升蒸馏效率与可部署性。

3. LooseControlVideo: Directorial Video Control using Spatial Blocking

Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

本文提出LooseControlVideo框架，旨在解决文本到视频生成中多物体场景下3D空间编排精度低、控制繁琐的问题。该方法采用稀疏、带方向的3D包围盒作为“空间阻断”代理，实现高层语义布局与运动轨迹的直观编辑，同时保留生成模型

对真实遮挡、动态交互与形变建模的能力。技术上，作者基于Wan 2.2视频扩散模型，在引入新型DNOCS（Depth-Ordered NOCS）三维标注的数据集上进行微调，支持局部精细化调整而不破坏全局一致性。在nuScenes、HO-3D和BEHAVE基准上的实验表明，其轨迹误差降低1.2–3倍，刚体运动一致性提升2倍，遮挡准确率提高1.5–2倍，显著优于现有2D框与光流引导方法。

🏛️ Niloy J. Mitra

🔬 OpenReview 近期论文

1. Towards Pixel-level VLM Perception via Simple Points Prediction

Tianhui Song, Haoyu Lu, Hao Yang

本文提出SimpleSeg，一种面向像素级视觉语言模型（VLM）感知的简洁高效方法。该方法将图像分割重构为序列生成任务，使多模态大语言模型（MLLM）直接在语言空间内预测表征物体边界的文本化坐标点序列。通过两阶段监督微调（SFT）

与基于IoU奖励的强化学习（RL）训练策略，显著提升点序列对真实轮廓的拟合精度。实验表明，标准MLLM架构本身即具备强大的底层感知能力，无需引入专用模块即可在多个分割基准上达到甚至超越复杂定制化方法的性能，验证了简单点预测范式实现高精度空间理解的可行性。

PDF

2. VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Yuanxin Liu, Kun Ouyang, Haoning Wu

本文提出VideoReasonBench，首个聚焦视觉中心、高推理深度的视频理解评测基准，旨在检验多模态大语言模型（MLLMs）在复杂视频推理任务中的能力。该基准通过设计包含隐状态演化与部分可观测操作的精细视频序列，构建三级递进式

推理任务：视觉信息回忆、隐状态推断与视频外预测。实验评估18个主流MLLMs，发现现有模型普遍表现欠佳（如GPT-4o仅6.9%准确率），而增强推理能力的Gemini-2.5-Pro达56.0%，凸显长链思维对视频推理的关键作用。进一步验证表明，“测试时扩展思考预算”在VideoReasonBench上显著提升性能，但在传统视频基准中效果甚微，证实其对深度视觉推理的独特评测价值。

PDF

3. OpenCUA: Open Foundations for Computer-Use Agents

Xinyuan Wang, Bowen Wang, Dunjie Lu

本文针对当前计算机使用代理（CUAs）系统普遍闭源、阻碍可复现性与安全评估的问题，提出首个开源CUA基础框架OpenCUA。该框架包含三部分：（1）支持多平台的人机交互演示自动采集标注系统；（2）覆盖3大操作系统、200+应用与网

站的大规模任务数据集AgentNet；（3）融合反思式长链思维推理的可扩展状态–动作对构建流水线。实验表明，OpenCUA-72B在OSWorld-Verified基准上达成45.0%平均成功率，刷新开源模型SOTA；消融与泛化分析进一步验证其跨域鲁棒性及对测试时计算资源的正向响应。全部工具、数据、代码与模型均已开源。

PDF

📝 AI 官方博客

1. New research shows how AMIE, our medical AI, could help manage health conditions.

📝 Google AI Blog

《自然·社会》刊发的新研究证实，谷歌开发的医疗对话式AI系统AMIE在复杂慢性病管理任务中，表现与初级保健医生相当。该系统基于多模态大模型架构，融合临床指南、真实世界电子健康记录及医患对话数据进行端到端训练，具备疾病推理、风险分层与个性化干…

预建议生成能力。研究采用双盲随机对照设计，在涵盖糖尿病、高血压等六类常见慢病的标准化病例评估中，AMIE在诊断准确性、治疗合理性及沟通质量三项核心指标上均不劣于人类医生（p<0.01）。结果表明，AMIE有望作为可扩展的辅助工具，提升基层医疗资源可及性与管理一致性。

2. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元，扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营，原址为废弃工业用地，此次扩建将显著提升算力基础设施能力，并创造数百个高技能就业岗位。除资本投入外，谷歌同步启动多项社区支持…

计划，包括与当地高校合作开展AI与云计算人才培养项目、资助STEM教育倡议，以及推动可再生能源采购以实现园区100%清洁能源运行。项目预计带动区域经济增量超30亿美元，并强化阿拉巴马州在全美数字基建版图中的战略地位。

3. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划，旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍，通过职业培训、教育合作及技能提升计划支持关键行业人才发展；同时，投资于清洁能源普及、低收入家庭能效改造及分布式能…

源项目，以降低居民用能成本。实证数据显示，该计划已直接创造逾1200个本地就业岗位，并使超过8500户家庭受益于能源援助与节能升级。相关举措体现了企业社会责任与可持续发展目标的深度融合。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象，本工作系统梳理了现有奖励黑客案例的成因分类，提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…

，并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明，该方法能有效识别约78%的隐式奖励篡改行为，较基线方法提升23%。后续将拓展至高维连续控制任务，并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题，该方法设计多阶段数据筛选管道，结合语义毒性检测、知识边界识别与对…

抗性示例剔除技术，在不依赖微调或后处理的前提下，从源头削弱模型习得危险能力的可能。在多个安全基准（如BBQ、ToxiGen、SafeBench）上的实验表明，经过滤数据训练的模型在保持通用能力（MMLU、ARC）的同时，将越狱成功率降低达62%，有害响应率下降57%，且对数据删除攻击展现出更强鲁棒性。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5两大先进AI模型的访问权限——作出正式声明。该指令基于《出口管理条例》（EAR）及国家安全考量，限制相关技术向特定国家与实体扩散。声明阐明…

公司合规立场，确认已立即执行访问限制，并强调在保障全球AI安全与负责任创新前提下，持续支持受许可的学术、非营利及盟国合作伙伴开展符合监管要求的研究与应用。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要

📝 Anthropic

暂无摘要

💬 Hacker News AI 热门

1. Project Valhalla, Explained: How a Decade of Work Arrives in JDK 28

🔥 425 分 · 💬 240 评论

Project Valhalla——历经十年研发的Java重大性能优化项目，终于以“值类（Value Classes）”形式作为预览特性进入JDK 28（JEP 401）。它旨在让开发者编写语义清晰的类（如Point、Color），同时让J…

VM像处理int等原始类型一样高效地存储和操作它们，消除对象头开销、指针间接访问和频繁GC带来的性能损耗。虽然此次仅是Valhalla的第一阶段、默认禁用且不包含泛型特化等后续关键功能，但它标志着Java向内存布局优化与硬件友好编程迈出历史性一步。

AI 每日资讯 — 2026-06-20#

🔥 HuggingFace 每日论文#

1. S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence#

2. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages#

3. FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining#

4. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising#

5. Current World Models Lack a Persistent State Core#

6. HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining#

7. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation#

8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. Deontic Policies for Runtime Governance of Agentic AI Systems#

2. Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023#

3. Diffusion Language Models: An Experimental Analysis#

📄 arXiv: cs.CL#

1. Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation#

2. Ensembles of Large Language Models for Identifying EQ-5D Studies in PubMed Based on Their Abstracts#

3. Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer#

📄 arXiv: cs.LG#

1. Computational Identifiability#

2. When to Trust, How to Distill: Multi-Foundation Model Guidance for Lightweight, Robust Scientific Time Series Forecasting#

3. Closing the Social-Semantic Gap: SPSD for Edge-Based Prompt Compression in Cloud LLM Inference#

📄 arXiv: cs.CV#

1. Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers#

2. LEAP: Layer-skipping Efficiency via Adaptive Progression for Vision Transformer Distillation#

3. LooseControlVideo: Directorial Video Control using Spatial Blocking#

🔬 OpenReview 近期论文#

1. Towards Pixel-level VLM Perception via Simple Points Prediction#

2. VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?#

3. OpenCUA: Open Foundations for Computer-Use Agents#

📝 AI 官方博客#

1. New research shows how AMIE, our medical AI, could help manage health conditions.#

2. We’re strengthening our presence in Alabama through new investments and community support.#

3. Our new community investments in Virginia support local jobs and expand energy affordability.#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.#

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.#

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.#

💬 Hacker News AI 热门#

1. Project Valhalla, Explained: How a Decade of Work Arrives in JDK 28#

📰 TechCrunch AI 新闻#

1. Is the US government’s Anthropic ban accidentally helping the brand?#

2. The US banned Anthropic’s Fable 5 release, but the numbers don’t seem to care#

3. Billionaire Ambani wants AI in every call, app, and home#

4. The CEO of Allbirds’ new AI biz has a plan, but no employees#

5. The US says ASML’s top chip tool may be in China. ASML says it isn’t#

AI 每日资讯 — 2026-06-20

🔥 HuggingFace 每日论文

1. S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

2. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

3. FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

4. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

5. Current World Models Lack a Persistent State Core

6. HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

7. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. Deontic Policies for Runtime Governance of Agentic AI Systems

2. Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023

3. Diffusion Language Models: An Experimental Analysis

📄 arXiv: cs.CL

1. Exposing the Unsaid: Visualizing Hidden LLM Bias through Stochastic Path Aggregation

2. Ensembles of Large Language Models for Identifying EQ-5D Studies in PubMed Based on Their Abstracts

3. Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

📄 arXiv: cs.LG

1. Computational Identifiability

2. When to Trust, How to Distill: Multi-Foundation Model Guidance for Lightweight, Robust Scientific Time Series Forecasting

3. Closing the Social-Semantic Gap: SPSD for Edge-Based Prompt Compression in Cloud LLM Inference

📄 arXiv: cs.CV

1. Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers

2. LEAP: Layer-skipping Efficiency via Adaptive Progression for Vision Transformer Distillation

3. LooseControlVideo: Directorial Video Control using Spatial Blocking

🔬 OpenReview 近期论文

1. Towards Pixel-level VLM Perception via Simple Points Prediction

2. VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

3. OpenCUA: Open Foundations for Computer-Use Agents

📝 AI 官方博客

1. New research shows how AMIE, our medical AI, could help manage health conditions.

2. We’re strengthening our presence in Alabama through new investments and community support.

3. Our new community investments in Virginia support local jobs and expand energy affordability.

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

💬 Hacker News AI 热门

1. Project Valhalla, Explained: How a Decade of Work Arrives in JDK 28

📰 TechCrunch AI 新闻

1. Is the US government’s Anthropic ban accidentally helping the brand?

2. The US banned Anthropic’s Fable 5 release, but the numbers don’t seem to care

3. Billionaire Ambani wants AI in every call, app, and home

4. The CEO of Allbirds’ new AI biz has a plan, but no employees

5. The US says ASML’s top chip tool may be in China. ASML says it isn’t