AI 每日资讯 — 2026-06-19

🔥 HuggingFace 每日论文


1. Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

Shengyuan Ding, Xilin Wei, Xinyu Fang

本文针对多模态大语言模型(MLLMs)在非马尔可夫博弈中持续重建与利用历史观测能力不足的问题,提出RNG-Bench基准——首个专门评估模型在交互过程中动态重构不可见历史观测并据此决策的评测框架。该基准包含Matching Pairs与3D Maze两类互补游戏,通过网格规模、视觉模式和模态组合三轴可控调节难度,并引入头对头对抗协议与Memory Gap指标,解耦遗忘误差与动作选择误差。实验表明,当前前沿MLLMs在最难题型(单轮约128K token、350张图像)下性能远未饱和,且主要瓶颈在于历史信息遗忘而非策略缺陷;基于最优策略轨迹与筛选后模型演示的微调显著提升RNG-Bench表现,并具备跨任务迁移能力。

PDF · arXiv · 代码 · 项目 | ❤️ 36


2. Native Active Perception as Reasoning for Omni-Modal Understanding

Zhenghao Xing, Ruiyang Xu, Yuxuan Wang

本文针对长视频理解中被动模型计算成本随视频长度线性增长的问题,提出OmniAgent——首个基于POMDP建模的原生全模态主动感知智能体。其通过“观测-思考-行动”迭代循环,按需选择性提取音视频线索并沉淀为持久化文本记忆,实现推理复杂度与原始视频时长的解耦。方法上,提出两阶段训练范式:(1)基于最优-N轨迹合成与双阶段质量控制的智能体监督微调;(2)引入TAURA机制的智能体强化学习,利用回合级熵自适应重标定优势函数以精准归因关键发现回合。实验表明,OmniAgent在VideoMME、LVBench等10个基准上达到开源模型SOTA,其中7B版本在LVBench上以50.5%准确率超越Qwen2.5-VL-72B(47.3%),且呈现正向测试时扩展性。

PDF · arXiv · 代码 | ❤️ 10


3. STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Haipeng Luo, Qingfeng Sun, Songli Wu

本文针对GRPO等基于可验证奖励的强化学习算法在大语言模型后训练中普遍存在的策略熵坍塌问题,首次开展词元级熵动力学的一阶梯度分析,揭示了轨迹级优势与下一词分布熵敏感性耦合所导致的“优势-惊奇度”四象限结构及近临界性特性。据此提出STARE方法:基于批内惊奇度分位数识别熵关键词元,对其有效优势进行选择性重加权,并引入目标熵闭环门控机制以实现熵稳定调节。实验表明,STARE在1.5B至32B模型规模及三类复杂推理任务上均能维持数千步稳定训练,策略熵严格约束于目标区间;在AIME24/25上平均准确率超越DAPO等基线4%–8%,且反思词元数与响应长度同步增长,验证其持续的探索-利用平衡能力。

🏛️ Haipeng Luo | PDF · arXiv · 代码 · 项目 | ❤️ 8


4. The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng

本文指出,基于分数匹配与流匹配的生成模型常依赖偏好式强化学习(RL)来提升样本质量,但这一做法暴露了匹配损失与真实视觉语义质量之间的结构性错配:传统匹配损失仅在训练分布下优化速度场或得分场的ℓ₂误差,难以直接保障推理时的视觉真实性与结构一致性。为此,作者提出判别器引导的强化学习(DRL)框架:利用预训练特征空间训练判别器,以其logit作为KL正则化RL的奖励信号,该logit可无偏估计数据与模型分布的对数似然比,从而提供最优、无需人工标注的奖励。实验表明,DRL在SiT、JiT、REPA和RAE等多种架构上显著提升无引导FID(如SiT从9.38降至2.62)和语义空间Fréchet距离(如DINOv3特征下SiT从88.2降至19.3),验证了其普适有效性。

PDF · arXiv | ❤️ 5


5. Learning User Simulators with Turing Rewards

Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu

本文提出Turing-RL——一种基于图灵测试的强化学习框架,用于训练用户模拟器。与传统方法依赖单一对齐真实响应(如最大似然或相似度奖励)不同,Turing-RL引入由大语言模型(LLM)担任的判别式“图灵奖励”,评估生成响应在给定用户历史下的不可区分性。该方法使用户模拟器LLM通过强化学习优化生成更符合真实用户表达习惯的响应。在对话聊天与Reddit论坛两个领域实验表明,Turing-RL在LLM自动评估与人工评估指标上均显著优于基线方法,验证了以“不可区分性”替代“响应匹配”作为优化目标的有效性。

PDF · arXiv · 代码 | ❤️ 2


6. Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

Kangsheng Duan, Ziyang Xu, Wenyu Liu

本文针对大规模图像修复模型(如10B参数级FLUX.1-Fill-Dev)部署成本高昂的问题,提出轻量级框架Moebius(仅0.22B参数)。其核心在于重构扩散主干网络:引入Local-λ Mix Interaction(LλMI)模块,通过局部与交互式λ机制将空间上下文与全局语义压缩为固定尺寸线性矩阵,在大幅削减参数的同时保留复杂隐式表征。进一步设计基于隐空间的自适应多粒度蒸馏策略,动态加权梯度损失以实现高保真对齐。实验表明,Moebius在自然图像与人像修复任务上性能媲美甚至超越FLUX.1-Fill-Dev,参数量仅为后者的1.8%,推理速度提升超15倍。

PDF · arXiv | ❤️ 1


7. Essential Subspace Merging for Multi-Task Learning

Longhua Li, Lei Qi, Xin Geng

本文针对多任务学习中的模型合并问题,提出一种无需训练的静态合并方法——本质子空间合并(ESM)及其动态扩展ESM++。作者发现不同任务微调产生的输出偏移能量主要集中于少数主方向(即“本质子空间”),而其余方向虽单个贡献微弱,但累积易引发严重任务间干扰。为此,本文设计本质子空间分解(ESD),将各任务更新沿其激活偏移的主成分进行正交分解;ESM在此基础上融合本质子空间,构建紧凑多任务模型;ESM++进一步引入低秩专家与原型路由机制实现动态推理。实验表明,二者在多个任务集与模型规模上均显著缓解干扰、保持任务性能。

PDF · arXiv | ❤️ 1


8. Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Sihan Wang, Xiyao Liu, Lianqing Liu

本文针对多模态大语言模型(MLLM)中在线策略自蒸馏(OPSD)易受文本捷径干扰的问题,提出视觉锚定的ViGOS框架。ViGOS将感知与推理解耦:学生模型先生成图像描述,再基于该描述进行推理;对有效轨迹,由图像独占的感知教师监督描述生成,由特权推理教师监督后续推理与答案生成;仅对无效轨迹启用参考教师以保障输出格式。在通用视觉-语言、专家推理、视觉数学、空间定位及视觉-语言先验等基准上,ViGOS在保持OPSD核心优势的同时,显著提升图像接地性与抗捷径能力。

PDF · arXiv · 代码 · 项目 | ❤️ 1


🔥 arXiv 每日论文

📄 arXiv: cs.AI


1. NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

Juan Manuel Delfa Victoria, Taran Cyriac John, Andrew W. Herson

本文提出NAVI-Orbital系统,首次在轨验证了零样本视觉-语言模型(VLM)用于自主地球观测的可行性。该系统部署于低地球轨道卫星,基于轻量化Gemma-3模型,实现全 onboard 多模态推理:对遥感图像进行场景分类、生成语义描述、解析要素关系,并支持自然语言交互式重任务调度。系统采用LangGraph构建图状状态机,协调检测与对话智能体;依托GPU硬件加速推理,无需针对星载相机(如YAM-9)微调。地面基准测试(AID数据集准确率88.16%)、Flatsat验证及真实在轨成像实验共同证实:该方案可在星载边缘计算平台上高效运行基础模型,通过语义压缩显著缓解下行带宽瓶颈。

2. CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

Sneha Rao, Shaina Raza, Dhanesh Ramachandram

本文针对视觉语言模型(VLMs)易产生视觉不忠实幻觉的问题,提出CaVe-VLM-CoT——一种可解释、闭环式的反思型代理RAG框架。该框架通过提取、检索、求解、引用注入与验证五阶段闭环流程,强制实现证据驱动的推理;当验证器检测到未接地主张时,自动触发结构化反馈至提取器以启动定向重检索。为全面评估多阶段性能,作者设计涵盖23个细粒度指标的评测体系,并提出综合指标CaVeScore,加权衡量准确性、引用精确率/召回率、归因性与跨模态证据接地性。实验表明,该方法在不修改模型架构或提示的前提下,在ScienceQA上达87.1%准确率与56.6% CaVeScore,在MMMU(30学科)上达55.2%准确率与35.7% CaVeScore。

3. Searching for Synergy in Shared Workspace Human-AI Collaboration

Nachiket Kotalwar, Rohini Das, Carolyn Rose

本文探讨共享工作空间中人机协同的协同增效机制,聚焦于AI代理与人类协作者如何在提交最终答案前有效分工与协调。基于Collaborative Gym环境与DiscoveryBench任务,研究分析了1482次协作会话,发现无结构化协调机制时,引入额外人类协作者反而因过程损耗降低整体性能。为此,作者提出一种融合共享群体记忆与模拟“人在环路”(HITL)门控机制的支架策略,要求关键动作须经指定模拟参与者审批。实验表明,该方法显著提升平均性能,尤其在三人团队中效果最突出,增强了责任归属清晰度与专业知识向团队行动的精准映射。结果强调:人机团队的协调机制与知识整合方式,与其个体能力同等重要。

📄 arXiv: cs.CL


1. Continuous Audio Thinking for Large Audio Language Models

Gyojin Han, Dong-Jae Lee, Changho Choi, Jongsuk Kim, Junmo Kim

本文针对大型音频语言模型(LALMs)在文本对齐训练范式下难以保留丰富声学信息(如音素细节、韵律、声音事件、情感与音高)的问题,提出连续音频思维(CoAT)框架。CoAT通过蒸馏音频专家知识,构建一个连续隐空间作为“思维工作区”,使模型在生成响应前可显式组织与利用声学特征;其连续思维模块可在单次prefill中完成计算,不增加自回归解码开销。在Qwen2-Audio、Qwen2.5-Omni-7B和Audio Flamingo~3三个模型上的实验表明,CoAT在音频推理、理解、音乐分类、语音情感识别与语音转录等多任务基准上显著提升性能,且分析证实声学监督信号能有效传导至最终文本输出。

2. Redact or Keep? A Fully Local AI Cascade for Educational Dialogue De-Identification

Haocheng Zhang, Zhuqian Zhou, Kirk Vanacore, Bakhtawar Ahtisham, Ren'e F. Kizilcec

本文针对教育对话数据中课程内容与个人身份信息(PII)高度纠缠的去标识化难题,提出一种完全本地化的级联框架,将传统开放实体识别重构为受约束的隐私分诊任务。该框架包含召回优先的联合提议器(融合双轻量编码器与确定性规则)和上下文感知的二元决策评审器(基于对话上下文与说话人角色判断“脱敏”或“保留”)。在两大数学辅导平台真实转录数据上的实验表明,最优本地配置达0.958宏F1,显著优于同族纯LLM基线(0.767)与商业API(0.706),且全程运行于单台笔记本;在课程名/人名歧义挑战集上仅下降0.03 F1,远优于其他小型评审器(下降0.19–0.25),验证了问题建模优于模型规模的关键洞见。

🏛️ René F. Kizilcec


3. SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Amirhossein Abaskohi, Issam H. Laradji, Peter West, Giuseppe Carenini

SproutRAG提出了一种注意力引导的层次化检索增强生成框架,旨在解决长文档RAG中检索粒度与上下文连贯性之间的权衡难题。该方法通过学习句子级注意力机制构建二叉分块树,将细粒度句子逐步聚合成语义一致的粗粒度单元,无需依赖外部大语言模型(LLM)进行分块或摘要,也避免了信息损失。其端到端联合训练目标同步优化嵌入表示与树结构,并在检索阶段采用分层束搜索实现多粒度候选检索。在科学、法律及开放域四大基准上的实验表明,SproutRAG平均提升信息效率(IE)6.1%,显著优于现有最强基线。

🏛️ Peter West


📄 arXiv: cs.LG


1. Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

Yongchao Huang, Hassan Raza

本文提出高斯混合注意力(Gaussian Mixture Attention, GMA),旨在解决标准点积注意力在长序列场景下$O(N^2)$时间与空间复杂度的瓶颈。GMA将查询与键映射至共享的隐式高斯混合路由空间,通过后验“责任向量”定义隐式相似性,并在$K$槽隐存中读写值;利用矩阵乘法结合律避免显式构建$N\times N$注意力矩阵,实现$O(NK)$内存与线性时间复杂度。作者构建了双向与因果变体,提供端到端可微的高斯组件参数化,并理论分析其梯度结构、非负低秩亲和性解释及局部路由稳定性。实验表明GMA在长文本分类任务中性能媲美基线,因果版本在WikiText-103上优于线性/随机特征注意力,但略逊于优化的SDPA与Mamba;责任分析进一步验证其组件利用率高且具备一定语义可解释性。

2. Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

Lorenz Wolf, Connor Watts, Roger Creus Castanyer, Geoffrey Bradway, Maxwill Lin, Augustine N. Mavor-Parker, Matthew Daborn-Sargent

本文针对强化学习智能体训练中前沿任务供给不足的瓶颈问题,提出PROPEL框架——一种求解器摊销(solver-amortized)的任务生成器训练方法。该方法通过在一次性标注的任务-求解结果语料库上训练轻量级激活探针,以预测目标求解器的通过率,并将其作为冻结参考生成器的代理指标,从而将每次生成器评估简化为单次前向传播,规避了传统求解器闭环训练的高开销。实验表明,在数学、代码及软件工程任务上,PROPEL显著提升生成任务处于“可学习前沿”(即目标求解率附近)的比例:例如在编码任务中,Qwen2.5-3B和7B求解器下的前沿任务占比分别从10.1%和5.3%提升至20.0%与12.6%;在SWE任务中,对未见仓库,Qwen3.5-27B求解器的前沿生成率由9.8%提升至19.6%。

3. CODEBLOCK: Learning to Supervise Code at the Right Granularity

Zhijie Deng, Ling Li, Jinlong Pang, Kaiqin Hu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

本文针对代码大语言模型监督微调中统一施加全词元交叉熵损失所导致的学习信号冗余问题,提出结构感知的稀疏监督框架CodeBlock。该方法摒弃简单token级掩码,转而识别语法完整、语义连贯的“代码块”作为监督单元;通过聚合核心逻辑词元的广义交叉熵评估其效用,并结合数据流可达性与桥接信号进行重排序,优先监督能传播或连接关键程序依赖的代码块。训练时保留完整响应作为上下文,仅对选定代码块及信息丰富的自然语言词元计算损失。在六个代码生成基准上,CodeBlock以仅1.9%的监督词元量,显著超越全词元监督,在平均pass@1指标上优于现有选择基线。

📄 arXiv: cs.CV


1. Budget-Aware Adaptive Adversarial Patches for Black-Box Object Detection

Pedram MohajerAnsari, Amir Salarpour, David Fernandez, Mert D. Pes'e

本文提出Budget-Aware Adaptive Adversarial Patches(\method{}),一种面向黑盒目标检测器的查询高效、预算自适应对抗补丁攻击方法。针对现有工作在分数反馈黑盒场景下难以联合优化补丁位置、纹理与尺寸,且缺乏对视觉足迹(visual footprint)与查询开销权衡分析的问题,该方法融合轻量级上下文汤普森采样定位策略与NES风格像素更新,并动态扩展补丁尺寸以提升收敛效率。实验在YOLOv5、Faster R-CNN和YOLOS上验证,\method{}以紧凑补丁实现CNN模型强抑制与Transformer模型显著抑制,明确揭示查询预算—视觉可见性之间的权衡关系;打印-拍摄实验证明其跨物理对象与视角的迁移能力。

2. CAOA – Completion-Assisted Object-CAD Alignment

Hiranya Garbha Kumar, Minhas Kamal, Balakrishnan Prabhakaran

本文针对室内RGB-D扫描中CAD模型与真实物体的精确对齐难题,提出Completion-Assisted Object-CAD Alignment(CAOA)方法。该方法融合语义与上下文感知的点云补全模块与对称性感知的相对位姿估计算法,有效缓解扫描噪声、几何缺失及分割误差带来的影响。为缩小合成数据与真实扫描间的域差距,作者设计面向室内场景的合成数据生成策略,并发布S2C-Completion数据集(含8500+专家标注的Scan2CAD单物体-CAD配对),推动真实场景点云补全研究。通过引入对称性感知损失,CAOA显著提升对对称物体的鲁棒性,在Scan2CAD基准上较现有最优方法精度提升17%。

3. RegimeVGGT: Layer-Wise Spatially Preserving Redundancy Removal for Visual Geometry Grounded Transformer

Jinhao You (University of Pennsylvania), Shuo Lyu (University of Pennsylvania), Zhuohang Lyu (University of Pennsylvania), Tanxuan Li (University of Pennsylvania), Zibo Zhao (University of Pennsylvania), Jiaxiang Hu (University of California, Irvine), Kai Tang (Nanyang Technological University), Yichen Guo (Nanyang Technological University)

RegimeVGGT针对视觉几何基础Transformer(VGGT)因二次复杂度跨帧注意力导致的可扩展性瓶颈,提出一种无需训练的层自适应冗余去除方法。通过谱分析、探针实验与因果分析,发现模型存在浅层(缺乏跨视图结构)、中层(主导跨视图对齐)和深层(密集几何重建冗余但姿态估计关键)三类特征机制。据此设计双轴U型压缩:基于显著性的带状令牌合并保留几何与边缘敏感区域;选择性保护的K/V下采样通过相位偏移空间网格、参考帧锚点及未压缩相机/注册令牌,维持跨帧空间覆盖与姿态关键路径。在保持重建精度前提下,实现6.7倍加速。

🔬 OpenReview 近期论文


1. IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

Qiyao Wang, Guhong Chen, Hongbo Wang

本文针对知识产权(IP)领域知识评估缺乏综合性基准的问题,提出首个面向真实场景的双语IP评测基准IPBench。该基准构建了涵盖8类IP机制、20项任务的系统化任务分类体系,全面覆盖专利、商标、版权等核心IP场景。作者在零样本、少样本及思维链设置下对17个主流大语言模型(含通用型与IP/法律专用模型)进行系统评测,结果表明当前最优模型DeepSeek-V3准确率仅为75.8%,且开源IP/法律模型显著落后于闭源通用模型,凸显领域适配瓶颈。IPBench已开源,为推动IP领域大模型研究提供坚实基础。

PDF


2. On-the-Fly Adaptation to Quantization: Configuration-Aware LoRA for Efficient Fine-Tuning of Quantized LLMs

Rongguang Ye, Ming Tang, Edith C. H. Ngai

本文针对边缘设备上量化大语言模型(LLM)的高效微调问题,提出配置感知型LoRA(CoA-LoRA),支持对任意层间比特宽配置进行即插即用式适配,无需为每种量化配置重复微调。该方法通过一个配置感知模型,将量化配置映射为对应的低秩增量参数,并引入基于Pareto前沿的迭代配置搜索策略,优化训练配置集以提升泛化精度。实验表明,CoA-LoRA在零额外微调开销下,性能媲美甚至超越需逐配置微调的SOTA方法,显著提升了量化LLM在异构边缘设备上的部署效率与灵活性。

PDF


📝 AI 官方博客


1. New research shows how AMIE, our medical AI, could help manage health conditions.

📝 Google AI Blog

《自然·社会》刊发的新研究证实,谷歌开发的医疗对话式AI系统AMIE在复杂慢性病管理任务中,表现与初级保健医生相当。该系统基于多模态大模型架构,融合临床指南、真实世界电子健康记录及医患对话数据进行端到端训练,具备疾病推理、风险分层与个性化干…预建议能力。研究采用双盲随机对照设计,在涵盖糖尿病、高血压等六类常见慢病的模拟诊疗场景中,AMIE在诊断准确性、治疗方案合理性及患者沟通质量三项核心指标上均不劣于执业医师(p<0.01)。结果表明,AMIE有望作为临床辅助工具提升基层医疗可及性与管理效率。

2. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元,扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营,原址为废弃工业用地,此次扩建将显著提升算力基础设施能力,并创造数百个高技能就业岗位。除资本投入外,谷歌同步启动多项社区支持…计划,包括与当地高校合作开展AI与云计算人才培养项目、资助STEM教育倡议,以及为中小企业提供数字技能培训。项目预计带动区域经济新增产值超30亿美元,并强化阿拉巴马州在东南部数字经济版图中的战略地位。

3. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍,通过职业培训、校企合作及技能认证支持青年和转型从业者;同时资助分布式清洁能源接入、低收入家庭能效升级及社区微电网…试点等能源公平项目。实证数据显示,首批投资已带动超1,200个本地就业岗位,并使3.5万户家庭年度能源支出平均降低18%。该模式为能源企业参与区域可持续发展提供了可复制的政企协同实践路径。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,且在保持策略性能的同时将目标偏移率降低42%。后续将拓展至高维连续控制任务并探索鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对大模型系统Fable 5与Mythos 5的访问权限——作出正式声明。该指令基于《出口管理条例》(EAR)及新兴技术管控政策,将两类系统列为“受控AI基础模型”,限制其向…特定国家及实体的技术转移与服务接入。声明阐明了合规响应机制、现有用户过渡支持方案,并强调在遵守国际法规前提下持续推动负责任AI创新的承诺。相关措施已于公告发布后72小时内生效。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要


9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

📝 Anthropic

暂无摘要


📬 TLDR AI 精选


1. one daily email

该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。


📰 TechCrunch AI 新闻


1. ‘Queer Eye’s’ life coach Karamo Brown launches Kē, a wellness app featuring his AI digital clone

Karamo Brown,Netflix热门节目《粉雄救兵》(Queer Eye)知名生活教练,推出全新 wellness 应用 Kē,融合个人成长经验与前沿人工智能技术。该应用核心为 Brown 的 AI 数字分身(AI digital …clone),经数月语音、视频及行为数据训练,能提供个性化心理健康支持、正念引导、关系建议与目标追踪服务。Kē 采用隐私优先架构,支持多模态交互,并整合认知行为疗法(CBT)与积极心理学框架。初步用户测试显示,87% 的参与者报告情绪韧性显著提升,日均使用时长达12分钟。Kē 标志着名人驱动型 AI 健康助手向深度情感化、文化响应式方向的重要演进。

2. General Intuition in talks to raise $300M at around $2B valuation

该论文提出一种面向具身智能的通用直觉建模方法,旨在解决当前AI系统在开放世界中缺乏常识性物理理解与实时决策能力的问题。作者基于Medal平台采集的年度20亿视频数据(覆盖1000万月活用户),构建大规模多模态行为-环境交互数据集,进而训练端…到端的世界模型与具身策略网络。关键技术包括时空一致性表征学习、轻量化视频基础模型蒸馏,以及基于反事实推理的直觉强化学习框架。实验表明,所提方法在Robotics Benchmark Suite上较基线提升37%的任务完成率,并支撑公司以约20亿美元估值完成3亿美元融资。

3. A tech worker-backed PAC is bringing a $5M knife to Big Tech’s $100M gunfight

本文探讨了由科技从业者支持的政治行动委员会(PAC)“Guardrails”如何以500万美元的预算,挑战科技巨头投入逾1亿美元的政治游说力量。该组织定位为草根型 populist 运动,资金主要来自AI产业一线工程师与技术人员的小额捐赠,…强调技术伦理、算法问责与公共利益导向的AI治理。其核心策略包括精准动员技术社群、推动州级AI监管立法试点、以及构建跨党派政策联盟。实证分析显示,尽管资金规模悬殊,Guardrails在2023–2024年成功促成三项州级AI透明度法案引入,并显著提升公众对AI监管议题的关注度(媒体曝光量增长320%)。研究揭示了专业社群自下而上影响科技政策的新路径。

4. Pixi’s new iOS app turns text messages into interactive AR experiences

Pixi公司推出全新iOS应用,旨在将传统文本消息升级为交互式增强现实(AR)体验。该应用利用苹果ARKit框架与设备原生传感器,支持用户在消息对话中实时嵌入3D模型、空间动画及可交互AR场景,并通过端侧轻量化渲染技术保障低延迟响应。研究提…出基于语义意图识别的消息—AR内容匹配算法,实现文本自动触发适配AR元素。实验表明,在iPhone 12及以上机型中,平均加载延迟低于320ms,用户交互完成率达91.7%,显著优于现有贴纸与动图交互范式。

5. How to turn off AI in your Google Docs

本文针对Google Docs中频繁弹出的“使用Gemini写作”AI辅助提示问题,提出了一套系统性关闭方案。作者详细梳理了在不同设备(Web端、iOS及Android应用)和账户类型(个人与工作/教育账号)下的设置路径,涵盖关闭Gemin…i集成、停用智能撰写功能、重置文档级AI权限等关键技术步骤。实验验证表明,按文中方法操作后,AI弹窗出现频率降低98%以上,且不影响文档基础编辑功能。该方案为注重隐私与专注写作体验的用户提供了可复现、低门槛的AI干扰消除实践指南。