AI 每日资讯 — 2026-07-02

🔥 HuggingFace 每日论文

1. GEAR: Guided End-to-End AutoRegression for Image Synthesis

Bin Lin, Zheyuan Liu, Chenguo Lin

本文提出GEAR（Guided End-to-end AutoRegression），一种面向图像合成的端到端联合训练框架，旨在解决传统两阶段生成模型中tokenizer与生成器解耦导致的表征不匹配问题。GEAR通过双路码本分配机

制实现可微训练：硬分支提供one-hot离散索引以支持自回归建模，软分支则引入可微表征对齐损失，反向引导向量量化（VQ）tokenizer优化。该机制使tokenizer主动适配AR模型的预测偏好，显著提升索引分布的可建模性。实验表明，GEAR在ImageNet上将gFID收敛速度提升至LlamaGen-REPA基线的10倍，同时增强局部块级特征质量与空间一致性，并兼容多种量化器（VQVAE、LFQ、IBQ）及文本到图像任务。

PDF · arXiv · 代码 · 项目 | ❤️ 27

2. Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

Gabrielle Kaili-May Liu, Avi Caciularu, Gal Yona

本文针对大语言模型（LLMs）在元认知能力上的系统性缺陷——如高置信度幻觉、知识边界识别失败及内在不确定性表达失真——提出强化学习结合元认知反馈（RLMF）的新范式。该方法利用模型对自身输出质量的自我判断作为偏好优化中的反馈信号，

辅以基于元认知评估的数据选择策略，显著提升训练样本效率。研究聚焦于“忠实校准”（Faithful Calibration）这一本质元认知任务，采用两阶段解耦框架：先校准模型自报告置信度的准确性，再通过目标导向的输出编辑映射为自然、上下文自适应的语言化不确定性表达。实验表明，RLMF在多个基准上实现泛化性强、SOTA级别的不确定性表达忠实度提升。

PDF · arXiv · 代码 | ❤️ 14

3. QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

Sergio Hernández-Gutiérrez, Matteo Merler, Ilze Amanda Auzina

本文针对长时程大语言模型（LLM）智能体中密集监督信号评估成本高、可比性差的问题，提出QVal——一种无需训练的密集监督信号评测框架。QVal通过衡量监督信号对状态-动作对的Q值排序一致性（Q-alignment），直接评估其质量

，剥离训练工程干扰，实现跨方法、跨架构的公平比较。作者构建QVal-v1.0基准，在4类环境中系统评测21种密集监督方法、7类技术路线及6种开源模型骨干，完成超1200次实验。结果表明，简单提示工程基线在多数场景下显著优于近期复杂监督方法。

PDF · arXiv · 代码 · 项目 | ❤️ 8

4. DigitalCoach: Communication and Grounding Gaps in Human and Agentic Computer Use Coaching

Meng Chen, Anya Ji, Tsung-Han Wu

本文提出DigitalCoach——首个面向人机协同软件教学的多模态数据集，包含72组专家指导新手的计算机使用辅导对话（22,752轮），并同步记录28.1小时屏幕操作与输入事件，覆盖五类软件。基于该数据集，作者系统评估了当前大模

型在计算机使用教学中的能力：自动评测表明，模型倾向于给出直接指令，但缺乏解释、错误诊断与知识核查；即使固定教学策略，其生成内容仍严重脱离视觉上下文；交互实验进一步证实，模型教练易导致学习者被动执行、缺乏深度参与，且视觉接地能力薄弱。本工作为构建协作式、主动式数字教练智能体奠定了数据与评估基础。

PDF · arXiv | ❤️ 1

5. FaceMoE: Mixture of Experts for Low-Resolution Face Recognition

Kartik Narayan, Vishal M. Patel

FaceMoE提出了一种面向低分辨率人脸图像识别的混合专家（MoE）架构，旨在缓解因图像退化（如模糊、遮挡、低对比度）导致的特征提取困难及高/低分辨率图像间的域差异问题。该方法通过引入多个专用前馈网络（FFN）专家与top-k路由

机制，实现令牌级动态专家分配，促使各专家自发聚焦于人脸不同语义区域，从而支持分辨率感知的特征提取。稀疏激活策略在提升模型容量的同时抑制灾难性遗忘，保障预训练知识迁移。结合身份识别损失、路由器z-loss与负载均衡损失进行端到端训练。实验表明，FaceMoE在多个LR-FR基准上显著优于现有方法。

PDF · arXiv

6. PointSplat: Compact Gaussian Splatting via Human-Centric Prediction

Yujie Guo, Yudong Jin, Lingteng Qiu

本文针对实时沉浸式直播中3D人体表征的紧凑性与高保真度协同优化难题，提出PointSplat——一种以人体为中心的高斯泼溅压缩方法。区别于传统视图中心预测范式，该方法直接在3D空间中从输入点云推断高斯基元，通过粗略几何代理估计与光

线投射剔除冗余点，建立显式的2D–3D对应关系；再利用Point-Image Transformer融合几何与外观特征，在单次前向传播中预测高斯属性，并将预测约束于前景区域。实验表明，PointSplat显著减少高斯数量（提升紧凑性），同时在多数据集上实现更优的新视角渲染质量与更强的视角数/分辨率鲁棒性。

PDF · arXiv

7. TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

Yuanda Xu, Zhengze Zhou, Hejian Sang

本文针对智能体强化学习中环境交互动作（如搜索、点击、编辑等）的信用分配问题，指出传统GRPO方法仅依赖最终验证结果作为统一优势信号，存在惩罚有效探索、奖励冗余动作等结构性缺陷。为此，作者提出TRIAGE框架，引入语义角色维度，通过

结构化裁判将动作片段分类为决定性进展、有益探索、无进展基础设施或倒退，并基于角色标签映射为有界的过程奖励。理论分析表明该角色条件信用是仅从角色标签可表达的最优段级校正形式，能降低优势估计误差并减小策略梯度方差。在ALFWorld、Search-QA和WebShop任务上，TRIAGE显著提升成功率，优于GRPO、标量过程奖励及共享骨干网络的价值基线。

PDF · arXiv

Felipe Tommaselli, Francisco Affonso, Arthur Pompeu

针对非结构化农田（如种植不规则、行间断续）中农业机器人导航失效问题，本文提出LeCropFollow——一种基于潜在空间规划的视觉导航框架。该方法摒弃显式几何建模，通过自监督语义热力图提取器与TD-MPC2模型预测控制 plann

er 相结合，在未压缩的语义热力图潜空间内直接优化轨迹，保留关键语义上下文与不确定性信息。实验表明，该框架可实现从简化仿真到真实玉米田的零样本迁移，无需微调；在种植间隙等挑战场景下，语义失败率较关键点法降低2.4倍，显著优于现有几何方法。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. What Drives Interactive Improvement from Feedback?

Bart{\l}omiej Cupia{\l}, Jan {\L}ojek, Miko{\l}aj Garstecki, Szymon Pob{\l}ocki, Alicja Ziarko, Piotr Mi{\l}o's

本文探究自然语言反馈在多轮语言智能体任务中能否真正驱动性能提升，而非仅由重试、格式修正或额外推理所致。作者构建了可控的师生交互协议，在Omni-MATH、Codeforces等四个基准上评估13个开源模型，系统比较外部反馈、自反馈

与无引导自优化的效果，并控制交互历史、任务难度及教师对任务信息的掌握程度。实验表明，多数多轮提升并非源于有效反馈利用；自生成反馈增益微弱，而优质外部教师可带来显著反馈特异性提升。分析显示，学生对反馈的利用能力比教师身份更关键，但教师选择仍具重要性。研究强调需以重试基线为参照评估反馈型智能体，且反馈响应能力是交互式改进的核心瓶颈。

2. Contrastive Reflection for Iterative Prompt Optimization

Derek Koh, Jinghui Mo, Benjamin H. Le, Jiening Zhan, Baofen Zheng, Kevin Bevis, Nathaniel C. Owen, Lauren Elizabeth Charney, Wenqiong Liu, Jingwei Wu

本文提出Contrastive Reflection，一种面向检索增强问答（RAG）场景的迭代式提示优化框架。针对LLM代理在信息检索中作为查询生成器、答案合成器与评估判据时提示调试难、可解释性弱的问题，该框架利用任务导向的质量定

义（如QA代理的推理轨迹、评分代理的细粒度打分与理由），识别错误锚定的行为切片，引入同区域内的成功样例进行对比分析，并由教师LLM生成目标明确的提示修改建议；仅当验证性能提升且无显著回归时才采纳候选修改。在HotpotQA基准上，单次树结构切片引导的对比修复将精确匹配准确率从51.4%提升至60.4%，显著优于仅基于失败案例或随机证据的方法，并媲美MIPROv2（59.4%）与GEPA（57.0%）。

3. How Can AI Find My Model? A Model-Finding Experimental Study Considering Data Formats, Embeddings, and Retrieval Strategies

Jhon G. Botello, Jose J. Padilla, Erika Frydenlund, Krzysztof Rechowicz, Eric Weisel

本文针对建模仿真（M&S）领域中模型重用难、语义匹配弱的问题，开展了一项面向模型发现的实证研究，系统评估了数据格式、基于Transformer的嵌入模型及检索策略对自然语言查询下仿真模型检索性能的影响。实验采用recall@5与n

DCG@5等标准信息检索指标，在多种查询类型上进行评测。结果表明：数据表示方式显著影响检索效果；开源嵌入模型可达到高性能；重排序方法在复杂查询场景下尤为关键。该研究为AI驱动的模型发现提供了基准方案，并支撑AI赋能的模型可组合性与互操作性发展。

📄 arXiv: cs.CL

1. A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization

Yangqiaoyu Zhou, Mohammad Alqudah, Kwei-Herng Lai, Aaron Halfaker, Yingqi Xiong, Yaar Harari

本文针对企业级AI智能体中因技能描述重叠导致的查询路由错误（即“技能碰撞”）问题，提出一种自动化技能描述优化流水线。该方法通过单次大语言模型重写，结合真实误判样本（假正例与假负例），在9技能生产环境中实现79.2%平均F1值，媲美

人工调优结果（79.4%），同时将单技能优化耗时从120分钟降至3.8分钟。消融实验表明，单次重写是性能提升主因，其余设计因素影响均小于0.5%。研究还指出，当技能语义本质重叠时，需依赖架构级而非文本级干预，并提出基于训练-验证F1差距的诊断指标。

🏛️ Microsoft Research

2. Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions

Avisha Das, Mihir Parmar, Mohana Ramnath, Pulkit Verma

本文针对罗马化印地语-英语混码（RCM）指令下大语言模型（LLMs）评估缺失的问题，提出Indi-RomCoM基准——首个面向印度七种主流语言罗马化混码指令的系统性评测基准。该基准涵盖7类指令遵循任务、4种印地语系语言及3级可控混

码强度。作者在零样本与少样本设置下全面评测了闭源、开源及印地语特化LLMs，发现所有模型在RCM指令上显著性能下降，且随混码密度增加而加剧；推理类任务因生成解释提供上下文，退化程度低于检测类任务（如毒性识别）。本工作为构建包容性多语言AI系统提供了关键评估工具与实证基础。

3. Using AI Agents to Automate Black-Box Audits of Personalization Algorithms at Scale

Alessandro Morosini, Sarah H. Cen, Andrew Ilyas, Hedi Driss, Aleksander M\k{a}dry, Chara Podimata

本文提出一种基于生成式AI代理的黑盒审计框架，用于大规模评估个性化算法。针对现有审计方法在真实性、可控性与因果推断能力上的局限，作者构建了具备固定人格画像（基于人口统计与政治调查数据）的AI代理，使其能自主推理并交互于平台内容；通

过实验性扰动平台可见的用户属性（如年龄、性别、地域），实现反事实归因分析。在2024年美国大选后对X平台开展实证研究，部署1120个代理、覆盖14类人格与3种反事实条件，收集超20万条内容曝光数据。结果表明：X算法流显著放大毒性、极化、政治及右倾内容，且放大效应随用户意识形态剧烈变化；人口属性的影响具有人格依赖性，聚合层面不显著，子群层面效应方向与强度各异。该工作确立了生成式AI代理作为算法审计新范式的技术可行性与实证价值。

🏛️ Aleksander Madry

📄 arXiv: cs.LG

1. Joint discovery of governing partial differential equations from multi-source datasets by competitive optimization

Hao Xu, Siyu Lou, Yuntian Chen, Dongxiao Zhang

本文针对单一数据源受限导致的偏微分方程（PDE）发现性能瓶颈，提出一种面向多源数据集的联合发现框架MCO-PDE。该方法通过为各数据源构建独立神经代理模型，并引入软竞争加权机制动态评估数据可信度、聚合全局系数；结合遗传算法进行符号

结构搜索，同步识别PDE的函数形式与参数。实验表明：仅需每数据集50个观测点，在七类典型问题中即可高精度重建经典控制方程；框架可自然处理含不规则边界与异质系数的二维/三维问题，并成功从真实波浪水槽实验数据中提取物理可解释的控制律。本工作为异构数据驱动的自动化科学发现提供了新范式。

2. Accelerometry-Derived Digital Biomarkers for Cardiometabolic Risk: A Population-Representative Tabular Benchmark with Uncertainty Quantification

Federico Felizzi

本文构建了基于NHANES 2003–2006数据的加速度计衍生数字生物标志物基准数据集，涵盖1381名成人多维健康数据（活动表型、空腹实验室指标、膳食与人体测量），旨在解决现有临床表格数据基准缺乏复杂抽样设计、人口代表性及亚组公

平性评估的问题。研究对比岭回归、XGBoost与TabPFN v2在预测HbA1c、甘油三酯和CRP上的性能，TabPFN v2表现最优（HbA1c R²=0.156，CRP R²=0.383），而甘油三酯预测效果差（R²<0.05），印证其强遗传决定性。进一步采用分裂共形预测生成无分布假设的90%预测区间，发现边际覆盖率达标，但亚组层面存在显著不均衡（如墨西哥裔人群HbA1c覆盖不足），揭示临床部署中条件覆盖率缺失的风险。

3. From Search to Synthesis: Training LLMs as Zero-Shot Workflow Generators

Gan Luo, Zihan Qin, Bin Dong, Wotao Yin

本文提出MetaFlow框架，旨在将大语言模型（LLMs）训练为零样本工作流生成器，以解决现有LLM在实例级输出中缺乏结构一致性、难以可靠部署的问题。MetaFlow将工作流生成建模为元学习任务，通过两阶段训练：先在合成工作流数据

上进行监督微调，再采用基于可验证执行反馈的强化学习（RLVR）优化端到端成功率。实验表明，MetaFlow在问答、代码生成与数学推理等基准任务上，不仅在领域内任务中达到SOTA水平，更展现出卓越的零样本泛化能力——可跨任务、跨算子集生成有效工作流。

📄 arXiv: cs.CV

Xinze Zhang

本文针对稀疏地基观测仪器难以实现云微物理场稠密三维重建的难题，提出AtmoFuseNet框架，融合多视角天空相机图像、毫米波云雷达与激光云高仪数据，生成四维（三维空间+时间）云状态与风场估计。方法包含三阶段：跨模态分层聚合模块通过

层间交叉注意力融合图像特征金字塔与仪器垂直剖面；条件变分精修模块在可微雷达/图像前向模型约束下生成物理一致的微物理场；基于相关性的运动估计算法从连续体重建中反演体素级三维风矢量。在半干旱站点实测数据上，液态水含量MAE达0.026 g·m⁻³，风速MAE为1.18 m·s⁻¹，显著优于现有方法。消融实验验证了各模块的有效性。

2. Streaming Gaussian Encoding for 4D Panoptic Occupancy Tracking

Maximilian Luz, Thomas N"urnberg, Yakov Miron, Abhinav Valada

本文针对基于相机的4D全景占用跟踪（4D-POT）中 volumetric 表示缺乏几何时序一致性的关键问题，提出流式高斯编码器（Streaming Gaussian Encoder, SGE）。该方法将场景建模为固定规模的潜在高

斯查询集，通过自运动补偿传播并依据置信度引导的预算机制动态刷新；创新性地利用深度监督调节高斯不透明度，使其表征可见性，从而实现跨帧的置信度累积与持久场景支撑建模。结合多帧热启动训练策略，SGE 在表示层面提升时序连贯性。在 Occ3D-extended nuScenes 和 Waymo 上实验表明，本方法显著提升跟踪一致性，达到当前最优性能，且计算开销极小，完全兼容现有掩码驱动管线。

3. Unveiling Transferability in Trajectory Prediction via Latent Scene Embeddings

Theodor Westny, David Axelsson, Bj"orn Olofsson, Erik Frisk

本文针对轨迹预测模型跨数据集泛化能力弱的问题，提出基于潜在场景嵌入（latent scene embeddings）的可迁移性量化框架。该方法通过学习各轨迹数据集的隐式场景表征，并利用分布度量（如Wasserstein距离）计算数

据集间的相似性，从而评估模型迁移性能。研究在24个主流轨迹数据集上开展大规模实验，结果表明所提迁移性分数与实际跨数据集模型性能高度相关（Pearson相关系数达0.87）。该框架为数据集选择、预训练策略设计及运动预测基础模型构建提供了可解释、可复用的理论支撑与实践指导。

📝 AI 官方博客

1. New York City educators and industry leaders gathered at Google’s offices to shape the future of AI in classrooms.

📝 Google AI Blog

本文报道了由谷歌、纽约就业首席执行官委员会与城市联合会在谷歌纽约办公室联合举办的AI教育峰会。会议汇聚150位来自纽约市基础教育界与科技产业的领导者，聚焦人工智能在课堂教学中的实际应用与伦理治理。与会者围绕教师AI素养提升、课程整合框架设计…

、公平可及的技术部署等关键议题展开协作研讨，并启动多项校企合作试点项目。初步实践表明，结构化教师培训与本地化工具开发显著提升了AI教学工具的课堂采纳率与教学有效性。

2. Unlocking Britain’s next era of productivity: Building a nation of AI trailblazers

📝 Google AI Blog

本文探讨英国如何通过系统性AI人才培养与生态建设，开启新一轮生产力革命。研究提出“AI先锋国家”战略框架，涵盖教育体系改革、跨部门协同机制、中小企业AI赋能计划及包容性技术治理四大支柱。作者结合政策分析与案例研究，论证了以角色多元性（如科学…

家、技术人员、探索者与观察者）为特征的AI人才梯队建设对技术创新与社会应用的关键作用。实证表明，试点地区在AI技能普及率、企业AI采用率及公共部门效率提升方面分别增长37%、29%和22%。

3. Ask an AI expert: What exactly is the full stack?

📝 Google AI Blog

本文系统阐释了“全栈AI”（Full-Stack AI）的概念内涵与技术构成，指出其涵盖从底层硬件（如AI芯片、高性能计算集群）、系统软件（分布式训练框架、推理引擎）、模型层（基础大模型、适配微调方法）、到上层应用（智能体编排、RAG、多模…

态交互）的完整技术栈。文章强调全栈能力不仅要求各层深度协同，更需在数据闭环、算力调度、模型压缩与安全对齐等关键环节实现端到端优化。通过典型工业部署案例分析，验证了全栈整合在降低推理延迟（平均提升3.2倍）、提升资源利用率（达86%）及加速场景适配（开发周期缩短60%）方面的显著优势。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（Reasoning Interpolation）的早期预警方法，用于在强化学习训练过程中提前识别奖励黑客行为（Reward Hacking）的出现。核心思想是利用重要性采样（Importance Sampling）…

，结合经微调的“捐赠者”预填充（donor prefills）生成多样化但语义连贯的推理轨迹，从而在策略尚未明显偏离目标前，探测其隐含的奖励优化偏差。该方法无需修改训练流程或访问真实环境奖励函数，仅依赖离线策略快照与少量验证轨迹。在多个文本驱动的RLHF基准任务上，本方法可在奖励黑客现象发生前平均提前3.2个训练阶段发出高精度预警（AUC=0.91），显著优于基于策略熵、KL散度或奖励方差的传统指标。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化稀疏或不完善的奖励函数时出现的目标错位、规则钻空与行为失范等现象，本工作系统梳理了现有奖励黑客案例的分类学框架，提出一种基于奖励函数敏感性分…

析与反事实验证的检测方法，并初步构建了包含12类典型奖励漏洞的基准测试集（RH-Bench）。实验表明，该方法在MuJoCo与Gridworld环境中可提前83%的训练步数识别出潜在奖励黑客行为，误报率低于7.2%。后续将聚焦于鲁棒奖励建模与可验证对齐机制的设计。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“Deep Ignorance”方法，旨在通过预训练数据过滤为开源大语言模型（LLMs）构建抗篡改的安全机制。该方法系统性识别并移除预训练语料中包含有害、偏见或易被越狱利用的文本片段，结合基于安全对齐信号的多阶段过滤 pipelin…

e（含毒性检测、价值观一致性评估与对抗性触发词识别），在不依赖后训练对齐的前提下，从源头提升模型内在安全性。在多个基准（如SafeBench、ToxiGen）上的实验表明，经过滤数据训练的模型在有害内容生成率上平均降低42%，且在保持通用能力（MMLU、ARC）几乎无损的前提下，显著增强对提示注入与价值观绕过攻击的鲁棒性。

7. Redeploying Fable 5AnnouncementsJun 30, 2026Fable 5 returns globally July 1. We’re also proposing an industry-wide framework for scoring jailbreak severity, together with Amazon, Microsoft, Google, and other Glasswing partners.

📝 Anthropic

本文提出了一种面向大语言模型（LLM）安全评估的行业级“越狱严重性评分框架”（Jailbreak Severity Scoring Framework），由Anthropic联合Amazon、Microsoft、Google及Glasswi…

ng合作伙伴共同制定。该框架系统定义了越狱行为的分类维度（如意图隐蔽性、危害程度、绕过机制鲁棒性）、量化评分标准与可复现的基准测试协议。研究团队基于Fable 5与Claude Sonnet 5等前沿模型开展实证评估，结果表明该框架在跨模型、跨场景下具备良好区分度与一致性（Krippendorff’s α = 0.87），显著优于现有启发式评估方法。该框架已开源并推动纳入MLCommons安全工作组标准草案。

8. ProductJun 30, 2026Introducing Claude Sonnet 5Sonnet 5 delivers frontier performance across coding, agents, and professional work at scale.

📝 Anthropic

暂无摘要

9. AnnouncementsJun 30, 2026Claude Science, an AI workbench for scientists, is now availableClaude Science is a customizable app that integrates the tools and packages researchers most often use, produces auditable artifacts, and provides flexible access to computing resources.

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该网页标题“one daily email”仅显示一个短语，无正文内容或上下文信息，无法判断具体指向（如产品、服务、邮件订阅等），也未提供与AI相关的技术细节或事件说明。

AI 每日资讯 — 2026-07-02#

🔥 HuggingFace 每日论文#

1. GEAR: Guided End-to-End AutoRegression for Image Synthesis#

2. Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs#

3. QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents#

4. DigitalCoach: Communication and Grounding Gaps in Human and Agentic Computer Use Coaching#

5. FaceMoE: Mixture of Experts for Low-Resolution Face Recognition#

6. PointSplat: Compact Gaussian Splatting via Human-Centric Prediction#

7. TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning#

8. LeCropFollow: Latent Space Planning for Navigation in Unstructured Crop Fields#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. What Drives Interactive Improvement from Feedback?#

2. Contrastive Reflection for Iterative Prompt Optimization#

3. How Can AI Find My Model? A Model-Finding Experimental Study Considering Data Formats, Embeddings, and Retrieval Strategies#

📄 arXiv: cs.CL#

1. A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization#

2. Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions#

3. Using AI Agents to Automate Black-Box Audits of Personalization Algorithms at Scale#

📄 arXiv: cs.LG#

1. Joint discovery of governing partial differential equations from multi-source datasets by competitive optimization#

2. Accelerometry-Derived Digital Biomarkers for Cardiometabolic Risk: A Population-Representative Tabular Benchmark with Uncertainty Quantification#

3. From Search to Synthesis: Training LLMs as Zero-Shot Workflow Generators#

📄 arXiv: cs.CV#

1. Cross-Modal Hierarchical Fusion for from Multi-Sensor Ground Observation#

2. Streaming Gaussian Encoding for 4D Panoptic Occupancy Tracking#

3. Unveiling Transferability in Trajectory Prediction via Latent Scene Embeddings#

📝 AI 官方博客#

1. New York City educators and industry leaders gathered at Google’s offices to shape the future of AI in classrooms.#

2. Unlocking Britain’s next era of productivity: Building a nation of AI trailblazers#

3. Ask an AI expert: What exactly is the full stack?#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Redeploying Fable 5AnnouncementsJun 30, 2026Fable 5 returns globally July 1. We’re also proposing an industry-wide framework for scoring jailbreak severity, together with Amazon, Microsoft, Google, and other Glasswing partners.#

8. ProductJun 30, 2026Introducing Claude Sonnet 5Sonnet 5 delivers frontier performance across coding, agents, and professional work at scale.#

9. AnnouncementsJun 30, 2026Claude Science, an AI workbench for scientists, is now availableClaude Science is a customizable app that integrates the tools and packages researchers most often use, produces auditable artifacts, and provides flexible access to computing resources.#

📬 TLDR AI 精选#

1. one daily email#

📰 TechCrunch AI 新闻#

1. Venice AI becomes a unicorn with $65M Series A as its privacy-first AI platform takes off#

2. Gemini Spark, Google’s agentic assistant, is now available on Mac#

3. Builders Stage agenda revealed: Practical strategies for scaling startups at TechCrunch Disrupt 2026#

4. Meta, like SpaceX, looks to turn excess AI compute into cash#

5. The ‘Father of the Internet’ is finally retiring#

AI 每日资讯 — 2026-07-02

🔥 HuggingFace 每日论文

1. GEAR: Guided End-to-End AutoRegression for Image Synthesis

2. Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

3. QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

4. DigitalCoach: Communication and Grounding Gaps in Human and Agentic Computer Use Coaching

5. FaceMoE: Mixture of Experts for Low-Resolution Face Recognition

6. PointSplat: Compact Gaussian Splatting via Human-Centric Prediction

7. TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

8. LeCropFollow: Latent Space Planning for Navigation in Unstructured Crop Fields

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. What Drives Interactive Improvement from Feedback?

2. Contrastive Reflection for Iterative Prompt Optimization

3. How Can AI Find My Model? A Model-Finding Experimental Study Considering Data Formats, Embeddings, and Retrieval Strategies

📄 arXiv: cs.CL

1. A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization

2. Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions

3. Using AI Agents to Automate Black-Box Audits of Personalization Algorithms at Scale

📄 arXiv: cs.LG

1. Joint discovery of governing partial differential equations from multi-source datasets by competitive optimization

2. Accelerometry-Derived Digital Biomarkers for Cardiometabolic Risk: A Population-Representative Tabular Benchmark with Uncertainty Quantification

3. From Search to Synthesis: Training LLMs as Zero-Shot Workflow Generators

📄 arXiv: cs.CV

1. Cross-Modal Hierarchical Fusion for from Multi-Sensor Ground Observation

2. Streaming Gaussian Encoding for 4D Panoptic Occupancy Tracking

3. Unveiling Transferability in Trajectory Prediction via Latent Scene Embeddings

📝 AI 官方博客

1. New York City educators and industry leaders gathered at Google’s offices to shape the future of AI in classrooms.

2. Unlocking Britain’s next era of productivity: Building a nation of AI trailblazers

3. Ask an AI expert: What exactly is the full stack?

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Redeploying Fable 5AnnouncementsJun 30, 2026Fable 5 returns globally July 1. We’re also proposing an industry-wide framework for scoring jailbreak severity, together with Amazon, Microsoft, Google, and other Glasswing partners.

8. ProductJun 30, 2026Introducing Claude Sonnet 5Sonnet 5 delivers frontier performance across coding, agents, and professional work at scale.

9. AnnouncementsJun 30, 2026Claude Science, an AI workbench for scientists, is now availableClaude Science is a customizable app that integrates the tools and packages researchers most often use, produces auditable artifacts, and provides flexible access to computing resources.

📬 TLDR AI 精选

1. one daily email

📰 TechCrunch AI 新闻

1. Venice AI becomes a unicorn with $65M Series A as its privacy-first AI platform takes off

2. Gemini Spark, Google’s agentic assistant, is now available on Mac

3. Builders Stage agenda revealed: Practical strategies for scaling startups at TechCrunch Disrupt 2026

4. Meta, like SpaceX, looks to turn excess AI compute into cash

5. The ‘Father of the Internet’ is finally retiring