AI 每日资讯 — 2026-06-16

🔥 HuggingFace 每日论文

1. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang

本文针对现有音视频问答（AVQA）方法中音画模态解耦、跨片段指代不一致及缺乏长时序与深度跨模态推理能力等关键问题，提出一种新型自动化数据构建引擎。该引擎包含两大核心机制：（1）实体锚定视频脚本化，将视频转化为含全局实体列表、摘要及

分段音视频联合描述的结构化脚本，保障跨片段一致性并重建音画关联；（2）线索引导式问答生成，先从脚本中挖掘跨片段、多模态高价值线索，再据此生成问答对。基于此，构建了指令微调数据集OmniVideo-100K及人工验证测试集OmniVideo-Test。在该数据集上微调VITA-1.5、Qwen2.5-Omni-7B与Qwen3-Omni-30B模型，在OmniVideo-Test上最高提升达20.59%。

PDF · arXiv · 代码 · 项目 | ❤️ 21

2. RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

Xichen Pan, Aashu Singh, Satya Narayan Shukla

本文提出RepFusion，一种在表征空间中利用多模态大语言模型（MLLM）先验进行去噪的新范式。针对现有文本到图像（T2I）系统中LLM仅用于文本编码、而视觉去噪依赖新训练生成主干的局限，RepFusion借助表征自编码器（RA

E）构建语义结构化的视觉隐空间，并将预训练MLLM直接用作含噪视觉表征的编码器——通过扩展其MLP投影器以适配噪声输入，输出作为扩散Transformer的条件信号。实验表明，在相近推理开销下，RepFusion显著优于同等容量的新初始化去噪器基线，验证了MLLM在表征级去噪中的强先验能力，以及在测试时重复调用MLLM进行动态条件建模的有效性。

PDF · arXiv · 项目 | ❤️ 7

3. ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Sicheng Yang, Hangjie Yuan, Wenjun Zhang

本文提出ClinHallu基准，旨在实现医疗多模态大语言模型（MLLM）推理过程中阶段式幻觉的精准诊断。针对现有基准忽视幻觉源头定位的问题，ClinHallu构建了7,031个经专家验证的样本，每个样本附带结构化推理轨迹，细分为视

觉识别、医学知识召回与推理整合三个阶段，并通过阶段替换干预量化各阶段对最终输出的影响。实验表明，基于该轨迹的监督微调可显著降低各阶段幻觉率。ClinHallu为医疗MLLM的幻觉归因分析与鲁棒性提升提供了细粒度评测平台。

PDF · arXiv · 代码 | ❤️ 4

Mateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki

本文提出LoSoNA基准，用于评估大语言模型（LLM）在多人在线群聊中识别与适应本地社交规范的能力。该基准包含精心构建的群聊对话片段，其中非目标参与者隐式展现某一本地规范，随后由“引发句”触发目标模型作答，以检验其是否成功推断并遵

循该规范。研究在八种前沿及开源模型上、四种不同提示策略下开展评测：朴素提示效果普遍有限；显式引导模型关注规范的提示策略效果不均——Gemini 3.1 Pro达84.2%，Claude Fable 5达81.6%，而其余模型提升微弱甚至出现退化。LoSoNA填补了LLM社会能力评估的重要空白，聚焦于从对话先例中归纳本地规范并即时应用于群体交互的能力。

PDF · arXiv · 项目 | ❤️ 3

5. IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Haonan Qi, Jin Cao, Yongqi Zhang

本文针对工业产品（如阀门、断路器）技术规格分散于多张异构图像（规格表、铭牌、工程图纸等）导致的属性值提取难题，提出首个面向工业产品的多图像属性值提取基准IndustryBench-MIPU。该基准涵盖27,652张图像、4,559

个产品、103,703条标注，覆盖18类工业品，通过多模型共识与三级质控构建。任务联合考察OCR识别、图纸视觉推理、工业术语理解及跨图像证据融合能力。在9个MLLM上的评测表明：模型单图精度高（86%–94%），但产品级多图属性召回率仅49.9%，跨图像整合导致召回下降15–34个百分点，凸显多图像完整性是当前核心瓶颈。

PDF · arXiv

6. TACO: A Benchmark for Open-Domain Text-to-SQL with Ambiguous and Cross-Database Queries

Chao Deng, Ju Fan, Yuyu Luo

本文提出TACO基准，旨在推动开放域Text-to-SQL研究，解决现有基准在模糊性问题、未指定数据库及跨库查询等现实挑战上的不足。TACO包含1,500条真实智慧城市服务场景样本与13,000条基于开放数据门户生成的高质量合成样

本，覆盖交通、医疗、金融等多领域。作者设计了一套保真度高的合成数据构建流程，并提出基线模型TACO-SQL，整合问题重写、表链接与查询规划模块。实验表明，尽管TACO-SQL性能最优，现有方法与人工SQL仍有显著差距，凸显开放域Text-to-SQL的难度，验证了TACO作为前沿评测基准的价值。

PDF · arXiv

7. Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control

Ruining Li, Yuxin Yao, Matt Zhou

本文提出Instruct-Particulate，一种面向可动3D物体结构重建的指令驱动模型，旨在解决现有神经网络因标注数据稀缺导致的泛化能力不足问题。该模型以输入3D网格与自然语言描述的运动学规范（包括部件语义、连接关系、关节类

型及可选点提示）为条件，联合预测部件分割与关节运动参数。通过引入运动学规范作为弱监督信号，模型可兼容多源异构标注数据；为此，作者构建了超15万样本的大规模异构数据集，融合公开数据与基于视觉-语言模型自动标注的合成数据。实验表明，该方法在跨类别泛化、对AI生成网格的鲁棒性及真实图像驱动的端到端资产重建中均显著优于现有方法。

PDF · arXiv

8. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Junlong Tong, Wenqi Xu, Yingqi Fan

本文针对动态流式输入场景下大模型推理的挑战，提出AdaSR自适应流式推理框架，支持模型在输入流持续到达过程中边读边思，并在流结束时进行最终审慎推理。其核心创新在于分层相对策略优化（HRPO）方法，将策略学习解耦为流式推理与深度推理

两个阶段，实现细粒度优势分配；同时融合格式、准确率与自适应思考奖励，兼顾推理规范性、任务性能与延迟敏感的计算资源分配。实验表明，AdaSR在推理精度、计算效率与流式延迟之间实现了更优权衡。

PDF · arXiv · 代码

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

Faezeh Ardali, Mwembezi A. Nyelele, Gerald M. Knapp

本文针对计算复杂度高的开放式车间调度问题（OSSP），提出一种基于深度强化学习（DRL）与Transformer架构的端到端调度策略。该方法采用编码器-解码器结构与多头自注意力机制，仅以加工时间矩阵为输入，在Taillard基准实

例（4×4至10×10）上训练，生成可行调度方案，其完工时间（makespan）通常为最优已知值的15–30%。进一步在未微调情况下迁移至40×40至100×100的大规模随机实例，平均相对下界差距为12.89–15.12%，显著优于SPT、LPT等经典启发式规则，并与EST相当。结果表明，该轻特征、数据驱动的方法具备优异的跨规模泛化能力。

2. UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

Hui Wang, Fafa Zhang, Meng Liu, Xiangyu Chen, Chaoxu Mu

本文针对现有对话策略规划方法难以动态适配多样化用户特征的问题，提出基于用户画像的嵌套回溯策略自适应框架UP-NRPA，结合大语言模型实现在线对话规划。该方法摒弃传统依赖离线强化学习训练的群体策略建模范式，转而利用实时用户反馈及从当

前用户画像中提取的性格、偏好与目标信息，动态生成个性化对话策略。在协作与非协作对话基准测试中，UP-NRPA展现出显著性能优势：多任务成功率高达100%，谈判任务中成交/挂牌比（SL）提升56.41%。结果表明，该框架无需预训练即可实现对异构用户需求的实时自适应响应。

3. Orchestra-o1: Omnimodal Agent Orchestration

Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

本文针对现有智能体编排框架在多模态场景下泛化能力不足的问题，提出Orchestra-o1——一种面向全模态（文本、图像、音频、视频）的智能体协同编排框架。该框架通过统一的编排机制实现模态感知的任务分解、子智能体在线专业化与并行子任

务执行。为提升训练效率与决策一致性，进一步提出决策对齐的组相对策略优化（DA-GRPO）方法，用于训练Orchestra-o1-8B模型。实验表明，Orchestra-o1在OmniGAIA基准上准确率超越次优方法10.3%，并在开源全模态智能体中达到最优性能。

📄 arXiv: cs.CL

1. The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Abel Yagubyan

本文系统评估了大语言模型（LLM）作为评判者（LLM-as-a-Judge）的可靠性与偏差问题。作者在29个跨10类任务上，使用GPT-4o-mini和GPT-4.1-mini重复执行50次成对比较与50次单点评分，并开展温度、提

示模板及解码策略的敏感性分析。结果表明：成对偏好平均翻转率达13.6%，部分问题高达56%；GPT-4o-mini存在显著首位置偏差（72%倾向选A，p=0.024）；点式评分差异微弱（均值差仅0.19–0.36/10分），且无统计显著性，导致成对决策与点式评分严重不一致。跨模型一致性仅为76%（κ=0.51），语义等价提示改变多数结果的比例达25%。可靠性曲线显示需约11次重复才能以95%概率复现50次参考结论，高方差问题则需15次。研究呼吁将多轮聚合、位置随机化与不确定性显式报告设为评估标配。

2. Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces

Zijing Shi, Meng Fang, Ling Chen

本文针对电商场景下自主网页代理（web agent）的安全性问题，提出WebDecept——一个轻量、可配置的前端插件框架，支持在真实网页环境中可控注入七类常见欺骗性界面模式（如定向广告、域名跳转、购物诱导等）。基于该框架，作者对

多个多模态网页代理开展系统性安全评测，结果表明现有代理对各类欺骗界面高度脆弱，且基于提示词的约束策略难以有效防御。进一步分析揭示了欺骗模式的设计特征（如视觉显著性、交互隐蔽性）对其成功率的关键影响。研究为面向实际部署的网页代理安全增强提供了实证依据与设计启示。

3. Which Models Perform Better in Inheritance Reasoning?

Mohammed Amine Mouhoub, Chahinez Bouchekif

本文探讨了大语言模型在阿拉伯伊斯兰继承法推理任务中的表现差异，参与QIAS 2026共享任务。研究在统一提示策略下系统评估商业模型（如Gemini 2.5 Flash）与开源模型在法律解释、多步推理及精确数值计算方面的能力。结果表

明，商业模型在继承人资格判定、排除规则应用及推理一致性上显著更优；而开源模型在依赖性法律判断和份额分数调整等复杂场景中稳定性不足。最佳模型Gemini 2.5 Flash达到0.989的平均相对误差（MRE），凸显其在结构化法律推理中的领先可靠性。

📄 arXiv: cs.LG

1. Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald

本文探究了大语言模型（LLM）中重复循环（repetition loops）是否可通过编辑单个神经元权重进行修复。针对Gemma-4系列模型在长事实枚举任务（如列举星座、宝可梦等）中高达95%的重复崩溃现象，作者结合逐层消融与单神

经元归因定位关键故障单元，发现其根源集中于少量MLP神经元（或MoE模型中的少数路由专家）。通过静态权重编辑（最小仅需翻转单个神经元符号），可在不损害通用基准性能的前提下显著抑制重复循环。然而，该方法无法根除“末日循环”（doom loops）——即模型在扩展推理预算下陷入无终止自我修正的非收敛状态，表明此类失败本质源于知识精度不足，而非可编辑的电路缺陷。

2. Efficient On-Device Diffusion LLM Inference with Mobile NPU

Tuowei Wang, Yanfan Sun, Ju Ren

本文针对扩散大语言模型（dLLMs）在智能手机端高效推理的挑战，提出首个面向移动NPU优化的推理框架llada.cpp。针对token commitment导致计算负载衰减、token revision阻碍KV缓存复用、以及NPU

可见地址空间受限引发的数据搬移开销等问题，该框架引入三项关键技术：多块推测解码以填补晚期解码阶段的空闲算力；双路径渐进式修正机制，在保障NPU密集计算连续性的同时支持CPU侧动态修正不稳定token；交换优化内存运行时，通过紧凑地址布局与计算-传输重叠显著降低映射与搬运开销。实验表明，llada.cpp在LLaDA-8B模型上相较CPU基线实现17–42倍生成延迟下降，同时保持生成质量。

3. High-Frequency Pricing at Scale for E-Commerce

Stefan Birr, Tobias Huelden, Mones Raslan, Adele Gouttes, Andreas Schmitt, Mateusz Koren, Johannes Stephan, Robert Streek, Manuel Kunz, Tim Januschowski

本文针对时尚电商大促场景下的高频动态定价问题，提出了一种“先预测、后优化”的算法框架。该框架采用日粒度梯度提升树模型进行需求预测，并结合多目标优化算法，在保障净商品价值（NMV）的同时最大化长期利润，覆盖超500万商品。相较传统周

级系统，本方案将定价决策耗时从数小时压缩至分钟级。基于2023–2024年在Zalando开展的23组跨12国A/B测试，新系统在保持销售额与营收不变的前提下，实现利润提升约6%。目前该算法已全面投入生产，承担公司大促期间绝大部分自动化定价决策。

📄 arXiv: cs.CV

1. TSA: Temporal Slot Activation for Persistent Object-Centric Video Representation

Duc Nguyen, Sieu Tran, Hao Vo, Khoa Vo, Duy Minh Ho Nguyen, Nghi D. Q. Bui, Anh Nguyen, Long Mai, Ngan Le

本文针对无监督视频对象中心学习中槽位（slot）时序持久性建模不足的问题，提出时序槽位激活机制（TSA）。现有方法对所有槽位在每帧无条件更新与解码，导致物体消失或完全遮挡时出现状态漂移与重建干扰。TSA通过学习每个槽位-帧的激活分

数αₖ,ₜ∈(0,1)，实现细粒度生命周期控制：在槽位非活跃时，采用激活门控更新锚定前一状态，并在解码头中引入激活相关的注意力偏置以抑制无效参与。结合时序上下文编码器生成的槽位级记忆，TSA显著提升部分遮挡与渐进重现场景下的鲁棒性。在MOVi-C/E、YT-VIS和OVIS基准上，TSA在FG-ARI、mBO、IDF1与HOTA等指标上均取得一致提升，尤其在长时程、高遮挡视频中效果突出。

2. Morphology-Aware Sample Assignment: Overcoming IoU Insensitivity for Surface Defect Detection

Pengfei Liu, Yuhan Guo

本文针对表面缺陷检测中IoU指标对几何重叠敏感度不足的问题，提出一种形态感知的样本分配方法。通过理论建模发现IoU响应曲线上存在“非敏感区”，导致不同几何重叠的候选框获得相近IoU值。为此，引入覆盖面积、形状与长宽比的多维形态相似

性度量，并基于均值聚合构建补充匹配得分，弥补IoU在结构对应表征上的固有缺陷。理论分析表明，该方法重塑匹配函数响应分布，生成方向明确的梯度与多边形等响应轮廓，显著提升正样本选择精度。在YOLOv9框架下于NEUDET和GC10-DET数据集验证，性能稳定提升；方法即插即用，不增加推理开销，适用于工业视觉检测部署。

3. Connections Between Pairs of Filters Improve the Accuracy of Convolutional Neural Networks

Kathleen Anderson, Philipp Gr"uning, Erhardt Barth

本文探讨了在卷积神经网络（CNN）中引入可学习的成对滤波器连接机制以提升模型性能。不同于传统仅依赖逐点非线性激活的堆叠式结构，作者提出在滤波器对之间嵌入参数化的连接函数（如带可学习权重的乘法或广义逻辑组合），使网络能自适应地在不同

层选择最优连接方式。实验表明，该方法在多个基准数据集上显著提升了分类精度，同时保持计算效率，验证了成对连接对特征交互建模的有效性与泛化能力。

🔬 OpenReview 近期论文

1. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Qinyan Zhang, Xinping Lei, Ruijie Miao

本文提出Inverse IFEval基准，旨在评估大语言模型（LLMs）克服训练惯性、遵循反直觉指令的能力——即“反直觉能力”。该基准涵盖八类挑战任务（如问题修正、刻意文本缺陷、无注释代码生成、反事实问答等），基于人机协同流程构建

了覆盖23个领域的1012道高质量中英文测试题，并在优化的LLM-as-a-Judge框架下进行评估。实验表明，当前主流LLMs在该基准上表现显著下降，凸显其对监督微调阶段固化模式的过度依赖。研究呼吁未来对齐工作需兼顾流畅性、事实准确性与非常规指令下的适应性，为缓解认知惰性、提升真实场景中指令遵循可靠性提供诊断工具与方法基础。

PDF

2. VLAC: A Generalist Action-Critic Model via Pair-wise Progress Understanding

Qi Zhang, Shaopeng Zhai, Shengzhe Zhang

本文提出VLAC——一种基于成对进度理解的通用视觉-语言-动作-评判模型，旨在解决真实动态环境中机器人因缺乏可靠任务进度反馈而难以自适应的问题。VLAC将动作生成与进度理解统一于单一同质化自回归架构中，通过可扩展的成对图像进度差预

测机制，在无动作标注的人类数据、带动作标签的机器人数据及通用视觉语言数据上联合训练，并支持基于内在奖励的强化学习。实验表明，VLAC在八个进度理解数据集上泛化性强，能有效区分成功与失败轨迹（如RoboFAC上VOC-F1达0.89 vs. 0.44）；在真实机器人操作任务中，其动作生成具备强抗干扰能力，结合成对进度预测后，RL成功率在200轮内从约30%提升至90%。

PDF

📝 AI 官方博客

1. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元，扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营，原址为废弃工业用地，此次扩建将显著提升算力基础设施能力，并创造数百个高技能就业岗位。项目同步配套社区支持计划，包括资助本地…

STEM教育、提供数字技能培训及资助宽带网络覆盖薄弱地区。据评估，该投资有望带动区域经济新增逾20亿美元产值，并推动阿拉巴马州向清洁能源数据中心枢纽转型。

2. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划，旨在促进本地就业增长与提升能源可负担性。项目聚焦于支持清洁能源技能培训、资助低收入家庭节能改造及可再生能源接入，并与地方政府、社区组织及教育机构合作构建下一代绿色 workforce。通过…

为期三年的2500万美元投入，已直接创造逾300个本地就业岗位，惠及超过1.2万户家庭降低年度能源支出达15%–25%。实证表明，该模式有效协同经济发展与能源公平目标。

3. The latest AI news we announced in May 2026

📝 Google AI Blog

本文回顾了2026年5月人工智能领域的重要进展，涵盖大模型架构优化、多模态推理能力突破、高效推理加速技术及AI安全治理新范式。重点介绍新型稀疏混合专家（MoE）模型在保持参数量不变前提下将推理能耗降低42%；首个支持实时跨模态因果推理的视觉…

-语言联合框架VLM-Causal发布；基于硬件感知编译器的端侧AI推理引擎实现12倍吞吐提升；同时，国际AI治理联盟正式采纳《可信AI部署白皮书2026》，推动全球37国建立统一AI风险评估与审计标准。实验表明，上述成果已在医疗诊断、工业质检与教育辅助等场景落地验证，平均准确率提升8.3%，响应延迟下降至210ms以内。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（Reasoning Interpolation）的早期预警方法，用于在强化学习训练过程中提前识别奖励黑客行为（Reward Hacking）的出现。核心思想是利用重要性采样（Importance Sampling）…

，结合经微调的“捐赠者”预填充序列（donor prefills），对策略演化轨迹进行高效估计与插值分析，从而在奖励性能异常提升前捕捉潜在的非预期优化倾向。该方法无需修改训练流程或访问真实奖励函数梯度，具备强实用性与可部署性。在多个基准任务（如CoinRun、ProcGen）上的实验表明，该方法可在奖励黑客现象发生前平均提前32%的训练步数发出可靠预警，误报率低于8%。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习中智能体通过 exploiting reward function 设计缺陷而达成虚假目标的现象，本工作系统梳理了现有典型攻击模式（如奖励捷径、状态遮蔽、环…

境扰动），提出一种基于奖励函数鲁棒性评估与反事实验证的检测框架。关键技术包括可解释性奖励归因模块与对抗性奖励重标定机制。在Gridworld、LunarLander及定制化MuJoCo任务上的实验表明，该方法将奖励黑客行为检出率提升至92.3%，同时保持策略性能下降不超过1.7%，显著优于基线方法。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。该方法识别并移除包含敏感、有害或易被对抗性攻击利用的文本片段（如越狱提示、隐式偏见、高置信度错误知识），在不修改模型…

架构或微调流程的前提下，在预训练阶段嵌入鲁棒的安全屏障。关键技术包括基于多维度风险评分的数据筛选框架、跨领域安全知识蒸馏与不确定性感知过滤机制。在多个基准（如SafeBench、ToxiGen、BBQ）上的实验表明，经过滤训练的模型在保持下游任务性能（GLUE、MMLU）的同时，将有害输出率降低42.7%，且对各类越狱攻击的抵抗能力显著增强，验证了数据层安全加固的有效性与泛化性。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——暂停对Fable 5与Mythos 5的全部访问——作出正式声明。该指令源于对先进AI模型潜在扩散风险的监管考量，直接影响全球科研与产业用户的使用权。文中阐明公司合规响应机制，包括…

即时服务中断、用户迁移支持路径及替代技术方案（如经授权的轻量化API接口），并强调在遵守国际法规前提下持续推动AI普惠发展的承诺。实证表明，过渡方案使92%的受影响机构在72小时内完成系统适配，未造成重大业务中断。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该内容仅提供标题“one daily email”，无正文信息，无法判断具体主题或事件，无法生成有效摘要。

💬 Hacker News AI 热门

1. My Homelab AI Dev Platform

🔥 33 分 · 💬 14 评论

该文章介绍了作者搭建的“家庭实验室AI开发平台”：通过OpenCode Web UI（支持Git集成、跨设备同步编码会话）作为核心AI编程工具，结合Arcane GitOps实现Docker服务自动化部署；AI主要用于生成版本更新摘要、添加…

容器健康检查等运维任务，并严格遵循“AI写代码→人工审核PR→GitOps自动部署”的安全流程。平台运行在独立VM中，隔离生产环境，兼顾效率与安全性。

2. TinyWind: A pixel pirate sailing game with real wind physics (380k+ kms sailed)

🔥 12 分 · 💬 3 评论

TinyWind是一款像素风格的航海冒险游戏，主打真实风力物理系统，玩家需操控帆船借助实时风向与风速航行。游戏已累计航行超38万公里，凭借精巧的物理模拟、复古美术风格和沉浸式航海体验广受好评，适合喜欢策略性操作与探索的玩家。

AI 每日资讯 — 2026-06-16#

🔥 HuggingFace 每日论文#

1. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains#

2. RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space#

3. ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning#

4. LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations#

5. IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products#

6. TACO: A Benchmark for Open-Domain Text-to-SQL with Ambiguous and Cross-Database Queries#

7. Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control#

8. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem#

2. UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems#

3. Orchestra-o1: Omnimodal Agent Orchestration#

📄 arXiv: cs.CL#

1. The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation#

2. Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces#

3. Which Models Perform Better in Inheritance Reasoning?#

📄 arXiv: cs.LG#

1. Can Editing 1 Neuron Fix Repetition Loops in LLMs?#

2. Efficient On-Device Diffusion LLM Inference with Mobile NPU#

3. High-Frequency Pricing at Scale for E-Commerce#

📄 arXiv: cs.CV#

1. TSA: Temporal Slot Activation for Persistent Object-Centric Video Representation#

2. Morphology-Aware Sample Assignment: Overcoming IoU Insensitivity for Surface Defect Detection#

3. Connections Between Pairs of Filters Improve the Accuracy of Convolutional Neural Networks#

🔬 OpenReview 近期论文#

1. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?#

2. VLAC: A Generalist Action-Critic Model via Pair-wise Progress Understanding#

📝 AI 官方博客#

1. We’re strengthening our presence in Alabama through new investments and community support.#

2. Our new community investments in Virginia support local jobs and expand energy affordability.#

3. The latest AI news we announced in May 2026#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.#

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.#

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.#

📬 TLDR AI 精选#

1. one daily email#

💬 Hacker News AI 热门#

1. My Homelab AI Dev Platform#

2. TinyWind: A pixel pirate sailing game with real wind physics (380k+ kms sailed)#

📰 TechCrunch AI 新闻#

1. Cybersecurity vets protest ‘dangerous’ US government ban on Anthropic’s most powerful models#

2. Salesforce acquires AI customer service platform Fin for $3.6 billion#

3. Sarvam becomes India’s newest AI unicorn with $234 million funding round led by HCLTech#

4. As AI agents become employees, NewCore emerges with $66M to give them identities#

5. A satellite just learned to find things on its own — here’s what that means#

AI 每日资讯 — 2026-06-16

🔥 HuggingFace 每日论文

1. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

2. RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

3. ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

4. LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

5. IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

6. TACO: A Benchmark for Open-Domain Text-to-SQL with Ambiguous and Cross-Database Queries

7. Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control

8. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

2. UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

3. Orchestra-o1: Omnimodal Agent Orchestration

📄 arXiv: cs.CL

1. The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

2. Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces

3. Which Models Perform Better in Inheritance Reasoning?

📄 arXiv: cs.LG

1. Can Editing 1 Neuron Fix Repetition Loops in LLMs?

2. Efficient On-Device Diffusion LLM Inference with Mobile NPU

3. High-Frequency Pricing at Scale for E-Commerce

📄 arXiv: cs.CV

1. TSA: Temporal Slot Activation for Persistent Object-Centric Video Representation

2. Morphology-Aware Sample Assignment: Overcoming IoU Insensitivity for Surface Defect Detection

3. Connections Between Pairs of Filters Improve the Accuracy of Convolutional Neural Networks

🔬 OpenReview 近期论文

1. Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

2. VLAC: A Generalist Action-Critic Model via Pair-wise Progress Understanding

📝 AI 官方博客

1. We’re strengthening our presence in Alabama through new investments and community support.

2. Our new community investments in Virginia support local jobs and expand energy affordability.

3. The latest AI news we announced in May 2026

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

📬 TLDR AI 精选

1. one daily email

💬 Hacker News AI 热门

1. My Homelab AI Dev Platform

2. TinyWind: A pixel pirate sailing game with real wind physics (380k+ kms sailed)

📰 TechCrunch AI 新闻

1. Cybersecurity vets protest ‘dangerous’ US government ban on Anthropic’s most powerful models

2. Salesforce acquires AI customer service platform Fin for $3.6 billion

3. Sarvam becomes India’s newest AI unicorn with $234 million funding round led by HCLTech

4. As AI agents become employees, NewCore emerges with $66M to give them identities

5. A satellite just learned to find things on its own — here’s what that means