阿伟又在打电动

发表于2026-07-14|AI

OpsMem：让故障诊断智能体同时记住”当前证据”与”历史经验” 论文：OpsMem: Dual-Memory Reasoning with Cross-Memory Resonance for Failure Diagnosis 作者：Yongqian Sun、Rongchen Gao、Yu Luo、Wenwei Gu、Shenglin Zhang 等机构：南开大学、清华大学、华为技术有限公司版本：arXiv v1，2026 年 7 月 13 日在复杂软件系统中，故障诊断并不是一次检索或一次推理，而是一个持续变化的过程：智能体需要根据当前告警提出假设，调用工具收集指标、日志和系统快照，再依据新证据修正甚至推翻已有判断。这类任务同时依赖两种信息：当前事件已经发现了什么、排除了什么；历史上类似现象通常对应什么故障、应该检查哪些方向。 OpsMem 的核心主张是：现有方法通常只能较好地处理其中一部分。Agent 推理方法关注当前诊断过程，却容易在长链路中发生上下文漂移、证据虚构和回溯失败；RAG 等知识增强方法能够引入历史经验，但通常只在查询时进行一次静态...

智能体的产业与学术现状及未来发展趋势报告

发表于2026-07-14|AI

摘要本报告面向通用行业视角的从业者，而非投资者，讨论“基于 LLM 但不限于仅 LLM”的智能体发展现状与未来方向。若细分到金融、医疗、制造、政务等垂直行业，落地节奏、合规要求、数据边界与工程形态会进一步分化；本报告在未指定行业时，以跨行业共性规律为主。依据近三年尤其是 2024—2026 年的官方资料、论文、顶会与行业白皮书，当前行业已从“能对话的模型”转向“可执行、可观测、可治理的代理系统”：LangChain 在 2026 年对 1,300 余名从业者的调查显示，57.3% 的受访组织已将智能体投入生产环境，89% 已部署某种可观测性能力，52.4% 已做离线评测；Anthropic 与 Material 在 2026 年针对 500 余名美国技术决策者的联合调查则显示，57% 的组织已经将智能体用于多阶段工作流，16% 进入跨团队、跨职能流程，80% 报告已获得可量化经济回报。产业主战场也较为清晰：客户服务、研究与数据分析、内部流程自动化、编码代理，已经成为最先规模化落地的四类场景。产业侧的关键词正在发生明显变化。2024 年以前，主流话语仍以“RAG + Promp...

运维智能体（AIOps Agent）现状综述

发表于2026-07-03|AI

从 AIOps 到 AIOps Agent 的演进全景：覆盖 2023-2025 年学术研究、微软/Google/AWS 等 12 家厂商产品、AISHPerf 等评测基准，以及 ReAct/SOP 约束/Multi-Agent 四类架构路线。

从 Claude Code 看 Agent Skills：Anthropic 内部如何设计和沉淀可复用能力

发表于2026-06-12|AI

Anthropic 在 Claude Code 中维护数百个 Skills 后沉淀的经验：九类 Skill 分类、Gotchas 驱动迭代、文件系统做渐进式上下文、以及内部 Skill 市场机制。

数据不是软件：Anthropic 如何用 Claude 实现自助式数据分析

发表于2026-06-11|AI

Anthropic 用 Claude 实现了 95% 业务分析查询自动化。本文解读其核心方法论：把准确性从代码生成问题转变为数据治理、语义约束和持续验证问题。

Skill 优化与生命周期管理

发表于2026-06-11|AI

从规划、评估、迭代到触发优化，梳理 Skill 生命周期管理框架——如何通过读 transcript、对照评估和避免过拟合，持续改进 Agent 能力。

Skill 构建完整最佳实践

发表于2026-06-11|AI

基于 Anthropic 官方指南，从 YAML frontmatter、正文写作、目录结构、测试迭代到分发共享，完整梳理手动构建 Claude Skill 的工程方法。

HPC系统中基于粗粒度聚类和细粒度模型共享的有效节点级异常检测

发表于2025-07-28

摘要高性能计算（HPC）系统对于科学进步和工程突破至关重要。意外的性能下降或系统故障可能会严重影响这些工作。本文介绍了 NodeSentry，这是一种为大规模 HPC 系统的计算节点量身定制的新型无监督异常检测框架。NodeSentry 利用粗粒度聚类和细粒度模型共享的组合方法，有效应对现代 HPC 部署特有的大规模节点规模、频繁的作业转换和复杂模式所带来的挑战。对两个真实世界 HPC 数据集的评估表明 NodeSentry 具有卓越的性能，实现了超过 0.876 的 F1 分数。这比现有的最佳基线方法平均提高了 0.560，同时将训练开销平均降低了 45.69%。此外，为了提高可重复性并为更广泛的研究社区做出贡献，我们开源了 NodeSentry 的代码库，并引入了专为 HPC 系统设计的新型聚类调整和异常标记工具。 1. 导语高性能计算（HPC）系统在社会和科学领域的各种数据密集型应用中发挥着至关重要的作用，例如天气预报、特效渲染和航空航天 [4]。这些系统通常由大量计算节点组成，这些节点通过高带宽、低延迟网络互连，形成集群或超级计算机 [8]。每个节点（在本...

RUAD：HPC系统中无监督的异常检测

发表于2025-07-28

摘要现代高性能计算（HPC）系统的复杂性日益增加，需要引入自动化和数据驱动的方法，以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分，因为它减轻了系统管理员的负担，并减少了异常和解决方案之间的时间。但是，对当前的最新（SOA）检测方法进行了监督和半监督，因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法，旨在减轻准确的异常数据的需求，到目前为止的性能差。在这项工作中，我们通过提出RUAD来克服这些局限性，RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长期术语记忆单元的实现。对拟议的方法进行了评估，以完整的tier-0系统历史记录（来自Cineca，带有980个节点的Marconi100）。 RUAD在半监督训练中达到曲线（AUC）下的面积为0.763，在无监督的训练中达到了0.767的AUC，这改善了SOA方法，在半监督训练中达到0.747的AUC，在无训练的训练中，AUC的AUC为0...

Quiet-STaR：让语言模型在“说话”前思考

发表于2024-10-17

Quiet-STaR：让语言模型在“说话”前思考论文： [arxiv 2403.09629]Quiet-STaR- Language Models Can Teach Themselves to Think Before Speaking（Stanford 2024） 1. 背景 1.1 CoT与StaR 通过生成中间推理步骤（rationale），可以显著提高大型语言模型（LLM）在复杂推理任务（如数学、常识性问答）中的表现。比如“思维链”，但是它需要构建大量基本原理（思考过程）数据集，或者需要使用牺牲准确性的few-shot方式。 "Self-Taught Reasoner" (STaR) 自学推理机技术采用了一种迭代自我增强的策略，利用少量理由样例和大量无理由的数据集，不断提升模型的复杂推理能力。核心流程如下：通过小样本提示LLM生成回答的理由。如果生成的答案错误，给模型提供正确的答案，重新生成理由。将正确生成的理由加入到微调数据集。不断重复该过程。 1.2 StaR存在的问题 STaR 通过从问答中的少数例子中推断基...