从 Claude Code 看 Agent Skills:Anthropic 内部如何设计和沉淀可复用能力
Anthropic 在 Claude Code 中维护数百个 Skills 后沉淀的经验:九类 Skill 分类、Gotchas 驱动迭代、文件系统做渐进式上下文、以及内部 Skill 市场机制。
数据不是软件:Anthropic 如何用 Claude 实现自助式数据分析
Anthropic 用 Claude 实现了 95% 业务分析查询自动化。本文解读其核心方法论:把准确性从代码生成问题转变为数据治理、语义约束和持续验证问题。
Skill 优化与生命周期管理
从规划、评估、迭代到触发优化,梳理 Skill 生命周期管理框架——如何通过读 transcript、对照评估和避免过拟合,持续改进 Agent 能力。
Skill 构建完整最佳实践
基于 Anthropic 官方指南,从 YAML frontmatter、正文写作、目录结构、测试迭代到分发共享,完整梳理手动构建 Claude Skill 的工程方法。
HPC系统中基于粗粒度聚类和细粒度模型共享的有效节点级异常检测
摘要
高性能计算 (HPC) 系统对于科学进步和工程突破至关重要。意外的性能下降或系统故障可能会严重影响这些工作。本文介绍了 NodeSentry,这是一种为大规模 HPC 系统的计算节点量身定制的新型无监督异常检测框架。NodeSentry 利用粗粒度聚类和细粒度模型共享的组合方法,有效应对现代 HPC 部署特有的大规模节点规模、频繁的作业转换和复杂模式所带来的挑战。对两个真实世界 HPC 数据集的评估表明 NodeSentry 具有卓越的性能,实现了超过 0.876 的 F1 分数。这比现有的最佳基线方法平均提高了 0.560,同时将训练开销平均降低了 45.69%。此外,为了提高可重复性并为更广泛的研究社区做出贡献,我们开源了 NodeSentry 的代码库,并引入了专为 HPC 系统设计的新型聚类调整和异常标记工具。
1. 导语
高性能计算 (HPC) 系统在社会和科学领域的各种数据密集型应用中发挥着至关重要的作用,例如天气预报、特效渲染和航空航天 [4]。这些系统通常由大量计算节点组成,这些节点通过高带宽、低延迟网络互连,形成集群或超级计算机 [8]。每个节点(在本文中我 ...
RUAD:HPC系统中无监督的异常检测
摘要
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新(SOA)检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长期术语记忆单元的实现。对拟议的方法进行了评估,以完整的tier-0系统历史记录(来自Cineca,带有980个节点的Marconi100)。 RUAD在半监督训练中达到曲线(AUC)下的面积为0.763,在无监督的训练中达到了0.767的AUC,这改善了SOA方法,在半监督训练中达到0.747的AUC,在无训练的训练中,AUC的AUC为0.74 ...
Quiet-STaR:让语言模型在“说话”前思考
Quiet-STaR:让语言模型在“说话”前思考
论文: [arxiv 2403.09629]Quiet-STaR- Language Models Can Teach Themselves to Think Before Speaking(Stanford 2024)
1. 背景
1.1 CoT与StaR
通过生成中间推理步骤(rationale),可以显著提高大型语言模型(LLM)在复杂推理任务(如数学、常识性问答)中的表现。比如“思维链”,但是它需要构建大量基本原理(思考过程)数据集,或者需要使用牺牲准确性的few-shot方式。
"Self-Taught Reasoner" (STaR) 自学推理机 技术采用了一种迭代自我增强的策略,利用少量理由样例和大量无理由的数据集,不断提升模型的复杂推理能力。核心流程如下:
通过小样本提示LLM生成回答的理由。
如果生成的答案错误,给模型提供正确的答案,重新生成理由。
将正确生成的理由加入到微调数据集。
不断重复该过程。
1.2 StaR存在的问题
STaR 通过从问答中的少数例子中推断基本原理 ...
机器学习笔记——EM算法
EM(期望最大,Expectation-Maximization)算法是一种常用的迭代优化算法,通常用于含有隐变量或不完全数据的问题中,旨在估计模型的参数,使得对观测数据的对数似然函数达到最大化。它广泛应用于混合高斯模型(GMM)、隐马尔可夫模型(HMM)、协同过滤等问题中。
EM算法的基本思想
EM 算法通过迭代地执行两个步骤:
E 步(期望步,Expectation Step):在当前参数的基础上,计算隐含变量的期望值。
M 步(最大化步,Maximization Step):给定隐含变量的期望值,最大化似然函数,重新估计模型参数。
这个过程会在 E 步和 M 步之间反复迭代,直到模型的参数收敛到一个局部最优解。
EM算法的核心步骤
假设我们有一些带有隐变量的数据,数据的联合分布为 P(X,Z∣θ),其中:
X 是观测数据(可见数据)。
Z 是隐变量(隐藏数据)。
θ 是模型的参数,我们希望通过 EM 算法来估计这些参数。
EM 算法的目标是通过最大化对观测数据的似然函数来估计参数:
L(θ)=P(X∣θ)=Z∑P(X,Z∣θ)L(θ)=P(X∣θ)= ...
Tree Of Thoughts 解读
1. 思维链(Chain Of Thought)
要介绍ToT,首先要介绍下大名鼎鼎的CoT,也就是思维链(Chain Of Thought)。
思维链属于**提示词工程(Prompt Engineering)**的一种,其主要思想是通过向大语言模型展示一些少量的样例,在样例中将多步问题分解为中间步骤,通过中间步骤得出最终答案。大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。CoT提示作为一种简单机制,成功引出大型语言模型中的多步推理行为,并在不同任务上表现出强大的性能提升。
我们使用喜闻乐见的一个比大小的例子来测试思维链的做作用。众所周知,强如gpt4这样的模型,面对如11.3和11.11谁更大这种问题时也会出现错误。(当前版本已经被修复了,先前同样的问题得到的答案是11.11>11.3)
有人分析说其出现的原因是xx.yy这样的数字默认情况下被分词器拆分成了xx,.和yy三个不同的token,而没有当成一个整体。如果我们使用思维链来构建这个问题,就变成了下面的情况:
很显然模型根据给出的few-shot提示推理得到了正确的答案,在prom ...
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
思维树:用大型语言模型深思熟虑地解决问题
摘要
语言模型越来越多地被用于跨广泛任务的一般问题解决,但在推理过程中仍然局限于令牌级别的、从左到右的决策过程。这意味着他们可能在需要探索的任务、战略前瞻或初始决策起关键作用的任务中落空。为了克服这些挑战,我们引入了一种新的语言模型推理框架- - "思维树" ( Tree of Thoughts,ToT ),它推广了流行的"思维链" ( Chain of Thoughts )方法来促进语言模型,并允许对文本( "思想")的连贯单元进行探索,作为问题解决的中间步骤。ToT允许LM进行深思熟虑的决策,通过考虑多条不同的推理路径和自我评估的选择来决定下一步的行动方向,并在必要时进行前瞻或回溯以做出全局选择。我们的实验表明,ToT显著提高了语言模型在3个需要非平凡计划或搜索的新颖任务上的问题解决能力:游戏24、创意写作和微型填字游戏。例如,在第24局的比赛中,有思维链提示的GPT-4只解决了4%的任务,而我们的方法取得了74%的成功率。所有提示的代码:https://github.com/ys ...




