数据不是软件:Anthropic 如何用 Claude 实现自助式数据分析
最近 Anthropic 发布了一篇很值得数据团队和 Agent 团队阅读的文章:《How Anthropic enables self-service data analytics with Claude》。文章讨论的不是“Claude 会不会写 SQL”,而是一个更现实的问题:当企业希望让业务人员直接通过自然语言查询数据时,如何保证 Agent 给出的答案是准确、可治理、可追溯的。
Anthropic 在文中披露,他们内部约 95% 的业务分析查询已经由 Claude 自动化完成,整体准确率约 95%。这让数据科学团队可以从大量重复的临时分析请求中解放出来,把更多精力放在因果建模、预测、机器学习等更高价值工作上。(Claude)
这篇文章最有价值的一点,是它没有把自助式数据分析简单归结为“让大模型生成 SQL”。Anthropic 的核心判断是:分析型 Agent 的准确性,本质上是上下文、数据治理和验证问题,而不是代码生成问题。(Claude)
一、为什么说“数据不是软件”
Anthropic 在文章中提出了一个非常关键的判断:Data is not software,数据不是软 ...
Skill 优化与生命周期管理
Skill 优化与生命周期管理
基于 Anthropic 官方 skill-creator 方法论及 Skill Authoring Best Practices 整理。本文聚焦 Skill 生命周期管理框架与迭代优化实践——如何规划、评估、改进和长期维护 Skill。
1. 生命周期全景
1.1 Skill 是持续优化对象,不是一次性文档
Skill 不是写完即交付的静态说明书,而是需要持续迭代的工程产物。原始方法论强调:先出草稿、跑测试、让用户看结果、再重写 Skill,反复循环——而不是"写完就上线"。
把 Skill 视为需要管理的生命周期对象,核心收益是:
每次改进有据可查、可回溯
质量和效率可量化对比
触发准确率可以独立优化
1.2 生命周期七阶段
一个完整的 Skill 生命周期包含七个阶段:
明确目标与触发场景 — 这个 Skill 要解决什么问题?用户在什么情况下需要它?
写出第一版 Skill — 先写对触发(description),再写好执行(正文步骤)
设计测试提示词 — 准备真实用户场景的 eval pr ...
Skill 构建完整最佳实践
基于《The Complete Guide to Building Skills for Claude》及 Skill Authoring Best Practices 整理。本文面向手动编写 Skill 的开发者——你直接写 SKILL.md、手动测试、手动迭代,涵盖 YAML frontmatter、正文写作、目录结构、分发共享等完整知识。
1. 一句话理解 Skill
Skill 是一组以文件夹形式打包的指令、流程与附加资源,用来教 Agent 在特定任务上稳定地采取正确步骤、调用正确工具、输出符合预期结果。
适合可重复、可标准化的任务
不是一次性 prompt,而是可复用工作方式
可独立使用,也可与 MCP 配合
2. 标准结构
12345your-skill-name/├── SKILL.md├── scripts/├── references/└── assets/
关键规则:
SKILL.md 文件名必须完全一致
文件夹名使用 kebab-case
skill 文件夹内部不要放 README.md
分层装载(Progressive ...
HPC系统中基于粗粒度聚类和细粒度模型共享的有效节点级异常检测
摘要
高性能计算 (HPC) 系统对于科学进步和工程突破至关重要。意外的性能下降或系统故障可能会严重影响这些工作。本文介绍了 NodeSentry,这是一种为大规模 HPC 系统的计算节点量身定制的新型无监督异常检测框架。NodeSentry 利用粗粒度聚类和细粒度模型共享的组合方法,有效应对现代 HPC 部署特有的大规模节点规模、频繁的作业转换和复杂模式所带来的挑战。对两个真实世界 HPC 数据集的评估表明 NodeSentry 具有卓越的性能,实现了超过 0.876 的 F1 分数。这比现有的最佳基线方法平均提高了 0.560,同时将训练开销平均降低了 45.69%。此外,为了提高可重复性并为更广泛的研究社区做出贡献,我们开源了 NodeSentry 的代码库,并引入了专为 HPC 系统设计的新型聚类调整和异常标记工具。
1. 导语
高性能计算 (HPC) 系统在社会和科学领域的各种数据密集型应用中发挥着至关重要的作用,例如天气预报、特效渲染和航空航天 [4]。这些系统通常由大量计算节点组成,这些节点通过高带宽、低延迟网络互连,形成集群或超级计算机 [8]。每个节点(在本文中我 ...
RUAD:HPC系统中无监督的异常检测
摘要
现代高性能计算(HPC)系统的复杂性日益增加,需要引入自动化和数据驱动的方法,以支持系统管理员为增加系统可用性的努力。异常检测是改善可用性不可或缺的一部分,因为它减轻了系统管理员的负担,并减少了异常和解决方案之间的时间。但是,对当前的最新(SOA)检测方法进行了监督和半监督,因此它们需要具有异常的人体标签数据集 - 在生产HPC系统中收集通常是不切实际的。基于聚类的无监督异常检测方法,旨在减轻准确的异常数据的需求,到目前为止的性能差。在这项工作中,我们通过提出RUAD来克服这些局限性,RUAD是一种新型的无监督异常检测模型。 Ruad比当前的半监督和无监督的SOA方法取得了更好的结果。这是通过考虑数据中的时间依赖性以及在模型体系结构中包括长期术语记忆单元的实现。对拟议的方法进行了评估,以完整的tier-0系统历史记录(来自Cineca,带有980个节点的Marconi100)。 RUAD在半监督训练中达到曲线(AUC)下的面积为0.763,在无监督的训练中达到了0.767的AUC,这改善了SOA方法,在半监督训练中达到0.747的AUC,在无训练的训练中,AUC的AUC为0.74 ...
Quiet-STaR:让语言模型在“说话”前思考
Quiet-STaR:让语言模型在“说话”前思考
论文: [arxiv 2403.09629]Quiet-STaR- Language Models Can Teach Themselves to Think Before Speaking(Stanford 2024)
1. 背景
1.1 CoT与StaR
通过生成中间推理步骤(rationale),可以显著提高大型语言模型(LLM)在复杂推理任务(如数学、常识性问答)中的表现。比如“思维链”,但是它需要构建大量基本原理(思考过程)数据集,或者需要使用牺牲准确性的few-shot方式。
"Self-Taught Reasoner" (STaR) 自学推理机 技术采用了一种迭代自我增强的策略,利用少量理由样例和大量无理由的数据集,不断提升模型的复杂推理能力。核心流程如下:
通过小样本提示LLM生成回答的理由。
如果生成的答案错误,给模型提供正确的答案,重新生成理由。
将正确生成的理由加入到微调数据集。
不断重复该过程。
1.2 StaR存在的问题
STaR 通过从问答中的少数例子中推断基本原理 ...
机器学习笔记——EM算法
EM(期望最大,Expectation-Maximization)算法是一种常用的迭代优化算法,通常用于含有隐变量或不完全数据的问题中,旨在估计模型的参数,使得对观测数据的对数似然函数达到最大化。它广泛应用于混合高斯模型(GMM)、隐马尔可夫模型(HMM)、协同过滤等问题中。
EM算法的基本思想
EM 算法通过迭代地执行两个步骤:
E 步(期望步,Expectation Step):在当前参数的基础上,计算隐含变量的期望值。
M 步(最大化步,Maximization Step):给定隐含变量的期望值,最大化似然函数,重新估计模型参数。
这个过程会在 E 步和 M 步之间反复迭代,直到模型的参数收敛到一个局部最优解。
EM算法的核心步骤
假设我们有一些带有隐变量的数据,数据的联合分布为 P(X,Z∣θ),其中:
X 是观测数据(可见数据)。
Z 是隐变量(隐藏数据)。
θ 是模型的参数,我们希望通过 EM 算法来估计这些参数。
EM 算法的目标是通过最大化对观测数据的似然函数来估计参数:
L(θ)=P(X∣θ)=Z∑P(X,Z∣θ)L(θ)=P(X∣θ)= ...
Tree Of Thoughts 解读
1. 思维链(Chain Of Thought)
要介绍ToT,首先要介绍下大名鼎鼎的CoT,也就是思维链(Chain Of Thought)。
思维链属于**提示词工程(Prompt Engineering)**的一种,其主要思想是通过向大语言模型展示一些少量的样例,在样例中将多步问题分解为中间步骤,通过中间步骤得出最终答案。大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。CoT提示作为一种简单机制,成功引出大型语言模型中的多步推理行为,并在不同任务上表现出强大的性能提升。
我们使用喜闻乐见的一个比大小的例子来测试思维链的做作用。众所周知,强如gpt4这样的模型,面对如11.3和11.11谁更大这种问题时也会出现错误。(当前版本已经被修复了,先前同样的问题得到的答案是11.11>11.3)
有人分析说其出现的原因是xx.yy这样的数字默认情况下被分词器拆分成了xx,.和yy三个不同的token,而没有当成一个整体。如果我们使用思维链来构建这个问题,就变成了下面的情况:
很显然模型根据给出的few-shot提示推理得到了正确的答案,在prom ...
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
思维树:用大型语言模型深思熟虑地解决问题
摘要
语言模型越来越多地被用于跨广泛任务的一般问题解决,但在推理过程中仍然局限于令牌级别的、从左到右的决策过程。这意味着他们可能在需要探索的任务、战略前瞻或初始决策起关键作用的任务中落空。为了克服这些挑战,我们引入了一种新的语言模型推理框架- - "思维树" ( Tree of Thoughts,ToT ),它推广了流行的"思维链" ( Chain of Thoughts )方法来促进语言模型,并允许对文本( "思想")的连贯单元进行探索,作为问题解决的中间步骤。ToT允许LM进行深思熟虑的决策,通过考虑多条不同的推理路径和自我评估的选择来决定下一步的行动方向,并在必要时进行前瞻或回溯以做出全局选择。我们的实验表明,ToT显著提高了语言模型在3个需要非平凡计划或搜索的新颖任务上的问题解决能力:游戏24、创意写作和微型填字游戏。例如,在第24局的比赛中,有思维链提示的GPT-4只解决了4%的任务,而我们的方法取得了74%的成功率。所有提示的代码:https://github.com/ys ...
LLaVA 与ollama+open webui部署实战
1. Paper
LLaVA: Visual Instruction Tuning(https://arxiv.org/abs/2304.08485)
LLaVA(Large Language and Vision Assistant, github: https://github.com/haotian-liu/LLaVA)是一种将视觉和语言模型结合起来的多模态模型。LLaVA主要通过视觉指令调优(Visual Instruction Tuning)来实现模型的训练和优化。
1.1 模型架构
LLaVA的主要目标是有效地利用预训练LLM模型和视觉模型的能力,模型架构如图,其使用 Vicuna 作为 𝜙 参数化的LLM 𝑓𝜙(⋅),因为Vicuna的checkpoint具有最好的语言任务指令跟踪能力。
对于输入图像 𝐗v𝐗_vXv ,LLaVA使用预训练的 CLIP 视觉编码器 ViT-L/14 ,它提供了视觉特征 $𝐙_v=𝑔(𝐗_v) $。考虑到最后一个 Transformer 层之前和之后的网格特征,LLaVA使用了一个简单的线性层,将图像特征连接到词嵌入空间 ...





