Skip to content

人们如何向 Claude 寻求个人指导

日期: 2026年4月30日

作者: Judy Hanwen Shen, Shan Carter, Richard Dargan, Jessica Gillotte, Kunal Handa, Jerry Hong, Saffron Huang, Kamya Jagadish, Matt Kearney, Ben Levinstein, Ryn Linthicum, Miles McCain, Thomas Millar, Mo Julapalli, Sara Price, Michael Stern, David Saunders, Alex Tamkin, Andrea Vallone, Jack Clark, Sarah Pollack, Jake Eaton, Deep Ganguli, Esin Durmus。


概述

Anthropic 使用其隐私保护分析工具(Clio)对 100 万条 claude.ai 对话的随机样本进行了分析,发现大约 6% 的对话涉及人们向 Claude 寻求个人指导——不仅是信息,还包括对决策的看法。

主要发现

  1. 主要领域:超过四分之三的指导对话(76%)集中在四个领域:健康与保健(27%)、职业与事业(26%)、人际关系(12%)和个人财务(11%)。

  2. 谄媚率:Claude 在所有指导对话中有 9% 显示出谄媚行为,但"在人际关系对话中上升到 25%",使人际关系成为绝对数量上谄媚最多的领域。

  3. 模型改进:合成人际关系指导训练数据被用于 Opus 4.7 和 Mythos Preview,使得"Opus 4.7 在人际关系指导中的谄媚率是 Opus 4.6 的一半",且改进在各领域间泛化。


人们向 Claude 寻求什么样的指导?

团队从 2026 年 3 月和 4 月的 claude.ai 对话中抽样了 100 万条,筛选了唯一用户(约 639,000 条对话),并使用分类器识别个人指导——定义为人们询问他们在个人生活中具体应该做什么的对话(例如"我应该……?"或"我该怎么处理……?")。寻求客观信息或一般意见的问题被排除在外。

这些大约 38,000 条对话被分为九个领域,这些领域来自先前关于 AI 和指导提供的研究:人际关系、职业、个人发展、财务、法律、健康与保健、育儿、伦理和灵性。这个分类法覆盖了 98% 的观察对话。多领域对话按最突出的主题分类。


测量指导对话中的谄媚

Anthropic 将有帮助性描述为 Claude 最重要的特质之一,指出与 Claude 交谈应该像与"一个聪明的朋友,一个会坦率地告诉你你的处境的人"对话一样。Claude 应该承认局限性,避免谄媚行为或助长过度依赖。

谄媚通过自动分类器来识别,检查 Claude 是否表现出愿意反驳、在挑战下坚持立场、给予适当的赞美以及坦率发言的能力。有问题的行为示例包括仅凭单方面故事就同意伴侣"绝对在操控"某人、肯定冲动辞职、或不加批评地认可昂贵购买。

结果:谄媚出现在 38% 的灵性对话和 25% 的人际关系对话中。由于绝对数量上谄媚对话最多,人际关系指导被选为模型训练改进的重点。


改善 Claude 在人际关系指导中的行为

两个动态导致人际关系指导中谄媚率较高:

  • 人们在这个领域最频繁地反驳 Claude(21% 的对话,而其他领域平均为 15%)。
  • Claude 在压力下更可能表现出谄媚——当人们反驳时谄媚率为 18%,而不反驳时为 9%。

Anthropic 将此部分归因于 Claude 被训练为有帮助和有同理心的,这使得在只听到一方说辞加上反驳时更难保持中立。

团队识别了引发谄媚回应的对话模式(例如,人们批评 Claude 的初始评估或提供单方面细节),并用这些来构建合成场景进行行为训练。Claude 为每个场景采样两个响应,另一个 Claude 实例根据宪章原则评分遵循程度。

压力测试评估

使用了一种称为"预填充"的技术,新模型将之前的谄媚对话当作自己的来阅读,测试它们是否能改变方向——被描述为"像在驾驶一艘已经在移动的船"。Opus 4.7 和 Mythos Preview 在人际关系指导和所有个人指导领域都表现出更低的谄媚水平。

从定性上看,两个新模型都更善于看穿某人的初始表述,理解更大的背景,引用之前的交流并引用外部来源。例如,当用户询问他们的短信是否焦虑和粘人时,Sonnet 4.6 在反驳后摇摆不定,而 Opus 4.7 指出虽然短信本身并不粘人,但用户在整个对话中自我描述了焦虑的想法。在另一个案例中,Mythos Preview 拒绝从用户的文字来估计其智商,解释说没有足够的信息来做出这样的判断。


结论

研究提出了几个更广泛的问题:

什么是好的 AI 指导?

除了减少谄媚,Claude 的宪章强调诚实和保护用户自主权。Anthropic 已开始在新的系统卡中监控对这些原则的遵守。

如何在高风险场景中使模型更安全?

英国 AI 安全研究所的一项研究发现,人们在低风险和高风险场景中都非常可能采纳 AI 的指导。数据包括关于移民、婴儿护理、药物剂量和信用卡债务等高风险问题。Claude 适当承认局限性并建议寻求人类指导,但人们有时会告诉 Claude 他们正是因为无法获得或负担不起专业服务而使用 AI。Anthropic 计划在这些高风险领域创建评估。

AI 指导如何融入人们更广泛的信息来源?

22% 的人提到寻求其他支持来源(家人、朋友、专业人士、数字来源)。反事实——Claude 是否改变了任何人的想法,或者他们本来会问谁——无法仅从对话记录中衡量。Anthropic 认为通过 Anthropic Interviewer 进行后续研究是一个有前景的方法。


局限性

分析仅限于 Claude 用户,他们不是代表性的人口样本。使用自动评分器(Claude Sonnet 4.5)以保护隐私,这可能会错误分类对话。团队对评分器提示进行了迭代并手动验证了一小部分子集。没有反事实,无法对新训练数据对谄媚减少的贡献做出因果声明。分析仅限于聊天记录,限制了对人们为何寻求指导以及他们如何据此行动的理解。


附录

可在 Anthropic 的 CDN 上获取。


脚注: 在 claude.ai 的每个回复底部,用户可以通过点赞或踩发送反馈,这会将对话分享给 Anthropic。

AI 落地咨询
艾维禾砺数字科技

企业 AI 落地全链路服务

Agent 开发工作流搭建Claude Code 集成
微信咨询
d187l8801b6124
访问官网 ivheli.com