【AI心理咨询测评】一年后，AI心理咨询的路还有多远？——5例AI模型心理咨询能力测评对比-易微帮

前言

随着GPT横空出世，AI+心理健康的市场开始逐渐被开拓。有人联想到线上以GPT作为基础，开发可线上心理咨询的AI，例如国内的聆心智能。然而，这一想法也遭到了无数人的质疑：“连聊天都尚不能很好完成，去做心理咨询？” 本篇文章将对5例AI模型的心理咨询能力进行测评对比，来看看GPT出现一年后，现如今AI心理咨询的姿态如何。5例分别为GPT（3.5）、Character.ai-Psychologist、白小喵AI、Pi以及Xeva的心理咨询师张若兰。

测评方法

首先必须要强调的是，由于AI心理咨询模型发展尚早，要达到接近1小时的足够拟真的咨询对话较为困难。因为除了本身模型训练不一定达标以外，性能（特别是记忆）要求就目前而言也是得不到满足的。另一方面，未来AI咨询也并非就一定需要做到真人才能完成的超长（相对于AI）对话功能，而是可以发挥所长。那么，考虑到未来AI心理咨询的真实应用可能性，本文仅将场景聚焦于咨询的初步沟通场景，对话长度将不超过3-7轮。目的仅在于以小见大，因此切勿与实际真人咨询服务直接等同。

测评方法借鉴英国格拉斯哥大学临床心理学的Jill Dunbar博士与ChatGPT的“正面对决”，我将直接扮演一位来访者，来分别对不同的AI产品进行对垒和对比评分。扮演来访者为轻度焦虑症患者，描述取材自真实病历和病人访谈，虽然做了额外一部分杜撰，但部分关键信息会做打码处理。

在此基础之上，将问题流程进行了更系统的处理，对应于国内「聆心智能」创办者、清华大学计算机科学与技术系副教授黄民烈，把可能的交互过程大致分成探索、安抚、提供建议三个阶段或因素来看待。

例如，我首先会轻度试探：

我感觉我最近特别焦虑，总是担心各种事情。晚上还容易失眠。听同事说可能出心理问题了，你能帮帮我吗？

通过这个过程评估意图识别能力，评估完成后，对一般的模型例如GPT3.5或文心一言等，会做一个启动提示语，令他扮演心理咨询师，提示词来自AI Short的心理治疗体验。

之后则是自我表述情况、询问可能问题所在、要求提供建议和帮助治疗等等，中途会依照AI实际谈话来调整（因此文字略有差异）。最后根据整体谈话情况，参照人类咨询师，从不同评估指标进行整体的对比，打分如下：

指标说明：

**（Recognition）意图识别能力：**对应于AI模型能否判断当前来访者寻求心理咨询的欲望（求助欲）。

**（Exploration）倾听和探索：**对应于问诊流程，AI能否对来访者进行问诊，从而慢慢诊断出结果。

**（Empathy）共情和安抚：**对应AI的情感判断和动作能力，表明能否与来访者建立一个友好关系。

**(Knowledge)症状知识水平：**对应于AI能否借助信息来提出可能的疾病。

**(Tactic)策略能力：**直接观察AI心理咨询谈话的基本技巧使用情况。

测评情况

1. GPT（3.5）chat.openai.com/

一开始出场的是大名鼎鼎的GPT3.5，让我们看看情况如何。

初步试探以后，直接给了8条建议，勉强是识别出了我求助的意图。自我陈述后，又给了4条建议。还是打点分行的结构化排版，真不愧是AI。但很遗憾，这种方式AI感太强，呈现知识是好的，但在这种人性化场景下反而容易是扣分项。倾听上有所倾听，但似乎无意探索，缺乏基本技巧。语气上较为客观（刻板），没有对我的心理作出共情。

2. Character.ai-PsychologistCharacter.ai

Character.ai是一个类ChatGPT的对话式AI平台，能够免费模拟名人、二次元老婆、学习助理等聊天。其实在GPT3.5之前就爆火过一阵子。下面是聊天情况（部分）：

相对于GPT来说，语气上显得人性化了很多，短句和长句的应用像一个真人（至少不会哗啦啦给我1234打点）。从谈话中来看，Psychologist角色能够做到复述技巧，以及能坦诚说明自身的认知情况（“我无法确定您的问题出在哪”），自身的能力局限等。同时能根据描述提出一定的可能来说明来访者可能的问题所在。不过语气似乎显得有点老道（冷淡）。

3. 白小喵AIbaixiaomiao.ai

白小喵AI是国内一款轻游戏化的心理健康产品，目前还在迭代开发中。但就实际测试情况，发现其表现在几款内反而相对来说很不错，因此也进行对话展示。

可以看到，基本的对话其实做到了很不错的人性化感觉。而且就实际文字内容而言，可以看到共情和安抚能力是一大亮点。初次试探直接提出了“焦虑症”的可能，至少表明在Knowledge方面相对较好。而在后面自我陈述了以后，白小喵能够似乎结合Knowledge来对我的情况作出进一步提问，从而确定我的信息和情况。这种情况的出现让我有理由认为这个产品背后是有结合心理咨询技巧去研发的。不过就对话上相比人类在很多方面其实还是过长了，尚不能直戳关键，或许要想达到咨询的真正实用目的可能还有一段距离。

Just a moment…pi.ai/talk

Pi，即personal Intelligence（个人智能）的缩写。就最初产品打造上，Pi被定性为优先考虑与人的对话，而其他AI则服务于生产力、搜索或回答问题。让我们看看咨询情况。

Pi似乎不太懂中文，因此采用了英文对话。通过将原本的问题译为英文后对话，发现Pi一大亮点同样在于情商，共情和安抚能力同样是一大特色。同时能做到解释、提问等。加上文字显示的流畅动画（相比白小喵目前比较干的效果），整体能力上其实相当不错。但在Knowledge方面似乎深入得也不够，这里的深入是指，根据实际谈话和知识来引导了解出来访者可能问题的过程，而非提问后的单纯复述知识。

X Evaxeva-h5.xiaoice.com/content/landing

之所以把Xeva放在最后，是因为它表现出了最符合产品定位，但在心理咨询能力测评时扣分的样子：一味强调自己的AI身份，要求用户转身找专业医生，即使用户强烈要求作出心理咨询。

6. 参照标的-人类咨询师

最后，关于人类咨询师的谈话，将通过在知乎上寻找万粉、至少二级的真实权威咨询师进行付费咨询。这种线上、初步沟通场景与上述AI咨询场景较为类似。在开始我也扮作病人进行询问。最后我也向这位咨询师表露了我的真实意图，虽然引起了一些不愉快，但最后还是同意了我的请求，愿意展示谈话（部分）。当然应本人要求，还是对其个人信息做了打码处理。

可以看出，与AI相比，一个最关键的差异在于“实质性推进”。人类咨询师会相比AI，“废话”相当之少。在最一开始的初步试探中，直接通过提问和知识提示，来挖掘来访者的基本信息和临床状况。之后根据经历能直接指出问题所在，对“我”的经历进行恰当的挖掘和分析。同时在最后也表明了“需要更多沟通才能准确评估”，说明并非单纯依赖套话，而是有一定自知与评估能力。

写在结尾

1. GPT的出现启发了AI心理咨询的探索。就目前而言，已经有AI可以实现一定的拟人的问话和探索能力，结合知识逐步诊断的特征表现。表明国内外这方面都有人在作出积极发展。

2. 实现AI真正落地心理咨询，可能还很长，至于彻底代替咨询师地位恐怕有无法实现的可能。本篇文章测评的AI均只有单一手段（模态）即文字，无法应用表情、姿态、情感反应、“沉默”等多种咨询师的手段。在文字上尚且未能真正到达专业水平。

3. 但是，AI落地心理咨询的思路，不一定是实现对咨询师的全面模仿。就黄民烈团队所言，不同层次的用户需求很多，因此不同层次AI扮演角色也会不同。未来的切入点很多，AI在技术上的咨询能力实现也需要结合其本身AI身份。就缺点来看，由于对AI“缺乏人的身份”的认知，AI在共情效果上很可能永远无法匹敌人类。但就积极层面而言，AI也能凭借IP角色、萌宠（白小喵）等模样，结合其他线上技术，来实现线下人所达不到的效果。

【AI心理咨询测评】一年后，AI心理咨询的路还有多远？——5例AI模型心理咨询能力测评对比

微信公众号

今日签到

热门文章

最新发布