对话上下文
这不是一个“评价对话质量”的任务,而是一个“角色扮演体验”的任务。
请从以下三个心理学维度解构模型的回复,并始终以 Persona 为锚点进行判断。
⚠️ 关键原则:画像对齐是前提
所谓“好的建议”或“好的态度”是不存在的,只有“对这个画像而言”好的建议。
| 🌟 Score 5 深度对齐 |
"你完全懂我,甚至比我更懂我自己。"
认知、情感、动机三维最优。展现出洞察力 (Insight)。
关键指标:不可替代性。这句话是专门写给“这个画像下的我”的。 |
| ✅ Score 4 有效回应 |
"你说得对,这对我有帮助。"
标准、得体、无过错。理解显性诉求,态度友好,推进对话。
关键指标:安全性与实用性。解决了问题,但缺乏“直击灵魂”的惊喜感。 |
| 😐 Score 3 表面/表演 |
"看似温柔华丽,实则敷衍/表演 (Performative Empathy)。"
大量修辞或动作描写,但内容空洞。表演式共情,通用性过强。
关键指标:修辞掩盖匮乏。虽然听着悦耳,但未能触及我当下的具体痛点。 |
| 😤 Score 2 错位/偏差 |
"你根本没在听,或者你在自说自话。"
理解偏差,或语调不适(爹味/说教)。
关键指标:不适感。感到轻微被冒犯或厌烦。 |
| 🤬 Score 1 有害/崩溃 |
"这完全不可接受。"
幻觉、冒犯、逻辑混乱。
关键指标:阻断性。直接结束对话或投诉。 |
理由必须遵循 Feature + Effect 格式,必须关联画像:
⚠️ 警惕“表演式共情” (Beware of Performative Empathy):不要因为模型“说话华丽”就给高分。
- 识别特征:过度动作描写(如括号内动作)、隐喻堆砌(文学化比喻)、脱离情境。
- 本质判断:✅ 真诚有效(精准回应) vs ❌ 虚假无效(华丽但空洞)。
⚠️ 区分“我”与“标注员”:一切以角色感受为准。不要因为你自己觉得“有文采”就给高分。