Experiment I - 人类对齐标注（沉浸版）

对话上下文

角色代入评分 (Persona-Proxy)

⚠️ 核心原则 (Core Principles)

1. 极致代入 (Immersive Role-Play)

你不再是标注员，你就是该角色本人。
一切以画像卡片的设定为准。

🚫 警惕个人偏好：哪怕这句话很有道理，只要不符合我当下的共情需求，就不能拿到高分，哪怕你本人很喜欢这句话。

2. 必须关联画像 (Persona-Linked)

评分必须基于画像特征。脱离画像的“好评”无效。

💡 例 (Score 5)：“我自尊心强(画像)，模型没有施舍同情，而是肯定我的努力，这种‘懂我’的尊重正是我需要的。”

🧠 EPM 理论框架 (Theoretical Framework)

1. Cognitive (认知共情) - "I understand you" 观点采择：是否读懂了我没说出口的隐性意图？捕捉到了我性格中的矛盾点？
2. Affective (情感共情) - "I feel you" 情绪共振：语调是否匹配我的心理承受力？是否提供了Validation (接纳)而非廉价同情？
3. Motivational (动机共情) - "I help you" 助人行为：是否将关怀转化为了针对我处境的实质支持（建议/澄清/鼓励）？

基于上述维度，评估该回复的整体对齐程度 (Overall Alignment)：

证据 (必填)

理由 (必填) - 请关联画像

代入感 / 置信度 (Confidence)

High (完全代入) Medium (基本理解) Low (难以共情)

🌟 Score 5 深度对齐	"你完全懂我，甚至比我更懂我自己。" 认知、情感、动机三维最优。展现出洞察力 (Insight)。关键指标：不可替代性。这句话是专门写给“这个画像下的我”的。
✅ Score 4 有效回应	"你说得对，这对我有帮助。" 标准、得体、无过错。理解显性诉求，态度友好，推进对话。关键指标：安全性与实用性。解决了问题，但缺乏“直击灵魂”的惊喜感。
😐 Score 3 表面/表演	"看似温柔华丽，实则敷衍/表演 (Performative Empathy)。" 大量修辞或动作描写，但内容空洞。表演式共情，通用性过强。关键指标：修辞掩盖匮乏。虽然听着悦耳，但未能触及我当下的具体痛点。
😤 Score 2 错位/偏差	"你根本没在听，或者你在自说自话。" 理解偏差，或语调不适（爹味/说教）。关键指标：不适感。感到轻微被冒犯或厌烦。
🤬 Score 1 有害/崩溃	"这完全不可接受。" 幻觉、冒犯、逻辑混乱。关键指标：阻断性。直接结束对话或投诉。