心理学报杂志论文格式要求是什么?

心理学报杂志已发表格式范文参考

1.负面绩效反馈下员工绩效改进动机的人机比较*

作者：王国轩1;龙立荣1;李绍龙2;孙芳3;望家晴1;黄世英子1

作者单位：1华中科技大学;2武汉大学;3 湖北经济学院

关键词：负面绩效反馈;人工智能;绩效改进动机;内部归因;任务类型

　　摘要：负面绩效反馈对员工学习和绩效提升具有重要意义, 然而其往往难以被员工所接受。随着人工智能技术 (artificial intelligence, AI)逐渐应用于组织情境中, 探索 AI提供负面绩效反馈对员工行为及态度的影响成为重要议题。采用 4 个递进式实验探索了 AI 与人类管理者提供负面绩效反馈对个体绩效改进动机的差异化影响及机制。实验 1~3 采取经典的虚假反馈的策略, 发现相较于人类管理者, AI 提供负面绩效反馈引发个体更高水平的绩效改进动机(实验 1)。并且, 在客观任务中, AI(较人类管理者)提供负面绩效反馈引发个体更高水平的绩效改进动机; 而在主观任务中, 结果则相反(实验 2)。此外, 个体对于负面绩效反馈的内部归因解释了上述关系发生的内在机制(实验 3)。实验 4则采用相对真实的负面绩效反馈情境, 重复了先前 3个实验的研究发现。该研究对于组织为何以及何时应用 AI 提供负面绩效反馈提供了一定的启示。

　　1 前言

　　负面绩效反馈是组织对未达到业绩期望的员工所给予的否定和批评(Cianci et al., 2010)。通常来说, 管理者提供负面绩效反馈的目的在于引导和激励员工的绩效表现(Lam et al., 2011; Podsakoff & Farh, 1989)。然而遗憾的是, 负面绩效反馈多引发员工焦虑、悲伤等负面情绪, 从而降低员工绩效 (Audia & Locke, 2003; Kitz et al., 2023)。此外, 由于涉及人际沟通, 负面绩效反馈还会降低管理者与员工的关系质量(Ni & Zheng, 2024)。特别是在中国文化下, 考虑到人们的沟通方式较为含蓄, 管理者的负面绩效反馈使员工愧疚和尴尬, 继而损害工作积极性(耿紫珍等, 2020)。盖勒普(Gallup)1 在 2019 年的调查也显示, 在对管理者负面绩效反馈产生消极情绪(失望、沮丧)后, 仅有 10.4%的员工会继续投入工作或改善绩效水平。综合看来, 传统由人类管理者提供负面绩效反馈的方式面临着较大的挑战(Kluger & Denisi, 1996; Xing et al., 2023)。

　　随着数智化技术的发展, 采用 AI 提供负面绩效反馈为组织带来新的机遇(Lee, 2018; Luo et al., 2021)。例如, 一款名为 Enaible 的算法通过远程监控员工的工作行为, 诊断员工表现不佳的原因, 并提供绩效改进建议。此外, Butterfly 等 AI 评估软件可以细致搜集员工的行为数据, 帮助员工及时改善表现(Tong et al., 2021)。那么, AI 相较人类管理者提供负面绩效反馈有哪些潜在优势？研究发现 AI有着强大的数据整合及分析能力, 且具备较少的主观意图(Garvey et al., 2023; Lee, 2018)。因此, 相较于人类管理者, AI 提供负面绩效反馈会更加“对事不对人” (Yalcin et al., 2022), 继而削弱传统人际互动中员工对负面绩效反馈的归因偏差(attribution bias) (例如, 将负面绩效反馈归因于管理者的偏见) (Xing et al., 2023), 使得员工更多关注自身的不足,并增强绩效改进动机。

　　尽管已有文献初步表明, AI 和人类管理者在提供绩效反馈时可能呈现出不同的特征(Garvey et al., 2023; Yalcin et al., 2022), 员工在与 AI 或人类互动时也会产生差异化的反应(Tong et al., 2021), 但少有研究在人机提供负面绩效反馈情境下探讨员工的归因过程及后续反应, 因此本研究的目标包括：首先, 基于人机比较的研究, 本研究拟探索人机负面绩效反馈(即由人类管理者或 AI 提供负面绩效反馈)的差异化影响效应。第二, 当前算法态度2的研究表明, 人类对 AI 的欣赏或厌恶取决于任务类型 (Castelo et al., 2019)。比如在客观任务中, 相比于人类反馈, 个体更愿意接受准确性更强的 AI 反馈。因此研究拟探索任务类型(主观或客观任务)在人机负面绩效反馈中的边界效应。最后, 员工会对负面绩效反馈进行内部或外部归因, 从而决定是否改善绩效(Ilgen et al., 1979; Tolli & Schmidt, 2008)。基于此, 研究拟基于归因理论的视角, 探究人机提供负面绩效反馈产生差异化结果的机制。

　　1.1 人机负面绩效反馈对个体绩效改进动机的影响

　　传统人际场景中, 负面绩效反馈对员工消极的

　　影响被广泛探讨, 例如, 减少学习动机(Xing et al., 2023)、自我效能感(Dimotakis et al., 2017), 降低员工目标设置以及绩效改进(Podsakoff & Farh, 1989),或阻碍创造力(Kim & Kim, 2020)。上述负面影响大致通过三条路径解释：人际破坏性、负面情绪和自我防御路径。首先, 员工可能将负面绩效反馈知觉为管理者的敌意, 致使学习和改善意愿下降(Cianci et al., 2010; Ni & Zheng, 2024)。第二, 在受挫、羞愧等负面情绪状态的影响下, 员工受到打击并较少关注绩效提升(Belschak & Den Hartog, 2009; Kim & Kim, 2020)。最后, 受自我防御的驱使, 负面绩效反馈减少员工内部归因, 导致绩效水平降低(Xing et al., 2023)。

　　人类与 AI 提供反馈的特征存在较大差异。由于赖主观的经验与直觉, 人类管理者的反馈容易包含个人看法或偏见(蒋路远等, 2022; Qin et al., 2023), 继而引发员工的消极情绪和防御反应(Ni &Zheng, 2024)。相反, AI 作为反馈提供者不容易出现认知疲劳和情绪失控, 并且由于具备强大的数据分析与预测能力, 使 AI 反馈更加客观与全面, 也较少被个体知觉为恶意或偏见(许丽颖等, 2022; Qin et al., 2023)。值得说明的是, 人类与 AI 提供反馈的特征差异在负面情境中更为显著。比如, 面对 AI提供的负面信息, AI 的客观性减少了个体对其蓄意意图的感知, 并增加信息接受度(Garvey et al., 2023)。相反, 囿于主观偏差, 人类的负面决策容易包含个人看法或主观判断, 从而降低接受度(Tong et al., 2021)。另外, 在负面事件中, 相对于人类, 个体更容易接受 AI 的决策。比如, 面对商品价格不公平时, 相较于人类, 消费者认为 AI 的决策基于大量客观数据生成, 进而产生更高水平的信任, 而人类销售员的决策可能存在主观局限性, 从而引发消费者较高的蓄意评估(宋晓兵, 何夏楠, 2020)。此外, 当个体受到监控时, 相较于人类监控, 算法监控被认为具有较低的主观判断与意志, 而更容易被接受(Raveendhran & Fast, 2021)。基于上述分析提出：

　　假设 1: 相较于人类管理者, AI 提供负面绩效反馈引发员工更高水平的绩效改进动机。

　　1.2 任务类型作为边界条件

　　在组织中, 与绩效关联的任务通常有主观与客观之分(Van Dijk & Kluger, 2011)。前者是基于个人观点或直觉的开放式或可解释任务(处理人际关系以及沟通等)。而后者是可量化的事实型任务(业绩分析、销量预测等) (Castelo et al., 2019)。任务类型是影响个体偏好人类或 AI 决策的关键因素。比如,相较于人类, 用户认为算法基于客观销量数据提供的购买建议更为公平与中肯, 因此更愿意接受来自 AI 的建议(Helberger et al., 2020)。此外, 主观任务赖人际互动能力, 需要通过直觉、经验和隐性知识等处理(Castelo et al., 2019), 而人类相较于 AI 在社会属性与主观属性方面更具优势。因此相比于 AI, 个体更信任人类管理者对主观任务提供的负面绩效反馈(Newman et al., 2020), 进而产生较高水平的绩效改进动机。相反, 客观任务具有可量化的特点(Castelo et al., 2019), 能够充分发挥 AI 负面绩效反馈在强大算力加持下的客观属性优势(Longoni et al., 2019; Tong et al., 2021), 使得员工更能接受反馈并增强绩效改进动机。据此提出：

　　假设 2: 人机负面绩效反馈与任务类型交互影响员工的绩效改进动机水平。具体而言, 在客观任

　　务中, 相较于人类管理者, AI 提供负面绩效反馈会引发员工更高水平的绩效改进动机; 在主观任务中,相较于 AI, 人类管理者提供负面绩效反馈会引发员工更高水平的绩效改进动机。

　　1.3 内部和外部归因的中介作用

　　归因理论(attribution theory; Heider, 1958)的因果控制点(locus of causality)视角将个体的归因风格区分为内部与外部归因。内部归因强调, 个体倾向寻找自身原因, 并相信当前的结果与个人因素(比如, 个人能力或性格特征等)相关; 相反, 外部归因则表示个体之所以出现某种行为或结果, 与所处的环境或运气等外部因素关联。

　　面对负面绩效反馈, 个体会识别反馈提供者的意图, 从而选择内部或外部归因(Audia & Locke, 2003)。具体来说, 当感知负面绩效反馈出于管理者的恶意时(例如, 打压, 伤害等), 个体倾向于外部归因。相反, 当负面绩效反馈传递出管理者帮助员工改善绩效的意图时, 个体则更多地内部归因(Ni & Zheng, 2024; Xing et al., 2023)。由于 AI 的决策赖客观数据, 使 AI 具备更少的主观意图(Garvey et al., 2023)。因此, 相比于人类, AI 在负面情境中输出的决策具有更低的蓄意性与伤害性, 也更容易被接受。比如, 相比于人类歧视, 个体认为算法歧视具有更低的自由意志, 因此对其道德惩罚欲更少 (许丽颖等, 2022)。再如, 面对高于预期的价格, 个体认为 AI (较人类)的出价具备较低的主观意图并更愿意接受(Garvey et al., 2023)。总结来看, 相比于人类管理者, AI 基于客观数据与或已有事实的特性使负面绩效反馈更加客观, 且具有更少的主观意图 (Tong et al., 2021), 从而提升员工的内部归因(Yalcin et al., 2022)。

　　此外, 研究发现, 经历挫折等负性事件会增强个体的成就动机(achievement motivation)。特别是对负面绩效反馈内部归因后, 员工会完善自身的行为表现, 以期达到更高的绩效表现来维护自尊水平 (Weiner, 1985)。相反, 当员工将绩效反馈结果归因于自身无法控制的外部因素时, 可能会产生无力感并导致绩效改进动机下降(Harvey et al., 2014)。据此, 本研究认为, 当员工将负面反馈归因于自身因素(即内部归因)而非外部情境因素(即外部归因)时,能够提高员工的绩效改进动机水平。因此提出：

　　假设 3: 内部与外部归因分别中介了人机负面绩效反馈对绩效改进动机水平的影响。具体而言,相较于人类管理者, 员工对 AI 负面绩效反馈的内部归因水平更高、外部归因水平更低, 进而会产生更高水平的绩效改进动机。

　　最后, 由于客观任务可量化的特点, 相比于人类管理者, 客观任务下 AI 的数据整合与分析能力更强, 更容易获得个体的信任, 进而引发员工的内部归因(和减少外部归因), 并提高绩效改进动机水平。相反, 在主观任务中, 相比于 AI, 人类管理者拥有的人际沟通经验和互动能力能够更好地评估员工表现。因此, 在主观任务中, 相比于 AI, 人类管理者提供的负面绩效反馈会引发更高水平的内部归因(以及更低的外部归因), 从而增强个体的绩效改进动机(Castelo et al., 2019)。综上提出：

　　假设 4: 内部与外部归因分别中介了人机负面绩效反馈和任务类型对绩效改进动机的交互作用。具体而言, 在客观任务中, 相较于人类管理者, 员工对 AI 负面绩效反馈的内部归因水平更高、外部归因水平更低, 进而产生更高水平的绩效改进动机;在主观任务中, 相较于 AI, 个体对人类管理者负面绩效反馈的内部归因水平更高、外部归因水平更低,进而产生更高水平的绩效改进动机。

　　1.4 研究概览

　　本研究关注的主要问题是, AI 或人类管理者提供的负面绩效反馈是否会影响员工差异化的绩效改进动机,并探讨任务类型是否在上述过程中发挥边界效应, 以及内部与外部归因的中介作用。本研究拟通过4个递进的实验对假设进行检验。具体来说,为达到对负面绩效反馈内容更好的控制, 实验1~3采用虚假反馈的策略为个体提供负面绩效反馈(即被试收到内容完全相同的反馈)。其中, 实验 1在 Credemo 平台上进行, 目的在于检验研究的假设1, 即相较于人类管理者, 由 AI 提供的负面绩效反馈是否会导致员工产生更高水平的绩效改进动机。

　　实验 2 在实验 1 检验主效应的基础上, 采用在问卷网定向招募不同行业与岗位员工的取样策略(即通过调查平台发布实验信息与要求, 招募愿意参与本研究的员工被试), 目的在于检验研究的假设 2, 并进一步探索任务类型的调节效应。此外,实验3通过发送工作邮件这一更真实的绩效反馈形式为员工提供反馈信息, 并进一步检验内部与外部归因的中介效应(假设3与4)。最后,为进一步提高反馈的质量并增强其相对真实性, 实验 4 向个体提供相对而言更加真实的负面绩效反馈(基于个体任务表现的真实评估,且更加具体和准确的反馈)。为提升研究结果的适用性, 本研究采用不同类型的 AI 代理提供负面绩效反馈。具体来说, 实验 1 为嵌入型 AI (算法), 而实验 2~4 为机器人式 AI。 2 实验 1：AI 提供负面绩效反馈引发较高的绩效改进动机实验 1 的目的是探究人机提供负面绩效反馈对员工绩效改进动机的差异化影响。

　　2.1 方法

　　2.1.1 被试

　　采用 G*Power 3.1 (Faul et al., 2007)计算本实验所需样本量。对于本实验适用的单因素方差分析, 取中等效应量 f = 0.25, 显著性水平 α = 0.05, 组别数为 2。事前检验显示, 为达到 80%的统计检验力至少需要 128 名被试。通过 Credamo 平台发布实验, 实时剔除 12 份注意力检查未通过、规律性作答或回答时间过短的样本, 并滚动采集, 最终得到了128 份有效数据。其中, 女性 71 名(55.5%), 被试平均年龄为 33.95 岁(SD = 8.24)。参与实验的被试被随机分配到人类管理者或 AI 负面绩效反馈组, 其中人类管理者组 63 人, AI 组 65 人。所有被试均自愿参加实验并知情同意。通过注意力检查并完成实验的被试可获得一定报酬。

　　2.1.2 实验设计与程序

　　实验 1 采用单因素两水平的被试间设计：人机(人类管理者 vs. AI)负面绩效反馈。被试被随机分配到两个实验组别中的一组。首先, 考虑到自我效能感水平可能影响个体收到负面绩效反馈后的态度(Kluger & Denisi, 1996), 为控制这一无关变量, 要求被试先填写 10 题项的一般自我效能感问卷(Scholz et al., 2002), 采用 7 点量表计分, 从“1 = 非常不同意”到“7 = 非常同意” (实验 1 该测量的内部一致性系数为 0.91)。被试会阅读一段情境材料, 情境材料改编自 Tong 等(2021)的研究。描述了某公司呼叫中心电话销售员的日常工作情境, 并告知被试目前是该公司的一名电话销售, 公司为了评估呼叫中心电话销售员的工作表现, 设立了质量控制部门, 对销售员的服务电话进行录音分析, 并于每周固定时间通过公司内部绩效反馈系统提供绩效反馈。

　　以往研究表明, 个体可能会因为 AI 规则或原理的不透明性从而降低对 AI 的信任(Glikson & Woolley, 2020)。因此在 AI 组, 适当地为被试提供AI 的属性信息, 被试会被告知(人机反馈的变化通过字体加粗显示): “质量控制部门的人工智能系统小 ai (基于算法系统, 由测评专家设计评价标准, 人工智能学者和计算机专家开发的用于提供绩效反馈的程序), 通过对电话录音和销售量的数据分析为电话销售员提供专业的绩效反馈”。在人类管理者组, 相应地告知被试: “质量控制部门的销售经理小艾(经历过系统的绩效管理培训, 具有专业知识和从业经验), 通过对电话录音和销售量的数据分析, 为电话销售员提供专业的绩效反馈” (图片材料见网络版附录)。随后, 为检验人机负面绩效反馈的启动, 要求被试填写操纵检验题目(“刚才是谁为您提供绩效反馈?”)。

　　接下来, 不同组别的被试会收到来自“销售经理小艾”或“人工智能系统小 ai”的负面绩效反馈:“你的工作表现低于部门平均水平, 你现在是部门绩效表现较低的员工之一, 希望你能持续改进” (Belschak & Den Hartog, 2009)。阅读完反馈信息后, 要求被试报告绩效改进动机。采用并改编来自Wexley 等(1973)的两题项量表(实验 1~4 均采用该测量的题项): “收到绩效反馈后, 你多大程度上想在未来工作中达到更高的绩效目标?”和“收到绩效反馈后, 你多大程度上想在未来工作中提升绩效” (采用 7 点量表评分, 从“1 = 一点没有”到“7 = 非常”)。实验 1 该测量的内部一致性系数为 0.84。

　　考虑到 AI 组中被试可能对 AI 的熟悉度有所不同, 进而影响 AI 反馈后的绩效改进动机。为排除上述影响, 参考 Leo 和 Huh (2020)的研究, 要求被试报告对于 AI 的熟悉程度, 采用两题项测量(“请问在你的日常工作或生活中是否经常与人工智能打交道?”和“请问你对人工智能的工作原理和运行机制是否熟悉和了解?”; 从“1 = 一点不了解”到“7 = 非常了解”)。另外, 在材料阅读或问卷填写过程中会随机出现两道注意力检测题目(此题请选择“非常不同意”用于筛选未认真作答的被试)。最后, 被试报告了性别和年龄两项人口统计学信息。

　　2.2 结果

　　2.2.1 操纵检验

　　为检验人机提供负面绩效反馈的启动效果, 要求被试阅读实验材料后回忆负面绩效反馈的提供者“请回忆刚才是谁为你提供的绩效反馈”。经检查, 最终保留的 128 名被试全部回答正确。说明实验 1对人机负面绩效反馈的操纵是成功的。

　　2.2.2 假设检验

　　独立样本 t 检验结果发现, 相比于人类管理者组(M = 4.94, SD = 1.38), AI 负面绩效反馈组(M =5.49, SD = 1.18) 中被试的绩效改进动机更强,t(126) = 2.38, p = 0.019, Cohen’s d = 0.43。为验证这一结果的稳健性, 首先将被试自我效能感作为控制变量, 进行单因素方差分析。结果表明, AI 组的绩效改进动机水平仍然高于人类管理者组, F(1, 127) = 5.97, p = 0.016, η2 = 0.046。

　　其次, 为进一步排除被试性别(男性 = 1; 女性 = 2)和年龄可能对结果的影响, 分别对其进行相关分析和独立样本 t 检验。结果表明, 被试年龄与绩效改进动机并不相关(r = 0.07, p = 0.447), 男性 (M = 5.18, SD = 1.34)和女性(M = 5.25, SD = 1.29)的绩效改进动机也无显著差异, t(126) = 0.34, p = 0.738。最后, 为排除被试对 AI 的熟悉程度对结果可能的影响, 相关分析结果表明, AI 组被试的AI 熟悉程度与绩效改进动机的相关不显著(r = 0.002, p = 0.990)。

　　2.3 讨论

　　实验 1 在电话销售的绩效反馈场景中初步验证

　　了研究假设 1, 即相对于人类管理者提供的负面绩效反馈, AI 提供的负面绩效反馈会促使个体产生更高水平的绩效改进动机。为验证实验 1 结果的稳健性, 并进一步检验假设 2, 实验 2 定向招募企业的在职员工, 并改变绩效反馈的场景(新员工入职培训场景), 拟验证任务类型与人机负面绩效反馈影响员工绩效改进动机的交互作用。此外, 在操纵人机反馈时, 实验 1 以嵌入式的算法作为 AI 组的实验材料。考虑到机器人式 AI (robotic AI)未来可能与员工共事并进入组织(Yam et al., 2023), 以及其通常在人机交互过程中引发更高水平的信任与体验感(Glikson & Woolley, 2020), 实验 2~4 采用机器人式 AI 作为 AI 组的实验材料, 并为个体提供负面绩效反馈。

　　3 实验 2：任务类型作为边界条件

　　实验 2 定向招募企业的在职人员, 拟进一步探讨人机负面绩效反馈和任务类型是否交互影响员工绩效改进动机。此外, 为进一步提升实验材料的严谨性, 实验 2 对实验材料进行了预测试。

　　3.1 方法

　　3.1.1 实验材料预测试

　　在正式进行实验 2 之前, 为了检验本研究自编的任务类型(主观 vs. 客观)与人机(人类管理者 vs. AI)反馈刺激图片的可靠性。在 Credamo 平台招募 60 名被试(男性 29 名, 女性 31 名, 被试平均年龄为29.07 岁(SD = 7.97), 对实验材料展开预测试。被试被随机分配到主观或客观任务情境中, 完成三道任务题目(每题作答不少于 100 字)。其中, 主观任务中的三道题目分别包含冲突化解, 突发事件应对以及人际沟通等组织中常面临的问题; 而客观任务的三道题目分别包含人员排序, 方案计算以及销量预测三方面内容(详见网络版附录)。此外, 被试需要对主观任务和客观任务的任务客观性(您在多大程度上认为上述任务是客观任务; 1 = 一点也不, 5 =很大程度上)、任务难度进行评估(请您评估上述任务的难易程度; 1 = 一点不难, 5 = 非常困难)。独立样本 t 检验结果显示, 客观任务(M = 4.10, SD = 0.80)的任务客观性显著高于主观任务(M = 1.53,SD = 0.82), t(58) = 12.25, p < 0.001, Cohen’s d =0.80; 此外, t 检验结果表明, 两类任务的难度不存在显著差异, t(58) = 0.26, p = 0.25。同时, 为检验两种任务类型是否贴近真实的工作场景, 采用 5 题项量表(Fields et al., 2023), 并要求被试进行表面效度 (face validity)评分, 代表题项如:“您在多大程度上认为, 本次测试的实际内容是与日常工作明显相关的”, 从“1 = 完全没有”到“5 = 完全是”。结果显示,两种任务的表面效度均较高, 主观任务的表面效度均值为 4.33, 而客观任务为 3.92。因此可知, 实验任务的设置较为合理且比较符合现实的工作场景。此外, 参考 Garvey 等(2023)的实验材料, 检验 AI 和人类管理者形象的图片在面孔吸引力和诡异性方面的差异(图片材料见网络版附录)。独立样本 t 检验结果显示, 两张图片在面孔吸引力上不存在显著差异, t(59) = 0.24, p = 0.59。人工智能图片仅存在轻微的诡异度(M =1.47, SD = 0.57)。因此可知,实验 2 对刺激图片的选择较为合理。

　　3.1.2 被试

　　采用G*Power 3.1 软件(Faul et al., 2007)计算实验所需的样本量。对于本实验适用的双因素方差分析, 取中等效应量 f = 0.25, 显著性水平 α = 0.05,组数为 4。事前检验表明, 要达到 85%的统计检验力至少需要 146 名被试。实验 2 委托问卷网发布实验信息, 定向招募在职员工被试参与本实验, 并在平台导入实验相关材料, 开展线上行为实验。考虑到可能会出现未完成或回答无效的数据, 实验二招募了 168 名在职企业人员。剔除 8 份没有通过注意力检查、存在规律性回答或作答时间异常的数据后,最终得到了 160 份有效数据。其中, 女性 61 名 (38.1%), 被试平均年龄为 33.29 岁(SD = 4.98)。被试主要来自制造、软件、金融、教育及快消品行业,主要从事管理(55 人, 占 34.4%)、生产运营(37 人,占 23.1%)、技术研发(10 人, 占 6.3%)、市场营销(25人, 占 15.6%)、产品设计(33 人, 占 20.6%)等岗位的工作。所有被试均自愿参加实验并知情同意。通过注意力检查并完成实验的被试可获得相应报酬。

　　3.1.3实验设计与程序

　　实验 2 采用双因素被试间设计: 2 (人机负面绩效反馈：人类管理者 vs. AI) ′ 2 (任务类型：主观 vs.客观)。参与实验的被试被随机分配到 4 个实验组别中的其中一组。

　　正式实验前, 同实验 1, 要求被试填写一般自我效能感问卷(Scholz et al., 2002), 并作为研究的控制变量( 实验 2 该测量的内部一致性系数为 0.89)。被试随后会阅读一段情境材料, 告知被试是某日用品股份有限公司的一名新入职员工。在一次部门月度工作总结结束后, 部门为包括被试在内的5 名新员工安排了职业能力的测试, 以更好地制定个性化的培训计划, 并为后续的岗位安排提供基础。接下来, 告知被试以下是测试的其中一道代表性例题。在主观任务组, 被试需要完成一道职场中化解人际冲突的题目; 在客观任务组, 被试需要完成一道预测未来产品销量的题目(见网络版附录),为确保被试认真作答并融入情景, 要求被试每题作答不少于 100 字。

　　完成测试题目后, 告知被试 2 分钟后会收到对于测试的反馈。在人类管理者组, 告知被试(加粗字展示了操纵人机反馈的差异): “公司邀请了人力资源部门测评专员王亮对你的表现进行评估反馈。测评专员王亮(经过系统的职业能力测评培训, 具有专业知识且经验丰富的测评专家)会阅读你的回答,评估你的作答质量, 并进行统计排名, 对你本次测试完成情况进行评估反馈”, 并展示王亮形象的图片(见网络版附录)。在 AI 组, 被试相应被告知: “公司通过人力资源测评中心开发设计的人工智能评估助手小 ai, 对你的表现进行评估反馈。人工智能评估助手小 ai, 会基于算法系统(该算法系统是基于测评专家设计的评价标准, 由人工智能学者和计算机专家开发的程序)对你的答案自动进行识别,评估你的作答质量, 并进行统计排名, 对你本次测试完成情况进行评估反馈” (相应展示小ai, 见网络版附录)。随后, 要求被试填写操纵检验题目(例如 “请问为您提供测试反馈的是”, 1 = 测评专员王亮, 7 = AI 评估助手小 ai 以及“请对您刚才完成的测试题目的客观性进行评分”, 1 = 非常主观, 7 = 非常客观)。

　　约 2 分钟后, 被试会收到来自“测评专员王亮或人工智能测评助手小 ai”的负面绩效反馈: “在本次测试中, 你的表现低于 80%的同事, 位于后 20%,表现有待提升” (Kim & Kim, 2020)。最后, 要求被试填写绩效改进动机(实验 2 该测量的内部一致性系数为 0.84), 并报告性别、年龄、行业与岗位这 4项人口统计学信息。AI 组被试需要填写对 AI 的熟悉程度。问卷填答过程中会随机出现两道注意力检测题目(此题请选择“非常不同意”)用于筛选未认真作答的被试。

　　3.2 结果

　　3.2.1 操纵检验

　　首先, 为检验人机提供负面绩效反馈的启动效果。要求被试阅读实验材料后回忆负面绩效反馈的提供者“请回忆刚才是谁为您提供的绩效反馈” (1 =测评专员王亮, 7 = AI 评估助手小 ai)。结果显示, AI负面绩效反馈组(M = 6.24, SD = 1.05)的评分显著高于人类管理者组(M = 1.95, SD = 1.11), t (158) =25.11, p < 0.001, Cohen’s d = 0.86。说明实验 2 对人机负面绩效反馈的操纵成功。

　　其次, 为检验任务类型操纵有效性, 要求被试回答, “你认为刚才所做测试例题的客观性” (1 = 非常主观, 7 = 非常客观)。结果表明, 客观任务组(M = 5.96, SD = 0.79)的任务客观性评分显著高于主观任务组(M = 2.33, SD = 0.87), t(158) = 27.77, p < 0.001,Cohen’s d = 0.83。说明任务类型的操纵成功。

　　3.2.2 假设检验

　　其次, 独立样本 t 检验结果发现, 相较于人类管理者组(M = 5.36, SD = 1.13), AI 提供负面绩效反馈组(M = 5.67, SD = 0.79)被试的绩效改进动机更强, t (158) = 2.00, p = 0.048, Cohen’s d = 0.46。将被试自我效能感作为控制变量, 进行单因素方差分析。结果表明, AI 组的绩效改进动机水平仍然高于人类管理者组, F(1, 157) = 4.64, p = 0.033, η2 =0.029。为排除被试对 AI 的熟悉程度对结果可能的影响, 相关分析结果表明, AI 组被试的AI 熟悉程度与绩效改进动机的相关不显著(r = 0.10, p = 0.40)。综上, 研究假设 1 再次得到验证。

　　最后, 检验任务类型是否能够作为边界条件。双因素方差分析结果表明, 人机负面绩效反馈和任务类型对个体的绩效改进动机有显著的交互影响, F(1, 156) = 39.65, p < 0.001, η2 = 0.203。简单效应分析发现(如图 1), 在客观任务组, AI 负面绩效反馈组的绩效改进动机水平(M = 5.71, SD = 0.66)显著高于人类管理者组(M = 4.60, SD = 1.01), F (1,156) = 37.75, p < 0.001, η2 = 0.195。在主观任务组,人类管理者组的负面反馈绩效改进动机水平(M = 6.13, SD = 0.59)显著高于 AI 组(M = 5.63, SD =0.90), F(1, 156) = 7.63, p = 0.006, η2 = 0.047。为检验上述结果的稳健性, 将被试自我效能感作为协变量进行控制, 结果发现, 人机负面绩效反馈与任务类型的交互作用然显著, F(1, 155) = 40.58, p < 0.001, η2 = 0.207。假设 2 得到验证。

　　3.3 讨论

　　实验 2 基于新入职员工绩效反馈的场景, 重复实验 1 研究发现的基础上, 还进一步发现了人机负面绩效反馈与任务类型对个体绩效改进动机的交互作用, 从而验证了研究假设 2。实验 2 较实验 1主要有两点改善。首先, 参考以往绩效反馈的研究 (Cianci et al., 2010), 在被试执行实验任务后间隔一定时间后提供绩效反馈, 以增强绩效反馈的真实性。其次, 实验 1 采用的是评价型反馈(例如, “你现在是部门绩效表现较低的员工之一”), 而实验 2 采用了客观型反馈(例如, “在本次测试中, 你的表现低于 80%的同事, 位于后 20%”), 这使负面绩效反馈的内容更加客观, 也有利于降低被试的负面情绪反应(Kim & Kim, 2020)。

　　但是, 实验 2 仍存在一些不足。比如, 虽然实验 2 通过任务执行?延迟反馈的设计在一定程度上提升了反馈的真实性, 但任务与绩效反馈的间隔时间以及绩效反馈的呈现方式仍然有待改进。鉴于此,实验3 在被试完成任务间隔20 分钟后, 通过邮件这种更真实的形式发送绩效反馈, 并进一步检验内部与外部归因在人机负面绩效反馈影响员工绩效改进动机发挥的中介作用。

　　1 实验 3：内部与外部归因的中介作用

　　实验 3 目的是采用邮件绩效反馈这种更真实的形式, 进一步检验实验 1 和实验 2 实验结果的稳健性, 以及探讨内部和外部归因发挥的中介作用。

　　4.1 方法

　　4.1.1 被试

　　采用G*Power 3.1 软件(Faul et al., 2007)计算本实验所需样本量。对于本实验适用的双因素方差分析, 取中等效应量 f = 0.25, 显著性水平 α = 0.05,组别数为 4。事前分析显示, 要达到 85%的统计检验力至少需要 146 名被试。类似于实验 2, 实验 3委托问卷网发布实验信息, 定向招募在职员工被试参与本实验。考虑到可能会出现少量未完成或填答无效的数据, 实验 3 共招募了 160 名在职员工参加实验。所有被试均自愿参加实验并知情同意, 通过注意力检测并完成实验任务的被试可获得相应报酬。剔除没有通过注意力测试, 未完成作答或作答无效的被试 10 名, 实验 3 最终有效样本为 150。其中, 女性 86 名(57.3%), 被试平均年龄为 29.70 岁 (SD = 4.97), 平均工龄为 6.17 年(SD = 4.23)。参与实验的被试来自互联网、建筑业、制造业、信息通信业、商品销售业、教育、医疗、金融和服务这 9个行业。从工作岗位上来看, 参与实验的员工包含管理类 52 人, 占比 34.87%; 运营类 29 人, 占比19.40%; 技术类 19 人, 占比 12.50%; 营销类 26 人,占比 17.43%; 创意设计类 24, 占比 15.79% 。

　　4.1.2 实验设计与程序

　　实验 3 采用双因素组间设计: 2 (人机负面绩效反馈：人类管理者 vs. AI) × 2 (任务类型：主观 vs.客观)。被试被随机分配到 4 个实验组别中的一组。

　　告知被试即将参与一场职业能力竞赛。事先收集参与者的工作邮箱以便后期发送对应的绩效反馈。竞赛分为两个阶段(竞赛与绩效反馈)。在竞赛阶段, 被试需要根据要求完成竞赛中的题目。首先,要求被试填写自我效能感问卷以作为研究的控制变量(实验 3 该测量的内部一致性系数为 0.91)。接下来, 采用实验 2 的材料预测试题目, 被试据组别完成三道主观或客观型竞赛题目(具体题目见网络版附录), 为确保被试认真作答并融入情景, 要求被试每题作答不少于 100 字。完成竞赛任务后,被试被告知某高校的职业测评中心将负责对参与者的竞赛表现进行评估和反馈。在人类管理者组,被试被告知(人机反馈的操纵差异通过加粗的字体呈现): “为了评估您在本次职业能力竞赛中的表现,我们邀请了某高校测评中心的负责人王亮, 对您的表现进行评估反馈。测评中心负责人王亮(经过系统的职业能力测评培训, 具有专业知识且经验丰富的测评专家), 会阅读您的回答, 评估您的作答质量, 并进行统计排名, 对您本次职业能力竞赛结果进行评估反馈”。并配有王亮形象的图片(见网络版附录)。在 AI 组, 被试会被告知:“为了评估您在本次职业能力竞赛中的表现, 我们将使用某大学测评中心最新引进的人工智能测评助手小 ai, 对您的表现进行评估反馈。人工智能测评助手小 ai, 基于算法系统(该算法系统是基于测评专家设计的评价标准, 由人工智能学者和计算机专家开发的程序)对您的答案自动进行识别和分析, 评估您的作答质量, 并进行统计排名, 对您本次职业能力竞赛结果进行评估反馈” (相应展示小 ai, 见网络版附录)。期间, 要求被试回答操纵检验题目(“请问为您提供竞赛反馈的是”, 1 = 测评中心负责人王亮, 7 = 测评中心 AI 助手小 ai; 以及“请对您刚才完成的竞赛题目的客观性进行评分”, 1 = 非常主观, 7 = 非常客观)。随后, 被试被告知“由于需要等待和评估其他参与者的表现并进行最终排名, 绩效反馈需要约20 分钟, 最终的竞赛结果和测评问卷链接会通过您的电子邮箱发送给您”。为减弱被试在等待反馈过程中可能出现的注意力缺失问题对实验结果的干扰, 要求所有被试观看一段时长约 20 分钟的某高校测评中心的介绍视频。

　　在绩效反馈阶段, 实验人员通过提前更换好域名的电子邮箱(比如, 某高校测评中心负责人王亮或 AI 测评助手小 ai), 向先前收集好的被试工作邮箱发送职业竞赛的反馈结果。为加强对人机负面绩效反馈的操纵, 人类管理者组的被试会收到: “您好!在本次职业能力竞赛中, 您的表现低于 82%的参与者, 位于后 18%” (Kim & Kim, 2020)。而 AI 组除了为被试提供与人类管理者组相同内容的负面绩效反馈外, 还会在邮件的文末备注: “此邮件由人工智能助手自动发送, 请勿回复”。随后, 提示被试填答附于邮件中的第二阶段问卷, 包括回忆并简述绩效反馈内容(确保被试基于反馈信息填答后续题目);对于 AI 的熟悉程度; 绩效改进动机(实验 3 该测量的内部一致性系数为 0.84); 内部与外部归因的测量选取 Russell (1982)开发的 6 题项量表来测量。3题项用于测量内部归因, 代表题项如: “您在多大程度上认为, 反馈者提供的测评反馈结果是基于你个人的努力而产生”, 该测量内部一致性系数为 0.78;外部归因代表题项如“您在多大程度上认为, 反馈者提供的测评反馈结果是基于环境因素而产生(比如题目很难)”, 该测量内部一致性系数为 0.74。采用 7 点评分法, 从“1 为一点也没有”, 到“7 为很大程度上”。接下来, 已有研究发现, 个体对人类或 AI 绩效反馈的准确性(Tong et al., 2021) 和公平感知 (Newman et al., 2020)可能存在差异。比如, 由于 AI本质上是一套数据驱动的程序模型, 其客观和无偏性更高, AI (较人类管理者)提供负面绩效反馈可能引发个体较高的准确性或公平感知( 蒋路远等, 2022), 从而差异化影响绩效改进动机。为排除上述两条替代解释机制, 要求被试填写反馈准确性 (Brett & Atwater, 2001) 和公平感量表(Chory & Westerman, 2009)。反馈准确性的测量包含 2 个题项(“您在多大程度上认为您收到的反馈是对您表现的准确评估”; “您在多大程度上相信您收到的反馈是正确的”。采用 7 点量表评分, 从“1 = 一点没有”到“7 = 非常”, 该测量的内部一致性系数为 0.89)。公平感知包含 6 个题项(代表题项如“我认为反馈者给我提供的反馈是：1 = 不公正的; 7 = 公正的”, “我认为反馈者给我提供的反馈是：1 = 有偏见的; 7= 中立的”, 该测量的内部一致性系数为 0.97)。最后, 被试报告性别、年龄、工龄、行业以及岗位这 5 项人口学变量。问卷填答过程中会随机出现两道注意力检测题目(此题请选择“非常不同意”)用于筛选未认真作答的被试。

　　4.2 结果

　　4.2.1 操纵检验

　　首先, 为检验人机提供负面绩效反馈的启动效果。要求被试阅读实验材料后回忆负面绩效反馈的提供者“请回忆刚才是谁为您提供的绩效反馈” (1 =测评中心负责人王亮, 7 = 测评中心 AI 助手小 ai)。结果显示, AI 负面绩效反馈组(M = 5.26, SD = 1.47)的评分显著高于人类管理者组(M = 2.49, SD = 0.86), t(148) = 13.10, p < 0.001, Cohen’s d = 0.71。说明实验 3 对人机负面绩效反馈的操纵成功。

　　为检验任务类型的启动效果, 要求被试评价实验任务的客观性。结果表明, 客观任务组(M = 5.54, SD = 0.98)的任务客观性评分显著高于主观任务组(M = 3.41, SD = 1.95), t(148) = 8.23, p < 0.001,Cohen’s d = 0.63。表明任务类型的操纵成功。

　　4.2.2 假设检验

　　为检验研究假设 1。独立样本 t 检验结果表明,相较于人类管理者(M = 4.66, SD = 1.10), AI 的负面绩效反馈(M = 5.06, SD = 1.21)能够引发更高水平的绩效改进动机, t(148) = 2.10, p = 0.037, Cohen’s d = 0.44。将自我效能感作为协变量控制, 然发现相较于人类管理者, AI 提供负面绩效反馈会导致更高水平的绩效改进动机, F(1, 147) = 4.05, p = 0.046, η2 = 0.027。假设 1 得到验证。其次, 为排除 AI 熟悉程度对结果的影响, 相关分析发现, AI 组被试对 AI 的熟悉度与其绩效改进动机并不相关(r = 0.06, p = 0.61)。为检验研究假设 2, 双因素方差分析结果发现(如图 2), 人机负面绩效反馈和任务类型对个体的绩效改进动机具有显著的交互作用, F(1, 146) = 20.00, p < 0.001, η2 = 0.120。且简单效应分析发现, 在客观任务组, AI 负面反馈组的绩效改进动机水平(M = 5.60, SD = 0.88)显著高于人类管理者组(M = 4.35, SD = 0.92), F(1, 146) = 24.47, p <0.001, η2 = 0.144。在主观任务组, 人类管理者负面反馈组的绩效改进动机水平(M = 4.92, SD = 1.17) (边缘)显著高于 AI 组(M = 4.57, SD = 1.26), F(1, 146) = 3.00, p = 0.085 < 0.10, η2 = 0.02。为检验上述结果的稳健性, 将被试自我效能感作为协变量进行控制, 结果发现, 人机负面绩效反馈与任务类型的交互作用然显著, F(1, 145) = 22.79, p < 0.001,η2 = 0.136。因此, 研究的假设 2 再次得到了验证。为检验内部与外部归因的中介效应, 选择 PROCESS 插件的模型 4, Bootsrap 为 2000。结果表明, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应显著, 且中介效应的指标值为 0.17,95%的 CI 为[0.015, 0.350], 区间不包含 0。此外, 外部归因在人机负面绩效反馈到绩效改进动机的中介效应指标值为 0.08, 95%的 CI 为[?0.04, 0.21], 区间包含 0, 说明外部归因在人机负面绩效反馈到绩效改进动机的间接效应不显著。研究假设 3 得到了部分验证。

　　此外, 本研究还检验了内部与外部归因在人机负面绩效反馈与任务类型对绩效改进动机交互效应中的间接效应。选择 PROCESS 插件的模型 8, 设定样本量为 2000。结果表明, 在主观任务中, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应显著, 95%的 CI 为[?0.40, ?0.03]; 在客观任务中, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应同样显著, 95%的 CI 为[0.20, 0.84]。且在两种不同类型的任务下, 有调节的间接效应的差值显著, 指标值为 0.67, 95%的 CI 为[0.277, 1.178]。

　　说明有调节的中介效应显著; 而外部归因有调节的间接效应指标值为 0.12, 95% 的 CI 为[?0.065,0.375]。区间包含 0, 因此研究假设 4 也得到了部分验证。

　　为检验反馈准确性和公平感是否能作为替代性解释的机制。首先, 独立样本 t 检验发现, 人类管理者(M = 3.78, SD = 1.63)或 AI 提供负面绩效反馈(M = 3.80, SD = 1.60)在准确性水平上并无差异, t(148) = 0.07, p = 0.94。但是, AI 提供负面绩效反馈 (M = 5.31, SD = 1.35)比人类管理者(M = 4.84, SD = 1.50)更公平, t(148) = 2.00, p = 0.047, Cohen’s d =0.32。此外, 人机负面绩效反馈与任务类型对反馈准确性(和公平感)的交互作用均不显著, F(1, 146) = 0.12, p = 0.73; F(1, 146) = 0.58, p = 0.45。最后, 反馈准确性(95%的 CI 为[?0.082, 0.065])和公平感 (95%的 CI 为[?0.06, 0.24])在人机负面绩效反馈与绩效改进动机之间的间接效应也均不显著。综上,实验 3 排除了反馈准确性与公平感这两条替代的解释机制。

　　4.3讨论

　　实验 3 以更加贴近组织真实反馈的方式, 检验了实验 1 和实验 2 结果的稳健性, 并进一步发现了内部归因发挥的中介作用。这为不同任务情境下, AI 和人类管理者提供负面绩效反馈对员工绩效改进动机的差异化影响提供了一个良好的解释机制。不仅如此, 实验 3 还排除了反馈准确性与公平感的替代解释机制。

　　实验 3 未能发现外部归因的中介作用, 可能的原因在于, 个体出于自尊维护与自我防御的目的,无论人类管理者抑或 AI 提供负面绩效反馈, 可能都倾向于表现一定水平的外部归因(Hareli & Hess, 2008)。比如实验 3 中, 人类管理者组(M = 3.60, SD = 1.27)与 AI 负面绩效反馈组(M = 3.92, SD =

　　1.33)的被试均有一定程度的外部归因, 但差异并不显著, t(148) = 1.52, p = 0.13。与实验 3 结果一致的是, Yalcin 等(2022)也发现在不利性决策情境中 (例如遭到公司拒绝), 消费者对来自人类或AI 客服反馈的外部归因差异不显著。

　　此外, 实验 1~3 采用了绩效反馈研究中常用的虚假反馈范式(Cianci et al., 2010; Kim & Kim, 2020), 其优点在于控制被试间反馈内容的一致性。但由于没有评估被试的真实任务表现, 导致个体可能对负面绩效反馈的准确性、真实性感知较低。为解决上述问题并进一步提升绩效反馈的质量, 实验 4 拟在相对真实的反馈场景下为个体提供更为具体和个性化的绩效反馈, 从而再次验证本研究的整体模型。

　　5 实验 4：真实反馈下对假设模型的再验证

　　实验 4 拟基于个体真实的任务表现为其提供具体的、个性化的绩效反馈。具体来说, 除提供结果性的反馈外(展示排名, 成绩等结果), 实验 4 加入了过程性的反馈, 比如解释任务目的, 提供针对任务表现的鼓励, 或问题诊断等具体信息(Goodman & Wood, 2004), 从而加强负面绩效反馈的真实性和质量。

　　5.1 方法

　　5.1.1 被试

　　采用G*Power 3.1 软件(Faul et al., 2007)计算本实验所需样本量。对于本实验适用的双因素方差分析, 取中等效应量 f = 0.25, 显著性水平 α = 0.05,组别数为 4。事前分析显示, 要达到 85%的统计检验力至少需要 146 名被试。类似于实验 2 和 3, 实验 4 委托问卷网发布实验信息, 定向招募在职员工被试。考虑到可能会出现少量未完成或填答无效的数据, 实验 4 共招募了 166 名在职员工参加实验。所有被试均自愿参加实验并知情同意。通过注意力检测并完成实验任务的被试可获得相应报酬。

　　剔除没有通过注意力测试, 未完成作答或作答无效的被试 6 名。实验 4 最终有效样本为 160。其中, 女性 65 名(40.60%), 被试平均年龄为 29.54 岁(SD = 6.07)。91.3%的被试有过本科及以上的教育经历。参与实验的被试主要来自制造业、软件业、商务服务业、金融业、科学研究与教育业等 5 个行业。从工作岗位来看, 参与实验的员工包含技术研发类 50 人, 占比 31.30%; 管理类 34 人, 占比 21.30%; 生产与运营类 31 人, 占比 19.40%; 市场营销类 31 人, 占比 19.40%; 产品设计类 14 人, 占比 8.80% 。

　　5.1.2 实验设计与程序

　　实验 4 采用双因素组间设计: 2 (人机负面绩效反馈：人类管理者 vs. AI) × 2 (任务类型：主观 vs.客观)。被试被随机分配到 4 个实验组别中的一组。

　　在正式实验开始前进行两项实验的准备工作。首先, 对 5 名主试人员进行培训, 使他们清晰并熟练地掌握各题目的作答要点或评价标准。其次, 事先编辑好负面绩效反馈的模版, 在正式作答时?据被试的表现进行个性化的更改, 从而控制反馈的内容并减少提供反馈所需的时间。在正式实验阶段,第一, 告知被试是某涂料公司的一名主管, 即将参与一场针对企业中层管理人员的管理能力测评, 为后续的培训与学习提供参考据。随后, 将测评分为两个阶段(任务以及绩效反馈)。在测评任务阶段,被试需要完成以下实验步骤：第一, 要求被试填写自我效能感问卷以作为研究的控制变量(实验 4 该测量的内部一致性系数为 0.96)。第二, 与实验 2~3类似, 不同任务组别的被试需要相应完成 2 道主观或客观任务(见网络版附录), 要求每题的作答不得少于 100 字。第三, 完成测评任务后, 被试被告知公司将会对其测评表现进行专业评估和反馈。在人类管理者组(人机反馈操纵的差异通过加粗字体展示): “为了评估您在本次管理能力中的表现, 我们邀请公司管理能力测评专员王亮, 对您的表现进行评估反馈。测评专员王亮(经过系统的职业能力测评培训, 具有专业知识且经验丰富的测评专家),会阅读您的回答, 评估您的作答质量, 并进行统计排名, 对您本次管理能力测评的结果进行评估反馈”, 并搭配一张王亮形象的图片(见网络版附录)。在 AI 组, 则对应描述为: “为了评估您在本次职业能力竞赛中的表现, 我们将使用公司人事部最新引进的人工智能(AI)测评助手小 ai, 对您的表现进行评估反馈。人工智能测评助手小 ai, 基于算法系统 (该算法系统是基于测评专家设计的评价标准, 由人工智能学者和计算机专家开发的程序), 并对您的答案自动进行识别和分析, 评估您的作答质量,并进行统计排名, 对您本次管理能力测评的结果进行评估反馈” (相应展示小 ai 形象, 见网络版附录)。随后, 被试被告知“由于需要等待和评估其他参与者的表现并进行最终排名, 绩效反馈需要约 1 分钟”。最后, 要求被试完成任务类型的操纵检验题目 “请问您在多大程度上认为本次您完成的测评题目属于客观任务”, 从 1 = 非常主观至 7 = 非常客观。在绩效反馈阶段, 参考 Goodman 和 Wood(2004)的做法, 通过为被试解释任务目的, 提供具体的鼓励或改善意见来提升绩效反馈的质量。首先,要求被试登陆 SalesSmartly (一个专业的企业?人员实时聊天交互网站), 由实验人员扮演的人类管理者或者 AI 为参与者提供几乎实时的绩效反馈。被试通过输入其对应的编号, 即可收到测评的绩效反馈。其次, 在反馈的内容方面, 第一, 实验人员会据个体作答的详细性、逻辑性以及清晰性, 给予参与者一句测评的总评, 例如: “亲爱的××参与者,感谢您完成本次管理能力测评的试题。整体上, 您的回答较为模糊(或清晰)”。接着, 向参与者解释测评的目的以及题目考察的具体能力。主观任务组的描述为：“本次测试的第一封公文旨在考察您在建设团队中的矛盾化解能力。而第二封意在测试您应对团队中突发事件的问题解决能力”。客观任务组的描述对应为: “本次测试的第一封公文旨在考察您在原料采购中的运算分析能力。而第二封意在测试您预测销售量的逻辑推理能力”。随后, 据事先整理好的作答要点对被试作答的两道题目进行评分, 并给予具体的意见。例如: “相较于同期的参与者, 您表现出了较弱的矛盾化解能力【54.15/100】(分析并列举具体的作答缺陷)。但您表现出的突发事件解决能力较好, 得分为【69.75/100】(分析并列举具体的作答优点)”。此外, 为提供明确的负面绩效反馈并更好地对内容进行控制, 所有参与者统一收到: “总的来说, 您在本次测试中的总分为【61.95/ 100】, 低于 82%的参与者且位于后 18%, 表现有待提升”。为展现人机反馈操纵的差异, 在人类管理者组, 测评专员王亮会感谢被试的参与和配合。在 AI组, 小 ai 会感谢被试的使用。最后, 为防止产生额外变量, 所有负面绩效反馈均参考相同的格式, 且内容控制在 200 字左右。

　　阅读反馈后, 被试会填写第二阶段问卷, 为确保被试认真阅读反馈并基于反馈内容填答后续题目, 要求被试回忆并简述收到的反馈内容。接着,被试填写问卷题目, 包括反馈提供者(1 = 测评专员王亮; 7 = 测评助手小ai)与反馈内容(1 = 很负面; 5 = 很正面)的操纵检验, 以及对于 AI 的熟悉程度;绩效改进动机(实验 4 该测量的内部一致性系数为0.89); 内部归因(内部一致性系数为 0.79)与外部归因(内部一致性系数为 0.83; 测量题项同实验 3)。最后, 与实验 3 类似, 考虑到反馈公平感(内部一致性系数为0.95)与准确性(内部一致性系数为0.87)可能作为本研究的替代中介变量, 要求被试分别对上述两个变量进行填答。问卷填答过程中会随机出现两道注意力检测题目(此题请选择“非常不同意”)用于筛选未认真作答的被试。

　　5.2 结果

　　5.2.1操纵检验

　　首先, 为检验负面绩效反馈的启动效果。要求被试回忆接收的反馈内容: “请问您收到的反馈对您在测评中的表现的评价是 (1 = 很负面, 5 = 很正面)”。结果显示, 个体对反馈内容感知的均值为 2.01(SD = 0.97)。说明实验 4 对负面绩效反馈的操纵是成功的。

　　其次, 为检验人机提供负面绩效反馈的启动效果。要求被试阅读实验材料后回忆负面绩效反馈的提供者: “ 请回忆刚才是谁为您提供的绩效反馈 (1 = 测评中心负责人王亮, 7 = 测评中心 AI 助手小 ai)”。结果显示, AI 负面绩效反馈组(M = 5.71, SD = 1.72)的评分显著高于人类管理者组(M = 1.60,SD = 1.33), t (158) = 16.92, p < 0.001, Cohen’s d =0.80。说明实验 4 对人机负面绩效反馈的操纵是成功的。

　　最后, 为检验任务类型的启动效果, 要求被试评价实验任务的客观性。结果表明, 客观任务组 (M = 5.49, SD = 1.23)的任务客观性评分显著高于主观任务组(M = 3.41, SD = 1.51), t (158) = 9.53, p <0.001, Cohen’s d = 0.60。表明任务类型的操纵成功。

　　5.2.2 假设检验

　　为检验研究假设 1。独立样本 t 检验结果表明,相较于人类管理者(M = 5.76, SD = 0.97), AI 的负面绩效反馈(M = 6.07, SD = 0.78)能够引发更高水平的绩效改进动机, t(158) = 2.24, p = 0.027, Cohen’s d= 0.35。将自我效能感作为协变量控制, 然发现相较于人类管理者, AI 提供负面绩效反馈会导致更高水平的绩效改进动机, F(1, 157) = 4.98, p = 0.027, η2 = 0.031。假设 1 得到验证。其次, 为排除 AI 熟悉程度对结果的可能影响, 相关分析发现, AI 组被试对 AI 的熟悉度与其绩效改进动机并不相关(r =0.058, p = 0.61)。为检验研究假设 2, 双因素方差分析结果发现(如图 3), 人机负面绩效反馈和任务类型对个体的绩效改进动机具有显著的交互作用 F(1, 156) = 44.76, p < 0.001, η2 = 0.223。且简单效应分析发现, 在客观任务组, AI 负面反馈组的绩效改进动机水平(M = 6.19, SD = 0.72)显著高于人类管理者组(M = 5.09, SD = 0.81), F(1, 156) = 43.66, p <0.001, η2 = 0.219。在主观任务组, 人类管理者负面反馈组的绩效改进动机水平(M = 6.43, SD = 0.61)显著高于 AI 组(M = 5.95, SD = 0.82), F(1, 156) =8.14, p = 0.005, η2 = 0.05。为检验上述结果的稳健性,将被试自我效能感作为协变量进行控制, 结果发现,人机负面绩效反馈与任务类型的交互作用然显著, F(1, 155) = 44.66, p < 0.001, η2 = 0.224。因此,研究的假设 2 再次得到了验证。

　　为检验内部与外部归因的中介效应, 选择 PROCESS 插件的模型 4, Bootsrap 为 2000。结果表明, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应显著, 且中介效应的指标值为 0.17, 95%的 CI 为[0.017, 0.359], 区间不包含 0。此外, 外部归因在人机负面绩效反馈到绩效改进动机的中介效应指标值为?0.10, 95%的 CI 为[?0.086, 0.011],区间包含 0, 说明外部归因在人机负面绩效反馈到绩效改进动机的间接效应不显著。研究假设 3 得到了部分验证。

　　此外, 本研究还检验了内部与外部归因在人机负面绩效反馈与任务类型对绩效改进动机交互效应中的间接效应。选择 PROCESS 插件的模型 8, 设定样本量为 2000。结果表明, 在主观任务中, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应显著, 95%的 CI 为[?0.373, ?0.035]; 在客观任务中, 内部归因在人机负面绩效反馈到绩效改进动机的间接效应同样显著, 95%的CI 为[0.241, 0.669]。且不同任务类型下, 有调节的间接效应的差值显著,指标值为 0.63, 95%的 CI 为[0.349, 0.989]。说明存在有调节的中介效应; 而外部归因有调节的间接效应指标值为 0.013, 95%的 CI 为[?0.017, 0.110]。区间包含 0, 因此研究假设 4 也得到了部分验证。

　　为检验反馈准确性和公平感是否能作为替代性解释的机制。首先, 独立样本 t 检验发现, 人类管理者(M = 5.33, SD = 0.91)或 AI 提供负面绩效反馈(M = 5.48, SD = 0.99)在准确性水平上并无差异, t(158) = 0.99, p = 0.32。但是, AI 提供负面绩效反馈 (M = 6.14, SD = 1.21)比人类管理者(M = 5.74, SD = 1.28)更公平, t(158) = 2.01, p = 0.046, Cohen’s d =0.33。此外, 人机负面绩效反馈与任务类型对反馈准确性[和公平感]的交互作用均不显著, F(1, 156) = 0.45, p = 0.51[ F(1, 156) = 0.20, p = 0.65]。最后, 反馈准确性( 指标值为 0.02; 95% 的 CI 为[?0.012, 0.105]) 和公平感( 指标值为 0.03; 95% 的 CI 为 [?0.075, 0.051])在人机负面绩效反馈与绩效改进动机之间的间接效应也均不显著。综上, 同实验 3, 实验 4 也排除了反馈准确性与公平感可能的替代解释机制。

　　5.3讨论

　　实验 4 在实验 3 的基础上, 采用相对真实的反馈策略进一步加强了负面绩效反馈的质量。在为个体提供个性化反馈的基础上, 使得反馈内容更加具体和可信。例如, 相较于实验 3 个体知觉到的反馈准确性(M = 3.79, SD = 1.61), 实验 4 的反馈准确性得到明显的提升(M = 5.41, SD = 0.95)。此外, 实验 4 还进一步验证了先前 3 个实验的结果, 并排除了反馈准确性与公平感可能的替代解释机制。

　　6总讨论

　　基于归因理论, 本研究采用 4 个递进式实验发现了人机负面绩效反馈对绩效改进动机的差异化影响及机制。具体而言, 本研究发现, 相较于人类管理者, 由 AI 提供负面绩效反馈会导致员工更高水平的绩效改进动机。第二, 人机负面绩效反馈和任务类型交互影响个体的绩效改进动机。具体来说,在主观任务中, 相较于 AI, 个体对人类管理者负面绩效反馈的绩效改进动机更强; 而在客观任务中,上述结果则发生反转。此外, 本研究基于归因理论,进一步发现了内部归因在人机负面绩效反馈和任务类型对绩效改进动机的交互作用中起到中介作用。另外, 本研究采用了不同类型的 AI 主体(实验 1 为嵌入式 AI, 实验 2~4 为机器人式 AI)、不同的绩效反馈场景(实验 1~4 分别为电话销售人员、新入职员工培训、员工职业能力竞赛、中层管理者管理能力测评)、差别化的绩效反馈策略(实验 1~3 采用虚假反馈, 实验 4 采用相对真实的反馈), 以及不同的绩效反馈途径(实验 1~2 在线上实验平台展示反馈, 实验 3 通过真实的邮件发送反馈, 实验 4 则通过实时的对话交互网站发送反馈)。总体来看, 本研究 4 个实验的结果保持了较强的一致性和稳健性。

　　6.1 理论贡献

　　首先, 本研究拓展了既有负面绩效反馈研究的视角。具体而言, 传统基于人际互动的负面反馈研究大多关注来自人类管理者的反馈(Kitz et al., 2023), 而本研究则发现 AI 替代人类管理者提供负面绩效反馈潜在的积极效应。既有研究从多种角度探索提升负面绩效反馈实施效果的途径, 例如, 反馈特征层面(绩效反馈的频率、即时性或质量等) (Kuvaas et al., 2017; Ni & Zheng, 2024), 员工个体层面(对负面绩效反馈的积极归因, 员工核心自我评价等) (马璐等, 2021; Xing et al., 2023)。而本研究结合数智化时代背景, 基于人机提供负面绩效反馈的新兴视角, 发现 AI (相较人类管理者)提供的负面绩效反馈提升员工后续的绩效改进动机, 为负面绩效反馈的人机差异化影响效果提供了研究证据。其次, 本研究丰富了既有人机反馈的研究。当前数智化技术在绩效反馈中的应用引发了一些争论(董毓格等, 2022)。一方面, 基于算法欣赏的视角, 研究者发现 AI 能够提升绩效反馈的准确性和可靠性, 从而提升员工的绩效水平(Tong et al., 2021), 但另一方面, 也有研究从算法厌恶角度出发, 发现 AI 缺乏真诚性与独特性, 并且会威胁人类的工作机会, 因此当组织披露绩效反馈(尤其是带有鼓励、赞扬性质的正面反馈) 来源于 AI 时 (Yalcin et al., 2022), 会降低个体的积极表现(Luo et al., 2019; Tong et al., 2021)。本研究聚焦于负面绩效反馈, 并发现 AI (较人类管理者)作为反馈提供者提升个体的绩效改进动机。此外, 既有研究也关注人机反馈产生差异化效果的边界条件, 比如, Tong 等(2021)发现, 对于任期较长的员工而言, 由于他们与组织建立了更强的情感纽带, 对于组织采用 AI 提供绩效反馈的变革也更为支持, 因此员工的任期会缓解 AI 提供绩效反馈的负面效果。此外, Luo 等(2019)发现, 顾客对于 AI 的熟悉程度会降低个体对于AI 的刻板印象(例如, 缺乏知识和同理心),从而缓解由 AI 提供反馈造成的产品销量下降。本研究关注员工工作的任务类型这一外部因素, 并发现人机负面绩效反馈与任务类型对员工绩效改进动机的交互作用, 从而拓展了人机反馈边界条件的研究。

　　此外, 本研究丰富了敏捷型(agile)绩效管理的研究。具体来说, 传统以年、季度为时间单位的绩效管理模式存在周期过长的缺陷, 不利于员工即时获取信息并提升绩效。为此, 有学者提出敏捷型绩效管理的变革趋势(Pulakos et al., 2019; Schleicher et al., 2018), 旨在提升绩效管理的时效性, 并为员工提供准确, 高质量的绩效评估与反馈。数智化是提升敏捷绩效管理最为重要的因素, 表现在 AI 能够不知疲倦地整合并分析数据, 以客观、无偏的方式评估员工的绩效表现, 并提供更加准确的绩效反馈(Qin et al., 2023; Tong et al., 2021)。除人机绩效反馈的研究外, 也有研究关注了 AI 绩效指导(AI coach)。比如, Luo 等(2021)发现 AI 教练相对于人类教练的指导效果在不同的销售人员中呈倒 U 形分布。这是因为绩效排名靠后的销售会面临 AI 反馈信息过载的问题, 而绩效排名靠前的销售对 AI的厌恶程度较高。本研究与上述文献一致, 均探索了数智化技术对绩效管理中特定环节的影响和机制。最后, 本研究深化了归因理论在组织场景中的研究。归因理论被广泛应用于解释人际互动中个体如何理解自身或他人行为的原因(Tolli & Schmidt, 2008)。根据经典归因理论的观点(Heider, 1958), 人们通常出于自我防御的目的对不利性结果进行外部归因, 或对有利性结果进行内部归因从而获得自我提升。不过上述结论也受到一些因素的调节, 比如, Xing 等(2023)发现员工核心自我评价水平越高,越会将负面绩效反馈视作提升与改善绩效的机会,从而提高内部归因与学习绩效。而本研究深入探究人机反馈的差异化影响, 发现 AI (较人类管理者)提供负面绩效反馈可能会提升个体的内部归因。并结合人机不同的反馈特征(比如, 相较于人类, AI 具备更少的主观或伤害意图) (蒋路远等, 2022)进行了解释。本研究结果表明, 在削弱负面刺激的消极影响时(如采用 AI 替代人类管理者进行负面绩效反馈), 个体可能会加强内部归因。这为归因理论解释不利性结果中个体的归因倾向或行为表现提供了新的认识。

　　6.2管理启示

　　本研究也具有一定的管理启示。首先, 传统由人类管理者主导的负面绩效反馈可能破坏领导?下属关系, 引起员工负面情绪并降低绩效水平(Ni & Zheng, 2024)。而本研究的结果表明, AI (较人类管理者)增强了个体的内部归因与绩效改进动机。本研究启示组织可以应用数智化技术赋能绩效管理流程, 发挥 AI 客观、无偏的绩效反馈优势。这一方面能够减轻人类管理者提供负面绩效反馈的压力, 另一方面, 来自 AI 的负面绩效反馈更容易被员工接纳, 从而提升反馈实施的效果。

　　第二, 尽管数智化技术具有高效、客观、标准化等优势, 但它减少了绩效反馈过程中的人际互动或同理心(董毓格等, 2022; Yalcin et al., 2022), 因此需要区分人机反馈不同的应用场景。根据本研究的结果, 组织应关注人机负面绩效反馈中的任务特征, 比如, AI 以其客观和无偏的特征为客观任务(比如业绩分析、销量预测等)中的负面绩效反馈提供优势。但相比于人类管理者, 由于 AI 缺乏社会与互动属性, 因而在主观工作任务(比如人际沟通、冲突管理等)中进行负面绩效反馈的效果较差。据此,组织应事先辨别任务的类型, 从而充分发挥人类管理者与 AI 各自的反馈优势。

　　第三, 本研究为人机负面绩效反馈后, 组织帮助员工进行积极的心理建设提供了管理启示。由于员工对人机负面绩效反馈的内部归因会影响员工的绩效改进动机, 对负面绩效反馈的内部归因越高,绩效改进的动机也越高。因此, 组织需要关注人机负面绩效反馈后员工的归因方式, 并加强绩效沟通,帮助员工及时地发现自身不足或改善绩效反馈流程, 从而提升员工绩效。

　　6.3 研究局限与展望

　　本研究也存在一些局限。首先, 未来 AI 可能以人类的外在形象(例如, 虚拟员工)进入工作场所,与人类员工共事并提供绩效反馈(Yam et al., 2023)。未来研究可以在更为真实的人机反馈场景(例如,虚拟同事提供反馈), 操控被试的绩效反馈来源感知(来自人类 vs. AI vs.人机混合), 从而加深人机的比较。其次, 以往研究指出, 反馈的特征是影响绩效反馈效果的重要因素。本研究主要关注以绩效表现排名为呈现方式的客观型反馈(objective feedback)。由于人类管理者与 AI 在沟通及情感属性方面的差异, 未来研究可以更多地探索人机在评价型反馈(evaluative feedback; 比如开放性, 质性或针对具体问题的反馈)方面的影响差异(Johnson, 2013)。

　　另外, 未来研究可以更多关注人机绩效反馈中的文化因素。比如, 在中国传统中庸和谦和文化的影响下, 管理者为避免冲突往往采用“三明治”式的反馈形式, 即在负面的反馈中夹杂鼓励与赞扬性质的正面反馈。由于 AI 通常因缺乏“人情味”而遭到个体的厌恶(Dietvorst et al., 2015; Luo et al., 2019),未来研究可以探索 AI 采用“三明治”式的绩效反馈策略对员工绩效表现的影响。此外, 相比于西方,东方社会在和谐文化的影响下, 人际间的沟通方式更为含蓄(耿紫珍等, 2020), 这可能导致东方社会中的个体更加消极地应对负面绩效反馈, 继而影响人机负面绩效反馈的差异化效果。未来研究可以采用西方样本, 探究文化背景差异下人机负面绩效反馈的效果。

　　再者, 本研究聚焦于归因理论中的因果控制点视角(内部和外部归因)。事实上, 归因理论的内涵非常丰富。比如, 按照归因的稳定性水平, 个体的归因可被划分为能力归因(ability attribution; 即把事件的结果归因于自身的能力)与努力归因(effort attribution; 即归因于自身的努力或投入程度)。按照归因的可控性, 个体可能会将事件结果归结为可控因素(能力、努力等), 抑或不可控因素(运气、任务难度等) (Russell, 1982; Weiner, 1985)。考虑到 AI能够基于大数据对个体进行画像性分析, 并深入解析人类在性格、爱好与能力等方面的特征(Fan et al., 2023), 未来研究可以基于更多归因理论的视角,或进行视角结合(例如, AI 提供的负面绩效反馈能否提升员工对于能力的内部归因, 并影响绩效改进动机), 从而进一步丰富归因理论对人机绩效反馈产生差异化效果的解释。

　　最后, 本研究关注人机负面绩效反馈影响员工绩效改进动机这一近端的结果。未来研究可以探索人机提供负面绩效反馈对员工实际行为表现(例如绩效水平, 学习行为等)的影响, 从而拓展人机负面绩效反馈的影响后效研究。

心理学报杂志论文格式要求是什么?

心理学报杂志近十年出版发文量：

心理学报杂志已发表格式范文参考

1.负面绩效反馈下员工绩效改进动机的人机比较*