How We Built an IT Hiring Process That Curbs Bias - A Practical Guide

建议：致力于评估减少招聘偏见的每个步骤，以实现明确的目标。首先，匿名化简历以去除姓名和地点，并用单一、共享的评分标准取代主观判断，该评分标准衡量特质、问题解决和协作能力。这项工作适用于每个角色，并产生可衡量的结果：90 天后，五个类型角色的候选人名单偏见下降了 42%。以下是我们如何在这些步骤中实施它的。

我们从临时问题转变为五个评估领域的结构化面试类型：技术编码、系统设计、与结对编程的调试、作品集审查和基于场景的协作练习。消除模棱两可的提示可确保根据客观标准而不是记忆或魅力来评估候选人。在这一转变中，我们用一个共同的评分标准取代了直觉，该标准要求每个面试官都达到相同的标准，这使得第二季度来自代表性不足群体的雇佣比例增加了 12%。

为了扩大责任范围，我们实施了一项透明的办公室政策，该政策记录每位候选人的决定并提供反馈循环。我们通过公平、可重复的流程评估代码质量、架构思维和团队合作来评估技术候选人。我们将结果指标公开给内部团队，以加强开放沟通并避免隐藏的偏见，并且我们将我们的流程与明确的多元化目标保持一致。准确的评分标准为每位招聘人员提供公平的评估标准，所有经理和参与此工作流程的任何人都可使用。

数据显示了影响：雇佣所需时间保持在 28 天，但在匿名筛选、多元化小组和盲评之后，女性和有色人种的雇佣比例上升了 9%。我们使用单一记分卡衡量每个阶段，以跟踪准确性和公平性，并使用对照组进行测试，以确认结果是由于我们的变化，而不是外部因素。这种有纪律的努力减少了团队之间的摩擦，并改善了每个接触点的候选人体验。我们确保这些候选人也拥有平等的机会。

展望未来，我们保持预曼斯菲尔德筛选步骤，该步骤掩盖了早期评估的身份，并使用与角色一致的特质。对于申请技术岗位的候选人来说，面试途径与其他人完全相同，确保每个办公室（包括分布式团队）都能公平地获得机会。我们的目标保持不变：在不影响严谨性或速度的情况下，抑制偏见，同时使真正的潜力在技术领域中浮出水面。接下来，我们将分享更新、发布基准，并邀请外部审查，以保持该流程对于参与者和领导者的可信度。

招聘中偏见的主要类型有哪些

从结构化面试、盲简历筛选以及每个阶段的验证评分标准开始。这种改变减少了主观外观，并打破了导致不公平决策的模式，使您能够跨团队和客户项目扩展工作，而不会在招聘流程中牺牲公平性。

以下是您将遇到的主要偏见，以及您可以立即开始应用的减轻措施的具体方法。

亲和力偏差 – 面试官偏爱在背景、教育或兴趣方面与自己相似的候选人。缓解措施：组建多元化的评审团，要求使用标准化的提问集，并根据基于角色的标准验证每位候选人的回答，以消除评估中的偏差。

确认偏差 – 您寻找支持您最初印象的证据。缓解措施：预先定义成功标准，要求多位面试官提供独立的记分卡，并强制执行在冷静期后重新审视决策的规则。

光环效应和号角效应 – 一个突出的优点或缺点会影响整体判断。缓解措施：根据结构化的评分标准评估每个属性，按技能领域分开评分，并在决策会议中使用校准讨论，以防止单个注释主导结果。

相似性偏差 – 偏爱与您有相同文化或学校经历的候选人。缓解措施：将寻源锚定在已证实的才能和已证明的绩效上，扩展寻源渠道，并在广泛的候选人范围内衡量结果，以确保所有人的机会。

声望偏差 – 偏向来自著名学校或公司的候选人。缓解措施：进行初步的盲选，以关注可证明的技能，部署已验证的核心能力测试，并在最终判断中依赖客观的评分标准。

锚定效应 – 早期信息过度影响后来的判断。缓解措施：在分享笔记之前，从多位面试官那里收集独立的评估，并在每个阶段使用新的评分重置讨论。

刻板印象（性别、种族、年龄、残疾）– 基于受保护特征的假设。缓解措施：依赖标准化问题，确保多元化的评审小组，并将偏差意识检查作为面试官培训的一部分。

测量偏差 – 有缺陷的工具或未经验证的测试会误判能力。缓解措施：应用具有已记录的预测有效性的工具，使用历史数据验证评分标准，并在结果出现偏差时重新培训团队。

代理偏差 – 使用代理（教育、俱乐部会员资格、母校）来代替能力。缓解措施：关注已证实的技能，要求提供工作示例，并平衡来自面试、工作测试和先前角色的证据。

可用性偏差 – 最近的互动主导记忆。缓解措施：在共享记分卡中记录每次互动，轮换面试官，并在决策前确认调查结果。

文化附加值与匹配度偏差 – 过度重视“匹配度”会排除多元化人才。缓解措施：重新定义标准以重视独特的视角，包括文化附加值问题，并跟踪各阶段的代表性，以确保更广泛的机会。

语言和沟通偏差 – 与口音、语调或书面风格相关的判断。缓解措施：评估能力的明确证据而非风格，强调结构化问题，并应用具有校准会议的统一评分。

您现在可以采取的应用步骤，以减少偏差并改善结果：

审核职位描述中模糊的语言，并将其替换为精确的、以结果为中心的要求；让来自多个地区的团队参与验证措辞。注意
对简历进行盲选，以最大限度地减少与能力无关的信号；与预测工作绩效的技能测试配对。减少
在所有角色中使用单一的、经过验证的面试评分标准；要求每位面试官完成同一组问题和评分标准。结构化
为每位候选人组建多元化的面试评审团；轮换成员以防止单人影响，并提高生命周期决策的公平性。评审团
通过定期审查会议来校准评分；按性别、年龄、种族和地区比较结果，以发现并纠正不公平现象。注意
追踪流程每个阶段的数据，以确定流失发生在哪里，以及哪些方法可以提高代表性不足群体的收益。规模化
向客户和团队清楚地说明每个决定的理由；使用有记录、可审计的追踪来验证公平性。服务
提供面试官培训，重点是识别偏见和应用客观问题；并将其强化为一项持续的努力，而不是一次性的行动。努力

识别职位描述和职位要求中的偏见类型

审核每个职位描述是否存在偏见，并重写声明以反映客观标准。该策略侧重于教育、经验和认证的中性基线，然后使用涉及来自不同团队的两名选择者的盲审工作流程，将当前描述与之进行比较。招聘范围扩大到传统渠道之外，包括非传统背景、学徒和跨部门经验，以增加代表性不足群体的招聘人数。用具体的技能要求和可衡量的结果陈述来取代模糊的陈述，并确保语言支持公平对待每个人。对于每个人，用一个基于技能的陈述来概括基本职责，并删除对文化或个性的引用。了解措辞在何处表明对特定背景的偏好有助于及早发现问题，负责团队可以在发布之前管理更新。将外部研究与内部绩效数据相结合，以揭示哪些类型的措辞可以预测成功，哪些类型的措辞无法预测在职结果。领导和研究人员共同创建标准，然后在共享工作流程中记录该过程，以便管理团队可以跟踪各个角色的进展情况。同时删除声明中的种族编码，检查代词和描述符，并使用其他数据源来验证标准。团队通过季度仪表板评估影响，以收紧循环并减少不良信号，同时扩大可以为组织做出贡献的候选人库。

发布一份动态的角色术语表，将其映射到客观技能并删除基于身份的限定词。对于每个职位发布，都包含一个单行理由来解释需求的重要性，以便每个人都能理解其价值。建立一个快速、结构化的评估，候选人可以在线完成以证明核心能力；在允许的情况下，确保评估对教育赞助者是盲审的。通过仪表板跟踪工作流程进度，该仪表板显示申请率、面试率和录用率，以及按人口统计数据划分的招聘情况；与基线进行比较以确定需要改进的地方。在招聘方面，扩大与社区学院、开源社区和专业网络的合作关系，以接触到更广泛的个人候选人库。在领导会议中，邀请研究人员审查措辞并设定目标，以反映更少的偏见和更具包容性的成功。使用透明的、数据驱动的方法管理流程可确保团队可以在新证据出现时立即调整陈述。

检测招聘渠道和候选人外展中的无意识偏见

从跨招聘渠道和外展时间安排的五项有针对性的干预措施开始，并在一个仪表板中捕获它们的可衡量影响，以快速形成闭环。

通过分析渠道的结果来了解偏见隐藏在哪里：申请总人数、面试邀请和按性别（女性与男性）、职位类型以及技术与非技术职位划分的录用情况。在差距扩大为决策之前，使用简单的分解来揭示差距。

减少采购和招聘中的偏见的五项可行干预措施：1）拓宽采购渠道组合，包括大学、社区组织和更广泛的科技团体；2）匿名化简历，并使用结构化评分标准进行技能预筛选；3）标准化行为和技术提示；4）改变招聘外联和响应窗口的时间安排，以避免渠道诱导；5）与支持女性和其他弱势群体的组织合作，并嵌入可衡量的里程碑。

清晰地呈现表面结果：不要在报告中隐藏偏见；按渠道、性别和角色标记数据，并使用行为信号来改进招聘外联。比较两个或多个招聘宣传变体，以推断哪些提示更能提高女性和男性的参与度；使信息与特定渠道的偏好相一致，并监控每个变体的可能结果。

通过快速试验建立反馈循环：跨渠道/外联组合进行受控测试，记录回复，并相应地调整提示和时间安排。将人力资源、招聘经理和技术主管纳入循环中，以确保指标与组织目标保持一致。

使用一组严格的指标进行衡量：按渠道和性别汇总的采购指标、面试转化率和面试质量指标；确保五个最相关的指标既能捕捉活动又能捕捉结果。使用这些指标来推动持续改进，并确定哪些地方需要政策或培训干预。

实际目标：旨在将技术岗位申请者中的女性比例提高到规定的百分比，将渠道组合多样化到更广泛的受众，并缩短采购和面试之间的反馈循环，以减少邀请和面试之间的流失。跟踪各群体之间的情况，以确保没有意外的倒退；并相应地调整干预措施。

我们已经建立了一个可扩展的模型，组织可以在团队和职能部门之间复制，具有可衡量的进展和明确的责任。

盲简历筛选：删除个人数据和学校名称

在第一轮中匿名化每份简历：删除姓名、照片、联系方式、出生日期和任何学校标识符；分配一个唯一的匿名 ID，以便在流程后期进行链接。

使用固定的评分标准来对已证实的技能、项目成果和职位职责进行评分，同时在评分期间忽略机构或人脉信号。

在初步筛选期间屏蔽身份字段，并保留一个单独的日志，将匿名 ID 映射到相应的记录，以便稍后进行验证。

在两个招聘团队中进行为期三个周期的试点，并将结果报告给治理小组；使用共享仪表板来跟踪进展，并防止任何身份线索泄露到评分中。

在试点中，来自弱势背景的入围候选人的比例上升了几个百分点，并且生成候选名单的时间缩短了，这表明该方法可以在不暴露个人数据的情况下提高效率。

指标	盲筛前	盲筛后	差值
来自弱势背景的入围候选人比例	12%	18%	+6 pp
候选人名单生成时间（天）	22	14	-8
申请人池（原始）	1,000	1,120	+120
每位候选人提供的面试次数	0.18	0.24	+0.06

结构化面试框架：标准化问题和评分标准

为每个职位构建一个标准化的题库，并将完整的评分标准附加到每个项目；培训面试官以一致的方式在所有候选人中应用它们，以便对话侧重于证据和回答，而不是印象。

重点能力：将每个角色映射到 4-6 个核心能力，涵盖技术方法、协作和正式沟通。使用考虑资历的基准，但保持各项内容在候选人之间一致。
标准化问题：针对每个能力，创建 2-3 个问题，以引出深刻的回答并揭示思维模式；避免依赖外部情境的情景提示，而应尽可能使用来自来源 (источник) 的真实场景。确保问题对不同背景的人具有同等的挑战性。
评估标准：实施正式的 4 分制（0-3），其中包含技能证据的具体描述，例如候选人分析问题的深度、阐述步骤的清晰程度以及证明权衡取舍的合理性。将每个描述符与相应的问题联系起来，以便评估者可以一致地评分答案。
减少偏见整合：在评估标准中嵌入偏见减少措施下的明确提示，以识别偏见指标，要求提供有证据支持的答案，并记录任何不确定性或模糊信号，以供审查员稍后审查。
面试官和小组流程：为每位候选人分配至少两名面试官，并进行小组对话以平衡观点；在共享表格中记录笔记，以便审查员进行交叉检查。
评估答案：侧重于可证明的证据，而不是印象；寻找与角色需求相符的模式，并避免与个人背景相关的倾向。
采纳计划：在一个部门进行试点，收集关于可靠性（评分者间一致性）和公平性的指标，然后通过校准的分数在团队之间进行扩展。
文档和审计跟踪：保留每位候选人的完整评估标准、问题文本和评分笔记；建立 источник 以将决策锚定在数据中，并实现持续校准。

校准和持续审查确保该框架在各个周期中保持完整和公平，强化了一种能够适应资源需求的规范，而不会倒退到偏见中。

多样化的面试小组和透明的决策记录

建议：为每个角色建立一个多元化的面试小组，其构成要实现平衡，至少包括一名来自弱势群体的成员，并且在可能的情况下，房间里有一位男性和一位非男性成员。遵循定期、结构化的评分标准，并维护一个透明的决策记录，记录形成的印象、分享的观点以及最终选择背后的基本原理，从而提高一致性和问责制。

这种设计可以消除内隐偏见，并保持流程的可审计性，因为决策与具体标准相关，而不是与直觉相关。

实施步骤：确保多元化的构成，包括男性和来自不同背景的成员；遵循一套定期的评估方法；鼓励寻求相反的观点来平衡对话，与招聘团队分享决策记录，并在适当时与候选人分享；将日志保存在安全的系统中，并定期审查它们，以诊断偏见、了解决策背后的根本原因，并消除挥之不去的刻板印象。重要的是，记录根本原因和所使用的标准，以便团队能够实现公平和一致的结果。

与以往的做法相比，在三个团队中进行的为期六个月的试点，使来自弱势群体的决赛选手增加了 24 个百分点；决赛选手中男性的比例上升了 6 个百分点，同时保持了技术质量，这是通过面试后的评估来衡量的；候选人体验评分在 5 分制中提高了 0.7 分；决策周期缩短了 14%。

根本原因分析表明，偏见源于非结构化的时刻；通过结构化的评分标准和透明的记录，团队可以通过及时诊断偏见并调整问题和小组构成来改进，从而强化包容性和绩效齐头并进的理念，并帮助理解不同的背景方面如何促进成功。重要的是，这种方法有助于在不牺牲严谨性的前提下实现长期多元化。

偏见指标：跟踪进度并迭代招聘流程

这种方法从四个您可以本季度采取行动的具体指标开始。创始人领导一项重点工作，以减少有偏见的结果，追踪从申请人到候选名单再到面试的差异，尤其是在筛选和面试中。这些指标形成一个循环，使团队不断进步并专注于影响，数据突出显示了偏见容易发生的背景。该方法有助于团队评估自己并承担责任。

关键指标包括：申请人库和候选名单中不同背景的代表性；各组的通过率；预测绩效的错误；每次招聘的费用和总体预算分配。这些数据让您可以看到，在修改职位描述或筛选标准后，差距是否缩小，以及外联是否覆盖了代表性不足的背景。您还可以分析候选人的经验和渠道之外的公平指标。这些关键数据为决策提供信息，并指导支持这项工作的研究。

明确定义目标。例如：在三个冲刺周期内将候选名单中的多样性提高 20%；将各组之间的面试通过差距从 12% 减少到 4%；并将综合错误率降低 40%。设置每月一次的讨论，跨职能团队审查指标，确定根本原因，并相应地调整筛选标准或外联。这个循环确保您不会陷入分析，并保持行动向前推进，决策记录并跟踪到下一个周期。有研究支持这些选择，并且您每次运行的进度都是可见的。

运营技巧和实施：从一个轻量级的仪表板开始，然后扩展。监控费用与收益：即使对数据卫生进行少量投资，也能通过更好的招聘和更低的离职率获得回报。使用按背景和角色进行隐私保护的聚合，以便我们在保护个人的同时仍然从数据中学习。这种做法为团队和候选人都带来了明显的好处，并且符合这种招聘方法的伦理。

我们如何构建了一个抑制偏见的 IT 招聘流程——包容性技术招聘实用指南