在领英、Wealthfront、eBay 进行的 AB 测试塑造了我的领导力

让每次领导决策都以测试为导向：首先针对下一个产品变更进行有重点的 A/B 实验，然后与团队在回顾会议中审查仪表板结果。这种在 LinkedIn、Wealthfront 和 eBay 实践的方法，可以赋能员工，体验数据如何揭示下一步的行动，并将学习成果转化为指南，帮助您预测对整个团队的影响。

使用简单的节奏来保持势头：每次实验后的回顾，核心指标的仪表板，以及将测试与产品工作中的阶段门相关联的生命周期。在 fidji，我们运行为期 2 周的冲刺，假设的大小可以在窗口内完成，这帮助团队在不使利益相关者负担过重的情况下取得进展；该过程使结果可预测，并使员工团队的学习成果切实可见。

围绕明确的假设、基线和定义的成功指标来设计每个测试。尽可能使用随机化和保留区段以避免偏差；确保数据质量，并将学习成果记录在指南中，以供未来决策参考。当结果显示出影响时，在会议中将其升级到更广泛的受众，并计划后续实验进行验证。这种节奏确保团队不应该追逐虚荣指标，并将体验与数据转化为具体行动。

作为最终的管理者，将少量的实验转化为可扩展的习惯。承诺每个季度进行 2-3 个实验，将每个实验与仪表板和回顾摘要相结合，并在会议上分享发现，以影响招聘、培训和资源分配。通过将生命周期和 fidji 见解融入日常决策，使团队更加强大。这种方法使实现更大成果的道路更加艰难，但对于每个员工来说都更加清晰，并且可以让您赋能他人来领导他们自己的实验并指导他们的同伴。

具体的操作手册：将实验转化为领导实践

从与团队健康和绩效相关的单一、高影响的假设开始，并运行为期 6 周的试点，其中包含明确的成功标准。

定义、许可和所有权

定义：用一句话写下假设，并指定用于衡量影响的主要数据驱动指标。
许可：获得高管赞助和团队支持；设置护栏以管理风险，并确保在信号出现时可以快速行动。
所有权：分配负责人（通常是经理）和一个跨职能赞助人；该实验成为您管理议程和自我赋权中可见的一部分。在您的角色和行政层之间，定义决策权和升级路径，以保持速度和问责制一致。

具体步骤

选择 1-3 个与您的健康指标（保留率、周期时间、参与度）相符的高杠杆实验。示例：测试简化的每周站立会议，以减少 20% 的返工。
使用数据驱动的指标进行设计：定义成功阈值，跟踪效果迹象，并根据稳健的样本量决定扩展。使用仪表板比较对照组和处理组。
运行 4-6 周，采用预先注册的计划：包括基线、中期检查和最终评估；从您的团队收集定量数据和定性信号。
指导和沟通：以简洁、客观的方式与您的团队和首席执行官分享经验教训；保持学习的语气，而不是责备，并强化您期望的轨迹。
决定规模化：如果实验改善了健康状况和绩效，则将该实践编入标准操作节奏；如果不是，则停止并捕获洞察力以供未来周期使用。
深思熟虑地扩展：在相邻团队中复制该方法，仅适应特定于领域的变量；构建一个轻量级手册来帮助其他人。
在看到持续的影响之前，迭代改进该过程；您的经验不断增长，并为您的下一个领导行动提供信息。

工具和数据注意事项

使用调查工具、遥测、项目指标和自助服务仪表板来收集数据；保持决策的透明性和可共享性。
为每个实验维护一页纸的成功定义；将其与业务成果和团队健康指标联系起来。
将该过程记录为您的管理链可以审查的实时指南；这成为您领导工具包的一部分，并有助于跨团队扩展。
实验与健康结果之间存在直接联系；同时跟踪两方面，以避免仅为了输出而过度优化。
避免沉迷于虚荣指标；专注于反映可持续改进和实际客户价值的指标。

健康的项目迹象

团队表现出好奇心和责任感；决策以数据为基础，而不是教条。
高管们看到了明确的价值；管理仪表板中存在审查节奏和可见的影响。
随着规模的扩大，健康指标保持稳定或改善；团队和战略之间没有倦怠或不一致。

真实世界的例子

最初的方法始于一项为期 6 周的实验，旨在限制在制品并引入每周 30 分钟的回顾；经过 3 个周期后，周期时间缩短了 18%，质量错误减少了 12%，团队满意度在内部健康指数上上升了 9 个百分点。该实践由一位中层管理人员发起，成为领导例程的一部分，并作为一种可重复的管理工具扩展到两个产品团队。

使用可测试的假设和明确的成功标准定义 MVP

将 MVP 定义为在冲刺中测试单个假设的最小可行实验。这可以保持范围的紧凑性并加快学习速度，从而为决策提供信息，帮助管理人员在不过度建设的情况下追求影响力。选择一条以有意义的客户成果为目标并展示产品和业务的健康信号的路线。

用一个清晰的句子来构建假设：如果我们改变 X，那么对于 Z 用户来说，Y 就会发生。这个定义告诉团队要衡量什么以及为什么重要。设置良好、具体的成功标准：主要指标、目标阈值和标记完成的时间限制条件；定义您衡量的东西。

以同等的纪律性设计数据计划：指定仪器、确定样本量并建立停止规则。通过检查数据质量、偏差和参与者流量来跟踪测试的健康状况。如果在阶段结束时主要指标达到其阈值，您可以继续；如果不是，请记录证据所说的内容并决定后续步骤。

优先级排序指导首先运行哪个 MVP：评估影响、精力和风险，并将其映射到路线图。一些首席执行官想知道如何平衡速度和深度。当时间需要速度时，选择较小的赌注；当增长面临风险时，倾向于具有更广泛学习的实验。这条路线有助于首席执行官和管理者保持一致，并授权团队采取行动。我们平等地权衡影响和努力。

执行与评估：在冲刺结束时，评估结果，决定是坚持、调整方向还是放弃这个想法。记录学习到的知识，以指导下一个路线图阶段。这种有纪律的循环支持个人责任，帮助公司前进，并向高级领导明确地阐述情况。

选择能揭示真实用户价值而非虚荣指标的指标

选择一个能将用户价值直接与结果联系起来的北极星指标，并用两个可每周影响的可操作的先行指标来支持它。团队成员应该在仪表板中看到影响，而不仅仅是被告知数字发生了变化。

用具体的术语定义价值，并将其转化为可以持续衡量的指标。例如，跟踪注册、七天内激活和三周留存率，将其作为真正的价值信号，而不是虚荣计数，并保持与用户结果的简单映射。这些指标，如果使用得当，可以指导产品决策。避免玩弄虚荣计数；利用数据来指导决策。

将每个指标映射到用户旅程步骤，并创建一个看板来管理实验和发布。保持工作量小，限制在制品，并运行短周期，以便洞察保持新鲜。总而言之，这种结构减少了噪音，并使进展可见。

通过可靠的仪器和干净的代码度过扩展阶段，以保持实验的热情。如果势头减弱，Molly 和 Sean 会带领大家进行回顾，以调整路线图并重新确定优先事项。

回顾会将学习转化为行动；邀请整个团队回顾哪些有效，哪些无效，以及为什么。这个会议加强了价值观，统一了优先事项，并直接反馈到下一组实验中。

就我个人而言，我将指标映射到产品领域，并与团队一起进行简短的阅读会议，以解释用户实际做了什么，而不是数字看起来如何。

两到三个实用的先行指标可以保持重点：注册后的激活率、首次实现价值的天数和重复使用率。为每个指标指定一个负责人，设定一个目标，并每周进行审查，确保结果能带来切实的用价值，而不是虚荣信号。

当然，这种纪律会在清晰的路线图和与利益相关者的可信对话中得到回报；当人们理解了“什么”和“为什么”时，扩展就会变得更顺畅，决策也会觉得扎根于真实的用户结果。

大规模测试的设计模式：随机化、控制和护栏

每次大规模测试都从预先注册的随机化计划开始，明确定义变体组，并设置护栏，如果安全指标恶化，则自动回滚。工程团队在设计阶段实施这些控制措施，以便在发布期间保持市场和员工体验的稳定，从而提高有纪律的实验的好处并提高可靠性，这有助于避免让利益相关者失望。

随机化应按市场、区域、流量来源和设备进行分层，以确保其受众的曝光平衡。对于大型测试，每个组至少需要 50,000-100,000 名用户，以便在 95% 的置信度下以 80% 的能力检测到 5-8% 的提升。在流量开始增加时，使用阻塞和重新随机化来限制漂移。使用这些模式的工程师可以加速学习并缩短发布时间。

控制：运行一个强大的基线组，以反映当前的生产体验；隔离功能标志的影响；如果需要，运行多个控制变体以将噪声与信号分开。验证随机化是否创建了可比较的组；如果出现问题，迅速隔离以保持开发速度。

防护栏：定义预先指定的决策规则和自动保护措施。如果您想要更快、更可靠的决策，防护栏可提供清晰的升级路径。为安全违规设置停止规则，并在提升估算值超过阈值时要求人工审查。确保回滚自动进行，无需工程师干预，并记录每次翻转，以便向老板清楚地说明发生了什么。

运营节奏和文化：使用遥测技术对工具测试进行检测，确保工程师可以使用仪表板访问数据；启动后，对每次失败的测试进行事后分析；协调产品、设计、工程和数据科学之间的需求和职责。完整的规范很早就开始了，实验嵌入在开发中，并且管理人员可以看到他们的团队如何使用这些发现来提高交付速度和降低风险。

闭环：将结果转化为路线图、指导和规范

首先，将每个结果转化为问题陈述、影响评估，以及具有明确负责人的优先待办事项。确定所需的资源并设置具体的发布目标，以避免范围蔓延。使用轻量级的评分模型来比较影响和工作量，并决定首先推进什么。

构建一个六到八周的路线图，将实验与发布联系起来。对于每次发布，指定 2-4 个实验、成功标准以及通过/不通过的决策。建立数据计划、简单的预测，并为每个项目指定明确的负责人，以确保责任制和速度。

指导从管理人员开始，他们每周召开会议审查结果、调整评估并加强最佳实践。利用会议将数据转化为实际的指导时刻，并随着时间的推移提高团队的能力。

通过简洁的更新与首席执行官和其他利益相关者分享调查结果，突出影响、风险以及继续进行所需的条件。保持叙述的紧凑性：将问题与路线图上的行动联系起来，并清楚地解释任何权衡。

主页工作成为一个具体的例子：将更改定义为诸如提高参与度之类的问题，概述最小的更改，记录评估和所需的资源，并指定发布日期。使用大小相同的队列进行测试，监测早期信号，并且仅在信号一致时才升级。

意图和规范：创建一个单一的事实来源文档，跟踪问题、评估、资源、实验、发布和结果。保持更新，并定期审查，以保持专注和动力。

将一些快速胜利的项目放入管道中，以建立信任和动力。如果您不确定影响，请进行风险较小的规模较小的测试，然后仅在有明确证据和经过验证的路径后才继续推进。强大的学习、指导和规范执行循环推动了最终的回报：为用户提供更好的产品和更有能力的管理者。

来自 LinkedIn、Wealthfront 和 eBay 实验的三个实用经验

首先，采用严格的无估算驱动的实验节奏，将资源与快速、可观察的结果联系起来。在工程和产品团队中构建端到端的小型测试，并每周循环运行。在实践中，目标是 5 天的学习循环和 2 周无估算冲刺，以确认或丢弃正在测试的事物；这种节奏通常可将计划开销减少 40%，并使工程师和产品经理的职业道路学习速度提高一倍。

第一课：在工程、产品和与用户的对话之间建立紧密的联系，以加速统一。要测试的内容应该是一个单一的假设，而不是一揽子假设；跟踪一小部分指标，例如激活率和技术债务的健康状况，并在共享的仪表板中观察影响。 krieger 领导该小组进行具体的测试，并且学习成果会超越单个职能部门。

第二课：使用通用模板和假设列表来标准化实验，避免 noestimates 不一致，并将结果与竞争对手的信号进行比较。一个典型的测试组合可能包括 6-8 个项目，其中包含明确的通过/不通过标准，以及关于扩展内容的有数据支持的决策。这种方法可以为团队节省 20-30% 的周期时间，并使整个产品和技术堆栈的资源配置决策更加清晰。

第三课：通过记录原始学习内容，将对话和互动转化为可重复的实践，并将全部、可扩展的经验传递给他人，从而保护健康并在整个公司范围内扩展经验。

LinkedIn、Wealthfront 和 eBay 的 A/B 测试如何让我成为了更好的管理者