LinkedIn Wealthfront eBay에서의 AB 테스트, 나의 리더십을 만들다.

모든 리더십 결정을 테스트 기반으로 내리세요. 다음 제품 변경 사항에 대한 집중적인 A/B 실험부터 시작하여 팀과 함께 *회고* 회의에서 대시보드 결과를 검토하세요. LinkedIn, Wealthfront 및 eBay에서 실천한 이 접근 방식은 직원을 권한 부여하고, *데이터*가 다음 단계를 어떻게 드러내는지를 *경험*하며, 학습 내용을 팀 전체에 미치는 영향을 *예측*하는 데 도움이 되는 가이드로 전환합니다.

간단한 케이던스를 사용하여 추진력을 유지하세요. 각 실험 후 *회고*, 핵심 지표 대시보드 및 테스트를 제품 작업의 단계 게이트에 연결하는 *수명* 주기가 있습니다. fidji에서는 창 안에 완료될 수 있도록 가설을 크기 조정하여 2주 스프린트를 실행했는데, 이는 이해 관계자에게 과부하를 주지 않으면서 팀이 진전을 이루는 데 *도움*이 되었습니다. 이 프로세스 덕분에 결과를 *예측*할 수 있었고 *직원* 팀에게 학습 내용이 확실하게 다가왔습니다.

명확한 가설, 기준선 및 정의된 성공 지표를 중심으로 각 테스트를 설계하세요. 가능한 경우 무작위화를 사용하고 보류 세그먼트를 사용하여 편향을 피하세요. *데이터* 품질을 보장하고 향후 결정을 위해 *가이드*에 학습 내용을 기록하세요. 결과가 영향을 미치면 회의에서 더 많은 청중에게 확대하고 후속 실험을 계획하여 검증하세요. 이 케이던스는 팀이 허영 지표를 쫓지 않도록 하고 *데이터*에 대한 *경험*을 구체적인 행동으로 전환합니다.

궁극적인 관리자로서 소수의 실험을 확장 가능한 습관으로 바꾸세요. 분기당 2~3개의 실험을 약속하고, 각 실험을 대시보드 및 *회고* 요약과 짝을 이루고, 회의에서 결과를 공유하여 채용, 교육 및 리소스 할당에 영향을 미치세요. *수명* 주기와 *fidji* 통찰력을 일상적인 결정에 통합하여 팀을 강화하세요. 이 접근 방식은 모든 *직원*에게 더 큰 결과에 도달하는 경로를 *더 어렵게* 만들지만 더 명확하게 만들고, 다른 사람들이 자신의 실험을 이끌고 동료를 안내하도록 권한을 부여하도록 유지합니다.

구체적인 플레이북: 실험을 리더십 실천으로 전환하기

팀의 건강과 성과에 관련된 단일하고 영향력이 큰 가설로 시작하여 명시적인 성공 기준을 사용하여 6주 파일럿을 실행하세요.

정의, 허가 및 소유권

정의: 가설을 한 문장으로 작성하고 영향력을 측정하기 위한 주요 데이터 기반 지표를 지정합니다.
허가: 임원 후원 및 팀 구매 동의를 확보합니다. 위험을 관리하고 신호가 나타나면 빠르게 움직일 수 있도록 안전 장치를 설정합니다.
소유권: 리드(종종 관리자)와 교차 기능 스폰서를 할당합니다. 실험은 관리 의제 및 자기 권한 부여의 눈에 띄는 부분이 됩니다. 역할과 임원 계층 사이에서 속도와 책임의 정렬을 유지하기 위해 의사 결정 권한과 에스컬레이션 경로를 정의합니다.

구체적인 단계

건강 지표(유지, 주기 시간, 참여)에 맞춰진 1~3개의 높은 레버리지 실험을 선택하세요. 예: 재작업을 20% 줄이기 위해 간소화된 주간 스탠드업을 테스트합니다.
데이터 기반 지표로 설계: 성공 임계값을 정의하고 효과 징후를 추적하고 강력한 샘플 크기를 기반으로 스케일링을 결정합니다. 대시보드를 사용하여 제어 그룹과 치료 그룹을 비교합니다.

사전 등록된 계획에 따라 4~6주간 운영: 기준선, 중간 점검, 최종 평가를 포함하고, 팀으로부터 정량적 데이터와 정성적 신호를 모두 수집합니다.

코칭 및 소통: 팀 및 CEO와 함께 간결하고 사실적인 형식으로 학습 내용을 공유합니다. 비난보다는 학습의 어조를 유지하고 원하는 방향을 강화합니다.

확장 여부 결정: 실험이 건전성 및 성과를 향상시키면 해당 사례를 표준 운영 리듬으로 체계화합니다. 그렇지 않은 경우 중단하고 향후 주기를 위해 통찰력을 확보합니다.

사려 깊게 확장: 도메인별 변수만 조정하면서 인접 팀에서 접근 방식을 복제합니다. 다른 사람을 돕기 위한 간단한 플레이북을 구축합니다.

일관된 영향을 확인할 때까지 프로세스를 반복합니다. 경험이 쌓이면서 다음 리더십 활동에 도움이 됩니다.

도구 및 데이터 고려 사항

설문 조사 도구, 원격 측정, 프로젝트 지표 및 셀프 서비스 대시보드를 사용하여 데이터를 수집합니다. 결정을 투명하게 유지하고 공유 가능하게 합니다.
각 실험에 대한 성공 정의를 한 페이지로 유지합니다. 비즈니스 성과 및 팀 건전성 지표에 연결합니다.
관리 체인이 검토할 수 있는 살아있는 가이드로 프로세스를 문서화합니다. 이는 리더십 툴킷의 일부가 되어 팀 간 확장에 도움이 됩니다.
실험과 건전성 결과 간에 직접적인 연관성이 있습니다. 산출량만을 위해 과도하게 최적화하지 않도록 양쪽을 모두 추적합니다.
허영 지표에 중독되지 않도록 합니다. 지속 가능한 개선 및 실제 고객 가치를 반영하는 지표에 집중합니다.

건전한 프로그램의 징후

팀은 호기심과 책임감을 보입니다. 결정은 독단론이 아닌 데이터에 기반합니다.
임원진은 명확한 가치를 확인합니다. 리뷰가 정기적으로 진행되고 관리 대시보드에서 눈에 띄는 영향이 있습니다.
확장함에 따라 건전성 지표는 안정적으로 유지되거나 개선됩니다. 팀과 전략 간에 소진 또는 불일치가 없습니다.

실제 사례

원래 접근 방식은 WIP를 제한하고 주간 30분 회고를 도입하기 위한 6주 실험으로 시작되었습니다. 3주기 후 주기 시간이 18% 감소하고, 품질 오류가 12% 감소했으며, 팀 만족도가 내부 건전성 지수에서 9점 상승했습니다. 이 사례는 중간 관리자가 시작하여 리더십 루틴의 일부가 되었고 반복 가능한 관리 도구로서 두 개의 제품 스쿼드로 확산되었습니다.

테스트 가능한 가설과 명확한 성공 기준을 사용하여 MVP 정의

MVP를 스프린트 내에서 단일 가설을 테스트하는 가장 작은 실행 가능한 실험으로 정의합니다. 이것은 범위를 좁게 유지하고 의사 결정을 알려주는 학습 속도를 높여 관리자가 과도하게 구축하지 않고도 영향을 추구하도록 돕습니다. 의미 있는 고객 성과를 목표로 하고 제품 및 비즈니스를 위한 건전성 신호를 보여주는 경로를 선택합니다.

가설을 명확한 한 문장으로 구성합니다. X를 변경하면 Y가 Z 사용자에게 발생합니다. 이 정의는 팀에게 측정해야 할 사항과 그 이유를 알려줍니다. 훌륭하고 구체적인 성공 기준을 설정합니다. 즉, 주요 지표, 목표 임계값 및 완료를 표시하기 위한 시간 제한 조건을 설정합니다. 측정할 대상을 정의합니다.

데이터 계획을 동일한 규율로 설계합니다. 즉, 계측을 지정하고 샘플 크기를 결정하고 중단 규칙을 설정합니다. 데이터 품질, 편향 및 참가자 흐름을 확인하여 테스트의 건전성을 추적합니다. 주요 지표가 단계가 끝날 때 임계값에 도달하면 진행할 수 있습니다. 그렇지 않은 경우 증거가 말하는 내용을 기록하고 다음 단계를 결정합니다.

우선 순위 지정은 어떤 MVP를 먼저 실행할지 안내합니다. 즉, 영향, 노력 및 위험을 평가하고 로드맵에 매핑합니다. 일부 CEO는 속도와 깊이의 균형을 맞추는 방법에 대해 궁금해합니다. 시간이 속도를 요구할 때는 더 작은 베팅을 선택합니다. 성장이 위태로울 때는 더 넓은 학습이 가능한 실험을 선호합니다. 이 경로는 CEO와 관리자가 조화를 이루고 팀이 행동하도록 지원하는 데 도움이 됩니다. 우리는 영향과 노력을 동등하게 중요하게 생각합니다.

실행 및 평가: 스프린트 종료 시 결과를 평가하고, 아이디어를 계속 추진할지, 방향을 전환할지, 아니면 중단할지 결정합니다. 다음 로드맵 단계를 안내할 수 있도록 학습 내용을 문서화합니다. 이처럼 체계적인 루프는 개인의 책임감을 높이고, 회사가 앞으로 나아가는 데 도움이 되며, 고위 리더에게 명확한 스토리를 전달합니다.

허영 지표가 아닌 실제 사용자 가치를 나타내는 측정 지표 선택

사용자 가치를 결과와 직접 연결하는 단일한 North Star 지표를 선택하고, 매주 영향을 줄 수 있는 두 가지 실행 가능한 선행 지표로 이를 뒷받침하십시오. 팀원들은 숫자가 바뀌었다는 말만 들을 것이 아니라 대시보드에서 그 영향을 직접 확인해야 합니다.

가치를 구체적으로 정의하고 지속적으로 측정할 수 있는 지표로 변환하십시오. 예를 들어, 허영적인 수치보다는 가입, 7일 이내 활성화, 3주 유지율을 진정한 가치 신호로 추적하고 사용자 결과에 대한 간단한 매핑을 유지하십시오. 지표는 적절하게 사용될 때 제품 결정을 안내합니다. 허영적인 수치를 가지고 장난치지 말고 데이터를 사용하여 결정을 내리십시오.

각 지표를 사용자 여정 단계에 매핑하고 실험 및 출시를 관리할 칸반 보드를 만드십시오. 작업을 작게 유지하고 WIP를 제한하며 짧은 주기를 실행하여 인사이트가 항상 최신 상태로 유지되도록 하십시오. 전체적으로 이러한 구조는 노이즈를 줄이고 진행 상황을 눈에 띄게 만듭니다.

실험의 불길이 계속 타오를 수 있도록 안정적인 계측과 깔끔한 코딩으로 확장 단계를 헤쳐나가십시오. 모멘텀이 흔들리면 몰리와 숀은 로드맵을 조정하고 중요한 사항의 우선순위를 재설정하기 위해 회고를 진행합니다.

회고는 학습 내용을 실행으로 구체화합니다. 전체 팀을 초대하여 무엇이 효과가 있었는지, 무엇이 효과가 없었는지, 그리고 그 이유는 무엇인지를 검토하십시오. 이 세션은 가치를 강화하고, 우선순위를 조정하고, 다음 실험 세트에 직접적인 영향을 미칩니다.

개인적으로 저는 지표를 제품 영역에 매핑하고 팀과 함께 짧은 읽기 세션을 진행하여 숫자가 어떻게 보이는지가 아니라 사용자가 실제로 무엇을 하는지 해석합니다.

두세 가지 실용적인 선행 지표를 통해 초점을 좁힙니다. 가입 후 활성화율, 최초 가치까지의 일수, 반복 사용 등입니다. 각 지표에 단일 소유자를 할당하고, 목표를 설정하고, 매주 검토하여 결과가 허영적인 신호가 아닌 실질적인 사용자 가치를 창출하는지 확인하십시오.

물론 이러한 규율은 명확한 로드맵과 이해 관계자와의 신뢰할 수 있는 대화로 이어집니다. 사람들이 '무엇'과 '왜'를 이해하면 확장이 더 원활해지고 의사 결정이 실제 사용자 결과에 기반을 두고 있다는 느낌을 받게 됩니다.

대규모 테스트를 위한 디자인 패턴: 무작위화, 제어, 안전 장치

모든 대규모 테스트는 사전 등록된 무작위화 계획, 명확하게 정의된 변형 그룹, 안전 지표가 저하될 경우 자동으로 롤백되는 안전 장치로 시작하십시오. 엔지니어링 팀은 이러한 제어 기능을 설계 단계에서 구현하여 시장과 직원 경험이 출시 중에 안정적으로 유지되도록 하고, 체계적인 실험의 이점을 높이고 신뢰성을 높여 실망한 이해 관계자를 방지합니다.

무작위화는 대상 청중 전체에서 노출 균형을 보장하기 위해 시장, 지역, 트래픽 소스 및 장치별로 계층화되어야 합니다. 대규모 테스트의 경우 95% 신뢰도에서 80%의 통계적 검정력으로 5~8%의 개선을 감지하기 위해 팔당 최소 50,000~100,000명의 사용자를 대상으로 합니다. 트래픽 증가가 시작될 때 블로킹 및 재무작위화를 사용하여 드리프트를 제한합니다. 이러한 패턴을 사용하는 엔지니어는 학습을 가속화하고 출시 시간을 단축합니다.

제어: 현재 프로덕션 경험을 반영하는 강력한 기준 팔을 실행합니다. 기능 플래그의 영향을 분리합니다. 신호에서 노이즈를 분리해야 하는 경우 여러 제어 변형을 실행합니다. 무작위화가 비교 가능한 그룹을 만드는지 확인합니다. 문제가 발생하면 개발 속도를 유지하기 위해 신속하게 분리합니다.

가드레일: 미리 지정된 의사 결정 규칙 및 자동 보호 장치를 정의합니다. 더 빠르고 안정적인 의사 결정을 원한다면 가드레일은 명확한 에스컬레이션 경로를 제공합니다. 안전 위반에 대한 중단 규칙을 설정하고, 추정치 상승이 임계값을 넘으면 수동 검토를 요구합니다. 엔지니어의 개입 없이 롤백이 자동으로 이루어지도록 하고, 모든 플립을 기록하여 상사에게 무슨 일이 일어났는지 명확하게 알려줍니다.

운영 리듬 및 문화: 원격 측정으로 테스트를 계측하고, 대시보드를 사용하여 엔지니어가 데이터를 사용할 수 있도록 보장합니다. 출시 후 모든 실패한 테스트에 대한 사후 분석을 실행합니다. 제품, 디자인, 엔지니어링 및 데이터 과학 전반에 걸쳐 요구 사항과 책임을 조정합니다. 전체 규율은 개발에 실험이 내장된 초기부터 시작되었으며, 관리자는 팀이 결과를 사용하여 제공 속도를 높이고 위험을 줄이는 방법을 확인할 수 있습니다.

루프 마감: 결과를 로드맵, 코칭 및 규율로 전환

모든 결과를 문제 설명, 영향 추정 및 명확한 담당자가 있는 우선 순위가 지정된 백로그 항목으로 전환하는 것으로 시작합니다. 범위 확장을 방지하기 위해 필요한 리소스를 정의하고 구체적인 릴리스 목표를 설정합니다. 영향과 노력을 비교하고 무엇을 먼저 진행할지 결정하기 위해 경량 채점 모델을 사용합니다.

실험을 릴리스에 연결하는 6~8주 로드맵을 구축합니다. 각 릴리스에 대해 2~4개의 실험, 성공 기준 및 찬반 결정을 지정합니다. 책임과 속도를 보장하기 위해 각 항목에 대한 데이터 계획, 간단한 예측 및 명확한 담당자를 설정합니다.

코칭은 결과를 검토하고, 추정치를 조정하고, 모범 사례를 강화하기 위해 주간 회의를 운영하는 관리자부터 시작됩니다. 세션을 사용하여 데이터를 실용적인 코칭 순간으로 전환하고 시간이 지남에 따라 팀의 역량을 향상시킵니다.

영향, 위험 및 진행하는 데 필요한 사항을 강조하는 간결한 업데이트를 통해 CEO 및 기타 이해 관계자와 결과를 공유합니다. 내러티브를 간결하게 유지합니다. 문제에서 로드맵에 따른 행동으로 흐름을 연결하고 모든 절충점을 명확하게 설명합니다.

홈페이지 작업은 구체적인 예가 됩니다. 변경 사항을 참여도 증가와 같은 문제로 구성하고, 최소한의 변경 사항을 간략하게 설명하고, 추정치 및 필요한 리소스를 기록하고, 출시 날짜를 지정합니다. 동일한 크기의 코호트로 테스트하고, 초기 신호를 모니터링하고, 신호가 일관될 때만 확대합니다.

의도와 규율: 문제, 추정, 리소스, 실험, 릴리스 및 결과를 추적하는 단일 정보 소스 문서를 만듭니다. 집중력과 추진력을 유지하기 위해 업데이트하고 정기적으로 검토합니다.

신뢰와 추진력을 구축하기 위해 몇 가지 빠른 승리를 파이프라인으로 옮깁니다. 영향에 대해 확신이 없다면 위험이 적은 더 작은 테스트를 실행한 다음 명확한 증거와 검증된 경로가 있는 경우에만 진행합니다. 학습, 코칭 및 규율 있는 실행의 강력한 주기는 궁극적인 보상을 제공합니다. 사용자를 위한 더 나은 제품과 더 능력 있는 관리자입니다.

LinkedIn, Wealthfront 및 eBay 실험에서 얻은 세 가지 실용적인 교훈

예측 불가능한 실험 주기를 통해 시작하여 리소스 지정을 빠르고 관찰 가능한 결과와 연결합니다. 엔지니어링 및 제품 팀 전체에서 작고 엔드투엔드 테스트를 구축하고 매주 실행합니다. 실제로 5일 학습 루프와 2주 예측 불가능한 스프린트를 목표로 테스트 중인 것을 확인하거나 폐기합니다. 이 주기는 일반적으로 계획 오버헤드를 40% 줄이고 엔지니어와 제품 관리자의 경력 경로에 대한 학습 속도를 두 배로 늘립니다.

교훈 1: 엔지니어링, 제품, 사용자 간의 대화 사이에 긴밀한 연결고리를 구축하여 정렬을 가속화합니다. 테스트할 사항은 묶음이 아닌 단일 가설이어야 합니다. 활성화율 및 기술적 부채의 건전성과 같은 작은 메트릭 세트를 추적하고 공유 대시보드에서 영향을 관찰합니다. krieger는 구체적인 테스트로 그룹을 이끌고 학습은 단일 기능을 넘어 확장됩니다.

교훈 2: 보편적인 템플릿과 가설 목록을 사용하여 실험을 표준화하고, noestimates로 인한 오해를 방지하고, 경쟁사 신호에 대한 결과를 비교합니다. 일반적인 테스트 포트폴리오에는 명시적인 승인/거부 기준이 있는 6-8개 항목과 확장할 사항에 대한 데이터 기반 결정이 포함될 수 있습니다. 이 접근 방식을 통해 팀은 주기 시간의 20~30%를 절약하고 전체 제품 및 기술 스택에 대한 자원 결정을 더 명확하게 내릴 수 있습니다.

교훈 3: 기존 학습 내용을 문서화하고, 대화 및 상호 작용을 반복 가능한 방식으로 전환하고, 확장 가능한 전체 이월을 다른 사람에게 제공하여 회사 전체에서 건전성을 보호하고 통찰력을 확장합니다.

LinkedIn, Wealthfront, eBay의 A/B 테스트 경험이 어떻게 더 나은 관리자가 되도록 이끌었나