尽早发力——Verkada 的经验教训如何塑造了 Serval 的 AI 代理

我们宣布在第一个冲刺周期内，Serval 的 AI 代理将聚焦于核心 IT 平台进行早期推广，以提高速度并减少重复性任务。这种方法带来了早期可衡量的成功，让管理员能够全面了解警报，并建立共享的节奏来推动进展。对于团队而言，清晰的职责划分结构能够加速协调，并减少安全、运维和帮助台之间的摩擦。

Verkada 的规模化以及它如何转化为 IT 运维的有趣之处在于团队之间的化学反应以及一套严密的信号系统，使运维人员能够领先于事件。将其转化为 IT 工作流程：一套数据、明确定义的职责以及从第一天起管理员就可以信赖的可靠自动化。

通过早期试用，Serval 学会了快速提炼模式，将重复性警报转化为可预测的工作流。在几周内，代理将开始处理常规的分类工作，使管理员能够专注于战略性工作。最终结果是完全控制事件响应，并在团队之间取得切实的进展。

展望未来，您将招募一个精干的跨职能团队，将第一波高价值自动化变为现实。引入平台工程师、数据科学家和关心可靠结果的 IT 管理员至关重要。这样做可以产生强大的动力，并为跨部门扩展提供清晰的途径。

下一步是什么？监控代理面板的速度、采用率和吞吐量。查看数据，您将看到学习到的策略日益具体化和可重复化，这表明您的团队正从被动处理转向主动规划。

早期全力以赴：Verkada 的经验教训塑造了 Serval 的 IT 团队 AI 代理 —— Jake Stauch，创始人兼首席执行官

通过为期 14 天的 Serval AI 代理 IT 运维试点开始，部署到 3-5 个种子团队，并在启动时定义成功指标。Stauch 建议进行为期两周的冲刺：部署、衡量和迭代，目标是在几天内显着改善 MTTR、警报噪音和自动化覆盖率。到第二周结束时，预计平均修复时间（MTTR）将减少 20-30%，升级率将下降 15%。采用“对话优先”的设置，让代理能够从您的知识库和人工操作员那里获取答案，从而增强对自动化操作的信心。这模仿了 Verkada 的方法，即通过对数据质量和护栏进行大胆的投入来建立可靠的基线。从事件分类、密码重置和资产发现开始，然后跟踪代理部署的成果在多大程度上取代了手动步骤。您将在下方找到早期部署中最有意义的护栏。

从 Verkada 的手册中吸取的教训是，要在一线打下正确的赌注并尽早锁定治理。Verkada 构建了一个具体的、可扩展的数据模型，减少了漂移，并构建了一个对话层，在数据模糊时提供置信度分数并提示澄清。他们在安全、IT 和产品之间建立了内部对话循环，以完善提示，直到结果与操作员的直觉一致。他们还利用了 Facebook 规模的遥测技术来调整阈值，以便在不压垮团队的情况下扩展警报。在内部笔记中，“serval”和“servals”这两个词被用作轻量级代理实例的简写，这表明了对快速、可重复部署的推动，这些部署可以随着您的需求而增长。

为了让 Serval 能够发展壮大，请将资金与切实可行的路线图结合起来。与多个融资轮和多个投资者进行的资金讨论正在积极进行中，并计划在今年完成多轮融资。将资金分配给基准测试、模型训练和现场部署，并设计能够接入现有 ITSM 工具的构建。目标是在 60 天内实现生产就绪的流水线，并在每个季度扩展到 2-3 个新团队。团队已经开始进行初步集成，并制定了具体的里程碑，以加速跨环境的已部署资产和治理检查。

IT 团队现在的实施步骤：开始的计划是什么，定义范围，并设定一个处理策略——AI 建议作为初步建议，在采取行动之前经过人工审核。任命一名跨团队协调负责人；收集事件、警报和资产的数据；确保隐私和访问控制；建立明确的成功标准和反馈循环来校准提示。通过倾听真实的对话并提出暴露差距的问题来了解操作员的需求。从另一个验证环节开始，然后再进行扩展，保持非常简单的提示以避免漂移。如果部署显示出扎实的收益，则在下个季度进行扩展；否则，迭代 servals 和数据源以锐化结果，并将模型带入与人工代理的可靠对话。目标是取得具体的成功，避免过度扩张，确保每一步都对 IT 弹性至关重要。

将 Verkada 的安全优先思维转化为具体的代理行为

从一个安全优先的 playbook 开始，您将通过平台策略引擎进行编码：每次操作都要求 MFA、最小权限和短期令牌；拒绝不符合风险检查的操作；将每次操作记录到防篡改存储中；并每周进行一次审核以完善阈值。这是一个硬性约束，可以防止漂移破坏数据。

这些具体的代理行为是从 Verkada 的理念中提炼出来的。在任何数据提取之前，代理都会验证身份和上下文；如果检查通过，它将继续进行；否则，它将提出安全警报并停止。代理维护一个随机基线来校准风险阈值，并使用种子值方法随着时间的推移进行适应。然后，将这些步骤与 IT 优先级和为客户提供的价值的路线图对齐。

采用这种方法需要一种合作伙伴的心态，所以让我们与 IT 团队合作，在他们准备好进行受控推出的规模上进行部署；他们正在平衡速度与密码管理纪律和定期访问审核。

行为	触发器	实施	指标
身份验证访问	带有上下文匹配的数据访问请求	强制执行 MFA/SSO；短期令牌；代码即策略门；结构化日志	身份验证失败率；授权时间
最小权限自动执行	策略不匹配或过度授权请求	自动范围限制；超出范围时撤销；必要时升级到人工	权限提升事件；撤销时间
操作级审计日志	任何代理操作	结构化日志到不可变存储；操作员、时间、接触到的数据、结果	日志覆盖率；审计失败率
异常隔离	风险分数激增或异常模式	隔离模式；只读；通知人工；允许安全补救	隔离时间；隔离事件
回滚和恢复路径	补救失败	预先构建的回滚脚本；基于快照的恢复	回滚成功率；平均恢复时间

设计实时分类规则以缩短事件响应时间

实施一个实时分类规则引擎，该引擎在警报到达后 60 秒内对其进行分类，并根据班次将其路由到正确的值班代理，包括夜班覆盖。

规则 1：如果警报来自身份验证或密码尝试，并显示来自同一用户或 IP 的突发性失败，则将升级到安全运营代理，并在策略允许的情况下自动锁定帐户。

规则 2：如果在 5 分钟内针对同一资产触发了一系列相关警报，则将其路由到专门的值班代理，该代理将管理跨日志、跟踪和指标的共享会话。

规则 3：对于现有产品中的非关键问题，请使用 AI 驱动的分类，在咨询轻量级运行手册后将其分配给值班名单上的候选人之一；该过程为招聘决策提供信息，并在适用时包括密码重置或策略检查。

通过早期部署，Jake 和他的公司学到了很多关于实时分类的知识；Verkada 团队强调持续改进，并宣布了下一轮迭代，包括夜班优化和一个管理报告，供采用 AI 驱动分类的公司使用。

将数据治理和隐私控制映射到 AI 数据流

首先，将您的 AI 数据流映射到基于策略的治理模型，并为每个数据切片分配所有者。在开始此练习时，请定义什么数据在范围内——来源、转换、目的地和保留点——并将每个步骤链接到隐私控制。在数据移动时，要注意 PII、敏感属性和同意信号。拥有数据切片的所有权，以便团队能够快速采取行动。安全、隐私和产品团队共同协作以弥合风险差距。这种可见性统一了数据沿袭，并在模型访问敏感输入之前控制风险。我们每周审查进展，以与策略保持一致。

实施最小权限访问、基于角色的权限、MFA 和凭据轮换；将每次会话视为可审计的。严格执行密码策略，避免硬编码凭据。为任何权限更改创建工单，并附上明确的理由和预期的隐私影响。这支持了顺畅的运营，并使更改可追溯。

使用代码即策略、自动化的数据隐藏和数据丢失防护规则来自动化隐私控制。这增加了跨数据流的弹性，并减少了手动执行检查的需要。这不依赖于手动检查；自动化会进行持续测试。当数据流经模型时，应用检查：数据在传输中和静止时是否加密？是否强制执行保留计时器？如果检查失败，则阻止流并提出工单进行补救。

将 AI 数据流映射到内部应用程序和外部连接器的隐私控制。如果您部署了另一个集成或连接到 Facebook 等平台，请确保数据已匿名化或标记化，并避免发送原始标识符。记录每个外部连接的数据来源，并监控策略漂移，以防止跨团队暴露。

Stauch 的框架展示了如何将治理与日常运营统一起来。每周的节奏始于一个教训：锁定所有者、发布有状态策略，并使用测试数据进行验证。您将设置基于会话的访问策略，并在招聘过程中确保隐私培训是入职的一部分。当出现例外情况时，将其记录为工单，并在下一轮迭代中实现自动修复。这种替代方法可以在保持速度的同时保留控制。在商业上，这些步骤增加了弹性，并为团队提供了负责任地扩展的时间。

总结：从数据地图开始，在每次交接时收紧控制，并自动化策略执行以减少手动开销。共同构建一个数据治理框架，IT 和业务可以在其 AI 代理无缝扩展其操作和工单时依赖它。

设定以结果为导向的指标来量化代理对 IT 运维的影响

定义一个单一的主要结果，并将所有指标都与其挂钩：在 30 天内，通过智能 Serval 的 AI 代理处理工单、分类和尽可能自动化的解决方案，将 P1 事件的 MTTR 降低 40%。每天跟踪此指标；每周在简洁的总结中进行回顾，以保持团队协调和问责制。在团队之间，其影响可以通过 MTTR 的降低和吞吐量的提高来衡量。

主要结果和目标

定义：从第一个工单到恢复，解决 P1 事件的平均时间。
目标：30 天内降低 40%。
数据来源：工单系统、事件台账和代理日志。
周期：每日跟踪，每周回顾，每月趋势线。
重要性：这确实引起了人们对自动化和人工努力如何发挥作用的关注。

量化代理对 IT 运维影响的操作指标

自动化率：由智能 Serval 完全或部分处理的工单百分比；目标是 60 天内达到 60%。
回退率：升级到人工代理的交互百分比；目标是低于 15%，以使人工能够专注于复杂案例。
首次响应时间（TTFR）改进：比较部署前后的 TTFR；首次联系时目标是快 30%。
工单吞吐量：每天关闭的工单数；目标是增加 20%。
重新打开的工单：解决后该比率；目标是低于 5%。

质量信号和学习信号

困惑度：监控语言模型在对话记录上的困惑度；目标是保持稳定或下降趋势以保持清晰度。
置信度：机器人决策的平均置信度分数；自动化解决方案目标是 > 0.8。
对话长度和轮次：监控效率；旨在实现简洁而完整的交互。
学习到的调整：记录能带来改进的技术更改；将其包含在具体的 playbook 中。

业务影响和风险信号

避免的停机时间：每周避免的停机小时数；目标是低于 2 小时。
客户满意度和用户反馈：目标是净分数提高；跟踪来自工单交互的情绪。
硬件和计算效率：监控资源使用情况；确保机器人工作量保持在硬件限制内。

部署周期和治理

部署：试点成功后，将其推广到另一个团队；除非数据信号显示风险，否则采取规避风险的方法，然后及时调整。
评估：进行为期 2 周的试点，然后扩展；保持每周的单集回顾以提炼经验教训并计划调整。
关注度和市场背景：与市场同行进行基准测试以评估相对绩效；如果市场发生变化，则调整目标。

最后，保持紧密的反馈循环：Alex 和团队回顾单集回顾，验证 Serval 是否从数据中学习，并相应地调整提示和数据源。如果困惑度或置信度信号意外移动，则迭代技术并部署更新的提示。除非测量显示风险，否则继续循环，并将跟踪的几周时间与业务需求保持一致。随着数据日益具体，有趣的模式开始出现，团队发现了在下一轮改进中值得重复的内容。

创建实用的部署 Playbook：将 Serval 与 ITSM、SIEM 和监控集成

从三管齐下的部署开始：将 Serval 与 ITSM、SIEM 和监控集成，以自动化分类、补救和审计跟踪。这种设置可以加快事件处理速度，并为 IT 运维和安全创建一个单一的事实来源。一开始要收紧范围：三个连接器、一个共享的事件模型和一个轻量级的补救运行手册。

定义数据合同：Serval 从 ITSM 读取工单数据（工单 ID、优先级、分配者），用上下文（用户、主机、IP）丰富 SIEM 事件，并将事件更新和工作记录写回。清晰地映射字段；决定存储敏感值的位置，使用密码保险库而不是明文存储。建立一个符合客户需求和合规性要求的隐私和保留策略。

构建连接器和数据流：配置 ServiceNow 或您选择的 ITSM，选择一个 SIEM（Splunk、QRadar 或类似产品），并附加一个监控堆栈（Prometheus/Grafana 或云原生等效产品）。在系统之间使用唯一、持久的 ID，以便 Serval 能够将事件与工单连接起来，而不会产生重复。设置多个警报通道——Slack、电子邮件和原生工单——以避免错过通知。

丰富规则和自动化：实施规则集，在每次警报时附加上下文，按风险分类，并在 SLA 处于风险状态时升级。通过将重复性操作转化为从单个触发器开始的运行手册，使重复性劳动变得毫无意义。构建创建或更新工单、通过您的秘密管理器运行密码轮换并将补救结果更新到 SIEM 的自动化。

Playbook 示例：凭据泄露。如果 SIEM 收到凭据泄露警报，Serval 会打开一个高优先级 ITSM 工单，拉取过去 30 天的登录事件，检查可疑访问，并在策略允许的情况下触发通过您的秘密管理器进行密码轮换。轮换完成后，它会关闭工单并附上链接的证据和注释。这种方法可以加快遏制速度，并减少客户和内部团队的手动步骤。

Playbook 示例：供应链警报。当出现供应商警报时，Serval 会与资产清单进行关联，打开一个工单，并通知上游团队。此工作流程可以快速响应，减少重复的手动检查，并在不延迟补救的情况下保护关键服务。

监控和仪表板：显示关键指标——平均确认时间（MTTA）、平均检测时间（MTTD）、MTTR、自动化覆盖率和误报率。通过一个单一的面板创建完整的图景，该面板结合了 ITSM 状态、SIEM 上下文和监控信号。为每周审查和每月规划会议创建快照。

治理和安全：使用最小权限的 API 密钥，定期轮换凭据，并强制执行 Serval、ITSM 和 SIEM 之间的访问控制。将秘密存储在专用保险库中并审核所有更改。与您的路线图和总体安全态势保持一致；在创始人的谈话和采访中，Jake 强调强大的治理可以提高客户的信任度和速度。Verkada 从行业聊天中获得的笔记也证实了这一点，还包括在 TechCrunch 和相关播客中的报道。

路线图和准备情况：与包括客户在内的利益相关者安排季度规划，以根据目标验证结果。邀请创始人团队以及突出该方法的采访和播客提供反馈。这些反馈塑造了规划，并确保该 playbook 能够应对不断变化的威胁和运营需求，Jake 和团队利用这一点实现了比许多竞争对手更强大、更快的部署。

这就是为什么这个 playbook 以具体行动、可衡量的结果以及与客户的反馈循环为中心。随着多个团队采用此工作流程，他们将发现更快的遏制、更清晰的职责划分以及从规划到执行的可扩展路径。