我们宣布在第一个冲刺周期内,Serval 的 AI 代理将聚焦于核心 IT 平台进行早期推广,以提高速度并减少重复性任务。这种方法带来了早期可衡量的成功,让管理员能够全面了解警报,并建立共享的节奏来推动进展。对于团队而言,清晰的职责划分结构能够加速协调,并减少安全、运维和帮助台之间的摩擦。

Verkada 的规模化以及它如何转化为 IT 运维的有趣之处在于团队之间的化学反应以及一套严密的信号系统,使运维人员能够领先于事件。将其转化为 IT 工作流程:一套数据、明确定义的职责以及从第一天起管理员就可以信赖的可靠自动化。

通过早期试用,Serval 学会了快速提炼模式,将重复性警报转化为可预测的工作流。在几周内,代理将开始处理常规的分类工作,使管理员能够专注于战略性工作。最终结果是完全控制事件响应,并在团队之间取得切实的进展。

展望未来,您将招募一个精干的跨职能团队,将第一波高价值自动化变为现实。引入平台工程师、数据科学家和关心可靠结果的 IT 管理员至关重要。这样做可以产生强大的动力,并为跨部门扩展提供清晰的途径。

下一步是什么?监控代理面板的速度、采用率和吞吐量。查看数据,您将看到学习到的策略日益具体化和可重复化,这表明您的团队正从被动处理转向主动规划。

早期全力以赴:Verkada 的经验教训塑造了 Serval 的 IT 团队 AI 代理 —— Jake Stauch,创始人兼首席执行官

通过为期 14 天的 Serval AI 代理 IT 运维试点开始,部署到 3-5 个种子团队,并在启动时定义成功指标。Stauch 建议进行为期两周的冲刺:部署、衡量和迭代,目标是在几天内显着改善 MTTR、警报噪音和自动化覆盖率。到第二周结束时,预计平均修复时间(MTTR)将减少 20-30%,升级率将下降 15%。采用“对话优先”的设置,让代理能够从您的知识库和人工操作员那里获取答案,从而增强对自动化操作的信心。这模仿了 Verkada 的方法,即通过对数据质量和护栏进行大胆的投入来建立可靠的基线。从事件分类、密码重置和资产发现开始,然后跟踪代理部署的成果在多大程度上取代了手动步骤。您将在下方找到早期部署中最有意义的护栏。

从 Verkada 的手册中吸取的教训是,要在一线打下正确的赌注并尽早锁定治理。Verkada 构建了一个具体的、可扩展的数据模型,减少了漂移,并构建了一个对话层,在数据模糊时提供置信度分数并提示澄清。他们在安全、IT 和产品之间建立了内部对话循环,以完善提示,直到结果与操作员的直觉一致。他们还利用了 Facebook 规模的遥测技术来调整阈值,以便在不压垮团队的情况下扩展警报。在内部笔记中,“serval”和“servals”这两个词被用作轻量级代理实例的简写,这表明了对快速、可重复部署的推动,这些部署可以随着您的需求而增长。

为了让 Serval 能够发展壮大,请将资金与切实可行的路线图结合起来。与多个融资轮和多个投资者进行的资金讨论正在积极进行中,并计划在今年完成多轮融资。将资金分配给基准测试、模型训练和现场部署,并设计能够接入现有 ITSM 工具的构建。目标是在 60 天内实现生产就绪的流水线,并在每个季度扩展到 2-3 个新团队。团队已经开始进行初步集成,并制定了具体的里程碑,以加速跨环境的已部署资产和治理检查。

IT 团队现在的实施步骤:开始的计划是什么,定义范围,并设定一个处理策略——AI 建议作为初步建议,在采取行动之前经过人工审核。任命一名跨团队协调负责人;收集事件、警报和资产的数据;确保隐私和访问控制;建立明确的成功标准和反馈循环来校准提示。通过倾听真实的对话并提出暴露差距的问题来了解操作员的需求。从另一个验证环节开始,然后再进行扩展,保持非常简单的提示以避免漂移。如果部署显示出扎实的收益,则在下个季度进行扩展;否则,迭代 servals 和数据源以锐化结果,并将模型带入与人工代理的可靠对话。目标是取得具体的成功,避免过度扩张,确保每一步都对 IT 弹性至关重要。

将 Verkada 的安全优先思维转化为具体的代理行为

将 Verkada 的安全优先思维转化为具体的代理行为

从一个安全优先的 playbook 开始,您将通过平台策略引擎进行编码:每次操作都要求 MFA、最小权限和短期令牌;拒绝不符合风险检查的操作;将每次操作记录到防篡改存储中;并每周进行一次审核以完善阈值。这是一个硬性约束,可以防止漂移破坏数据。

这些具体的代理行为是从 Verkada 的理念中提炼出来的。在任何数据提取之前,代理都会验证身份和上下文;如果检查通过,它将继续进行;否则,它将提出安全警报并停止。代理维护一个随机基线来校准风险阈值,并使用种子值方法随着时间的推移进行适应。然后,将这些步骤与 IT 优先级和为客户提供的价值的路线图对齐。

采用这种方法需要一种合作伙伴的心态,所以让我们与 IT 团队合作,在他们准备好进行受控推出的规模上进行部署;他们正在平衡速度与密码管理纪律和定期访问审核。

行为触发器实施指标
身份验证访问带有上下文匹配的数据访问请求强制执行 MFA/SSO;短期令牌;代码即策略门;结构化日志身份验证失败率;授权时间
最小权限自动执行策略不匹配或过度授权请求自动范围限制;超出范围时撤销;必要时升级到人工权限提升事件;撤销时间
操作级审计日志任何代理操作结构化日志到不可变存储;操作员、时间、接触到的数据、结果日志覆盖率;审计失败率
异常隔离风险分数激增或异常模式隔离模式;只读;通知人工;允许安全补救隔离时间;隔离事件
回滚和恢复路径补救失败预先构建的回滚脚本;基于快照的恢复回滚成功率;平均恢复时间

设计实时分类规则以缩短事件响应时间

设计实时分类规则以缩短事件响应时间

实施一个实时分类规则引擎,该引擎在警报到达后 60 秒内对其进行分类,并根据班次将其路由到正确的值班代理,包括夜班覆盖。

规则 1:如果警报来自身份验证或密码尝试,并显示来自同一用户或 IP 的突发性失败,则将升级到安全运营代理,并在策略允许的情况下自动锁定帐户。

规则 2:如果在 5 分钟内针对同一资产触发了一系列相关警报,则将其路由到专门的值班代理,该代理将管理跨日志、跟踪和指标的共享会话。

规则 3:对于现有产品中的非关键问题,请使用 AI 驱动的分类,在咨询轻量级运行手册后将其分配给值班名单上的候选人之一;该过程为招聘决策提供信息,并在适用时包括密码重置或策略检查。

通过早期部署,Jake 和他的公司学到了很多关于实时分类的知识;Verkada 团队强调持续改进,并宣布了下一轮迭代,包括夜班优化和一个管理报告,供采用 AI 驱动分类的公司使用。

将数据治理和隐私控制映射到 AI 数据流

首先,将您的 AI 数据流映射到基于策略的治理模型,并为每个数据切片分配所有者。在开始此练习时,请定义什么数据在范围内——来源、转换、目的地和保留点——并将每个步骤链接到隐私控制。在数据移动时,要注意 PII、敏感属性和同意信号。拥有数据切片的所有权,以便团队能够快速采取行动。安全、隐私和产品团队共同协作以弥合风险差距。这种可见性统一了数据沿袭,并在模型访问敏感输入之前控制风险。我们每周审查进展,以与策略保持一致。

实施最小权限访问、基于角色的权限、MFA 和凭据轮换;将每次会话视为可审计的。严格执行密码策略,避免硬编码凭据。为任何权限更改创建工单,并附上明确的理由和预期的隐私影响。这支持了顺畅的运营,并使更改可追溯。

使用代码即策略、自动化的数据隐藏和数据丢失防护规则来自动化隐私控制。这增加了跨数据流的弹性,并减少了手动执行检查的需要。这不依赖于手动检查;自动化会进行持续测试。当数据流经模型时,应用检查:数据在传输中和静止时是否加密?是否强制执行保留计时器?如果检查失败,则阻止流并提出工单进行补救。

将 AI 数据流映射到内部应用程序和外部连接器的隐私控制。如果您部署了另一个集成或连接到 Facebook 等平台,请确保数据已匿名化或标记化,并避免发送原始标识符。记录每个外部连接的数据来源,并监控策略漂移,以防止跨团队暴露。

Stauch 的框架展示了如何将治理与日常运营统一起来。每周的节奏始于一个教训:锁定所有者、发布有状态策略,并使用测试数据进行验证。您将设置基于会话的访问策略,并在招聘过程中确保隐私培训是入职的一部分。当出现例外情况时,将其记录为工单,并在下一轮迭代中实现自动修复。这种替代方法可以在保持速度的同时保留控制。在商业上,这些步骤增加了弹性,并为团队提供了负责任地扩展的时间。

总结:从数据地图开始,在每次交接时收紧控制,并自动化策略执行以减少手动开销。共同构建一个数据治理框架,IT 和业务可以在其 AI 代理无缝扩展其操作和工单时依赖它。

设定以结果为导向的指标来量化代理对 IT 运维的影响

定义一个单一的主要结果,并将所有指标都与其挂钩:在 30 天内,通过智能 Serval 的 AI 代理处理工单、分类和尽可能自动化的解决方案,将 P1 事件的 MTTR 降低 40%。每天跟踪此指标;每周在简洁的总结中进行回顾,以保持团队协调和问责制。在团队之间,其影响可以通过 MTTR 的降低和吞吐量的提高来衡量。

主要结果和目标

  • 定义:从第一个工单到恢复,解决 P1 事件的平均时间。
  • 目标:30 天内降低 40%。
  • 数据来源:工单系统、事件台账和代理日志。
  • 周期:每日跟踪,每周回顾,每月趋势线。
  • 重要性:这确实引起了人们对自动化和人工努力如何发挥作用的关注。

量化代理对 IT 运维影响的操作指标

  • 自动化率:由智能 Serval 完全或部分处理的工单百分比;目标是 60 天内达到 60%。
  • 回退率:升级到人工代理的交互百分比;目标是低于 15%,以使人工能够专注于复杂案例。
  • 首次响应时间(TTFR)改进:比较部署前后的 TTFR;首次联系时目标是快 30%。
  • 工单吞吐量:每天关闭的工单数;目标是增加 20%。
  • 重新打开的工单:解决后该比率;目标是低于 5%。

质量信号和学习信号

  • 困惑度:监控语言模型在对话记录上的困惑度;目标是保持稳定或下降趋势以保持清晰度。
  • 置信度:机器人决策的平均置信度分数;自动化解决方案目标是 > 0.8。
  • 对话长度和轮次:监控效率;旨在实现简洁而完整的交互。
  • 学习到的调整:记录能带来改进的技术更改;将其包含在具体的 playbook 中。

业务影响和风险信号

  • 避免的停机时间:每周避免的停机小时数;目标是低于 2 小时。
  • 客户满意度和用户反馈:目标是净分数提高;跟踪来自工单交互的情绪。
  • 硬件和计算效率:监控资源使用情况;确保机器人工作量保持在硬件限制内。

部署周期和治理

  • 部署:试点成功后,将其推广到另一个团队;除非数据信号显示风险,否则采取规避风险的方法,然后及时调整。
  • 评估:进行为期 2 周的试点,然后扩展;保持每周的单集回顾以提炼经验教训并计划调整。
  • 关注度和市场背景:与市场同行进行基准测试以评估相对绩效;如果市场发生变化,则调整目标。

最后,保持紧密的反馈循环:Alex 和团队回顾单集回顾,验证 Serval 是否从数据中学习,并相应地调整提示和数据源。如果困惑度或置信度信号意外移动,则迭代技术并部署更新的提示。除非测量显示风险,否则继续循环,并将跟踪的几周时间与业务需求保持一致。随着数据日益具体,有趣的模式开始出现,团队发现了在下一轮改进中值得重复的内容。

创建实用的部署 Playbook:将 Serval 与 ITSM、SIEM 和监控集成

从三管齐下的部署开始:将 Serval 与 ITSM、SIEM 和监控集成,以自动化分类、补救和审计跟踪。这种设置可以加快事件处理速度,并为 IT 运维和安全创建一个单一的事实来源。一开始要收紧范围:三个连接器、一个共享的事件模型和一个轻量级的补救运行手册。

定义数据合同:Serval 从 ITSM 读取工单数据(工单 ID、优先级、分配者),用上下文(用户、主机、IP)丰富 SIEM 事件,并将事件更新和工作记录写回。清晰地映射字段;决定存储敏感值的位置,使用密码保险库而不是明文存储。建立一个符合客户需求和合规性要求的隐私和保留策略。

构建连接器和数据流:配置 ServiceNow 或您选择的 ITSM,选择一个 SIEM(Splunk、QRadar 或类似产品),并附加一个监控堆栈(Prometheus/Grafana 或云原生等效产品)。在系统之间使用唯一、持久的 ID,以便 Serval 能够将事件与工单连接起来,而不会产生重复。设置多个警报通道——Slack、电子邮件和原生工单——以避免错过通知。

丰富规则和自动化:实施规则集,在每次警报时附加上下文,按风险分类,并在 SLA 处于风险状态时升级。通过将重复性操作转化为从单个触发器开始的运行手册,使重复性劳动变得毫无意义。构建创建或更新工单、通过您的秘密管理器运行密码轮换并将补救结果更新到 SIEM 的自动化。

Playbook 示例:凭据泄露。如果 SIEM 收到凭据泄露警报,Serval 会打开一个高优先级 ITSM 工单,拉取过去 30 天的登录事件,检查可疑访问,并在策略允许的情况下触发通过您的秘密管理器进行密码轮换。轮换完成后,它会关闭工单并附上链接的证据和注释。这种方法可以加快遏制速度,并减少客户和内部团队的手动步骤。

Playbook 示例:供应链警报。当出现供应商警报时,Serval 会与资产清单进行关联,打开一个工单,并通知上游团队。此工作流程可以快速响应,减少重复的手动检查,并在不延迟补救的情况下保护关键服务。

监控和仪表板:显示关键指标——平均确认时间(MTTA)、平均检测时间(MTTD)、MTTR、自动化覆盖率和误报率。通过一个单一的面板创建完整的图景,该面板结合了 ITSM 状态、SIEM 上下文和监控信号。为每周审查和每月规划会议创建快照。

治理和安全:使用最小权限的 API 密钥,定期轮换凭据,并强制执行 Serval、ITSM 和 SIEM 之间的访问控制。将秘密存储在专用保险库中并审核所有更改。与您的路线图和总体安全态势保持一致;在创始人的谈话和采访中,Jake 强调强大的治理可以提高客户的信任度和速度。Verkada 从行业聊天中获得的笔记也证实了这一点,还包括在 TechCrunch 和相关播客中的报道。

路线图和准备情况:与包括客户在内的利益相关者安排季度规划,以根据目标验证结果。邀请创始人团队以及突出该方法的采访和播客提供反馈。这些反馈塑造了规划,并确保该 playbook 能够应对不断变化的威胁和运营需求,Jake 和团队利用这一点实现了比许多竞争对手更强大、更快的部署。

这就是为什么这个 playbook 以具体行动、可衡量的结果以及与客户的反馈循环为中心。随着多个团队采用此工作流程,他们将发现更快的遏制、更清晰的职责划分以及从规划到执行的可扩展路径。