随着AI驱动代码生成工具的爆发式增长,运维和安全领域也出现了强烈的AI驱动响应,这并不令人意外。按照定义,SRE和安全专业人员的核心职能就是跟上变化的步伐,快速响应以维护在线系统的可靠性和安全性。
这引出了我们要讨论的话题:AI SRE的崛起。目前有三十多家软件供应商要么提供AI SRE智能体,要么是完整的AISRE平台。很明显,虽然这个术语确实存在误称和局限性(正如所有类别都有的那样),但它在2025年已经成为一个热门术语,就像"可观测性"在2017年一样。
为了帮助区分优劣,我召集了运维领域最重要的思想领袖举行圆桌讨论。小组成员包括Gremlin的首席执行官兼创始人Kolton Andrus、Mezmo的首席执行官Tucker Callaway以及Causely的创始人Shmuel Kliger。
AI提升运维效率的共识
与会者一致认为AI能够有效提升运维效率。Shmuel Kliger指出,AI几十年来一直在这样做,"AI SRE"只是AI驱动运维最新趋势的最新术语。
Kolton Andrus强调,鉴于AI无法对高级战略决策承担责任,人类在可预见的未来必然要保持参与。虽然更好地预测故障和减轻一些手动工作的能力对行业来说是积极的,但对于在2025年过度依赖AI炒作的公司来说,新的一年将面临后遗症。
Tucker Callaway强调,虽然AI分析数据的速度比传统方法更快,但在企业规模下成本开始激增,准确性开始下降。根据Callaway的说法,解决这个问题的最佳方法是通过在智能体消费数据之前预处理数据来改进上下文工程,以最大化效率。
挑战与机遇并存
这里有一个明显的呼应关系,新的AI解决方案被构建来跟上其他解决方案的步伐,而导航什么是真正有用的将是大多数组织在2026年面临的重大挑战。还存在技能差距,因为SRE需要不断更新技能以有效利用AI。
Andrus建议组织投资培训和发展项目,为团队配备与AI工具协同工作的必要专业知识。Callaway补充说,在AI环境中,开发和运维团队之间的协作变得更加重要,因为双方都需要了解如何将AI解决方案无缝集成到现有工作流程中。
展望未来,随着AI SRE工具的不断成熟,它们将变得更加直观和用户友好,从而在各个团队和部门实现更广泛的采用。SRE功能的越来越多部分在未来几年变得自动化似乎是不可避免的。虽然好处可能相当可观,但采取谨慎的方法对于应对这些技术进步带来的挑战至关重要。
通过培养持续学习、协作和道德行为的文化,组织可以在追求运维卓越的过程中充分发挥AI SRE的潜力。
Q&A
Q1:什么是AI SRE?
A:AI SRE是指利用人工智能技术来增强网站可靠性工程的新兴概念。目前有三十多家软件供应商提供AI SRE智能体或完整的AI SRE平台,这个术语在2025年已经成为热门术语,类似于"可观测性"在2017年的地位。
Q2:AI SRE能完全替代人工运维吗?
A:不能完全替代。专家强调,由于AI无法对高级战略决策承担责任,人类在可预见的未来必然要保持参与。AI主要用于提升运维效率、更好地预测故障和减轻手动工作,但重要决策仍需要人工参与。
Q3:企业采用AI SRE面临哪些挑战?
A:主要挑战包括在企业规模下成本激增、准确性下降的问题,以及SRE人员需要不断更新技能来有效利用AI工具。此外,开发和运维团队之间需要加强协作,了解如何将AI解决方案无缝集成到现有工作流程中。
上一篇:李想的理想是AI?