我在 SRE 面试中提出的问题
SRE,即站点可靠性工程师 (Site Reliability Engineer{ing}),是一门将软件工程应用于基础设施和运维的软件学科。其他类似 SRE 的职位包括运维工程、系统工程或基础设施工程,但 SRE 更侧重于软件系统运维的“弹性”。本文并未广泛涵盖 SRE,但您可以阅读我最喜欢的一篇 SRE 入门文章(此处)。
最近,一位正在面试 SRE 职位的朋友问我,面试结束时可以问哪些好问题。我很惊讶地发现,竟然没有找到任何关于基础设施方面可以问面试官的问题的帖子。在回复邮件时,我意识到自己有很多想法,或许值得分享一篇简短的文章,分享给他们、未来的自己以及任何感兴趣的人。
这些是我在面试基础设施或站点可靠性团队职位时一定会问的问题。根据面试的结构,这些问题可能适合招聘人员,但更有可能是招聘经理或团队其他成员的问题。这些问题主要围绕团队的工具使用情况以及开发人员的满意度。我还试图了解运维工程团队与团队和组织其他成员之间的关系。
SRE 相关问题
- 技术栈是什么?
- 我从运营的角度来思考这个问题。他们使用的语言是否杂乱无章,还是开发流程过于僵化?团队需要支持多少种不同的技术?
- 什么是基础设施堆栈?
- 根据他们的说法,我们会讨论一段时间这个问题,并且可能会引发很多其他问题。
- 你们的指标和监控设置是什么样的?你们如何调试系统问题?
- 这可能是一个有争议的问题,但如果标题是“SRE”,我会问为什么标题是“SRE”而不是其他名称(“DevOps”也是一样)。我想看看他们是否认真思考过这个术语的含义,以及他们如何定义系统的“弹性”。
- 请介绍一下开发人员加入你们的开发环境的体验。您认为需要多长时间?
- 请介绍一下开发人员使用你们的管道进行部署的体验。您认为最大的痛点是什么?
- 您如何评价测试覆盖率?您会持续测量吗?测试覆盖率对团队来说重要的是什么?
- 你们有蓝绿部署吗?你们有金丝雀部署吗?
- 在 QA 阶段,工程师如何与产品团队成员共享工作?你们有多少个环境?
- 这些问题对我来说非常重要。它们既能揭示一些有趣的危险信号,让你可以和面试官讨论,也能让你了解他们对你的观点的接受程度,并让你了解自己可以为他们做些什么。
- 您如何描述运营团队、IT 团队和其他工程团队之间的关系?
- 你们如何处理应用程序安全问题?你们如何鼓励开发者考虑其服务的安全性?
- 你们必须遵守 GDPR 吗?这个过程你们顺利吗?
- 这可能不会带来任何结果,但我正在寻找有关他们的数据审计程序是什么样的讨论,以及如何快速轻松地回答有关其数据的安全问题。
- 您的值班安排是怎样的?
- 您每月值班几次?
- 当您值班时,在此期间您会被呼叫多少次?
- 您是否认为当您收到寻呼时,警报是可操作的?
- 开发人员是否随时待命提供服务?
- 您如何让人们参与到随叫随到的工作中?
- 团队在“被动”模式而不是“主动”模式上花费了多少时间?
- 基础设施栈里的大部分东西都是自助服务的吗?比如,设置一个包含数据存储的新服务的流程是怎样的?
- 您认为Dickerson 站点可靠性层次结构的哪个级别最需要您的堆栈进行工作?
- 总体而言,您如何评价开发人员的生产力?
- 您有任何开源项目吗?如果没有,您对开源项目感兴趣吗?
标准面试问题
- 你的工程团队有价值观宣言吗?里面都写了些什么?
- 您做了什么来营造学习环境?
- 在这个职位上取得成功意味着什么?你预计在未来3个月、6个月和1年内能够完成哪些项目或取得哪些成就?
- 工作环境是协作型的吗?还是大家大多时候都独来独往?怎么会这样?办公室是开放式的吗?(我还会要求在现场面试时,让他们告诉你你的座位位置。如果你对工作时的噪音很敏感,这一点可能非常重要。)
- 团队中有多少人是分散的?你们的“在家办公”或“在X地办公”政策是什么?是灵活变通的还是固定不变的?
- 您最期待在明年从事或推出什么项目?
- 在这里工作你最喜欢什么?
我想指出的是,有些问题我在这里没有问,但这并不意味着我不重视它们。例如,我从不直接询问团队的多样性问题。我希望在办公室和我的面试中能看到这一点。当我和一位开发人员共进午餐时,我会问一些间接涉及这些问题的问题。我其实不需要公关宣传多样性。
你在常规技术面试或 SRE 面试中一定会问哪些问题?欢迎留言告诉我!
图片来自unsplash
文章来源:https://dev.to/logan/questions-i-ask-in-sre-interviews-a9j