반응형
SRE(Site Reliability Engineering)
*목차
1. SRE 개요
가. SRE 정의
나. SRE 배경 및 원칙
2. SRE 구성요소 및 수행방법
가. SRE 구성요소
나. SRE 수행방법
*내용
1. DevOps 프랙티스, SRE 개요
가. SRE 정의
- 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안전성을 달성 할 수 있도록 지원하는 엔지니어링 분야
나. SRE 배경 및 원칙
구분 | 내용 |
배경 | - DevOps 운영 철학 안에서 개발자들의 영역 확장에 따른 기존 운영자들의 새로운 역할 - 애플리케이션을 빌드하고 유연하게 배포, 모니터링 기술의 요구 |
원칙 | - 가용성에 대한 명확한 정의, 가용성 목표 정의, 장애 발상에 대한 계획 |
2. SRE 구성요소 및 수행방법
가. SRE 구성요소
구성요소 | 세부구성요소 | 설명 |
Metric & Monitoring | - SLI(Service Level Indicator) - SLO(Service Level Objective) - Dashboard |
- 서비스 지표 및 각 지표에 대한 안정성 목표 - 이해당사자에 시스템 상태 시각화 전달 |
Capacity Planning | - 시스템 필요용량 - 확보, 리소스용량 - SW, 최적화 |
- 단발성 리소스 요청에도 유연한 대응 필요 -자원확보 뿐만 아니라 성능 튜닝 중요 |
Change Management | - 점진적 배포 변경 - 배포 장애 시 빠른 문제 파악 - 장애 시 빠른 롤백 |
- 시스템 장애 약 70% 시스템 변경시 발생 - 배포 프로세스의 자동화 추진 |
Emergency Response | - MTTR - Playbook |
- MTTR 최소화가 목표 - Playbook 기반 장애 대응 훈련 |
Culture | - Error Budget | - 데이터 기반 합리적 결정 - 비난하지 않고 책임을 나눠가지는 문화 |
나. SRE 수행방법
수행방법 | 핵심요소 | 설명 |
Reduce Organizational silos | - 주인의식 공유 | - 원칙에 따라 장애에 대한 책임을 모두 공유 - 부서간 단절현상 완화 노력 |
Accept failure as normal | - Postmortem 회고 - Error budget 개념 도입 |
- 장애 처리 후 후속대책에 대한 준비 - 시스템 가용성의 적절한 관리를 위한 지표 |
Implement Gradual changes | - 카나리 배포 - 롤링 업그레이드 |
- 작은 변경 배포를 사용 점진적 변경을 통하여 장애 발생시 MTTR 감소 |
Leverage tooling and automation | - 시스템 운영 자동화 - Toil 도입 |
- 시스템 자동화를 통한 휴먼 오류 최소화 - 수동작업의 양을 조절하기 위한 개념 |
Measure everything | - 시스템 지표 - 수동작업시간, 장애시간 |
- 의사결정에 대한 기반인 지표가 매우 중요 - 모든 상황을 측정하여 데이터화 |
- SRE 에서는 데이터 기반으로 의사결정을 수행하므로 SLI와 SLO가 매우 중요
반응형
'IT지식 > 소프트웨어공학' 카테고리의 다른 글
CD(Continuous Development) (0) | 2023.05.30 |
---|---|
CI(Continuous Integration) (0) | 2023.05.30 |
DevOps (0) | 2023.05.26 |
도메인 공학 (1) | 2023.05.24 |
SSPL(System & Software Product Line) (0) | 2023.05.14 |