SRE(Site Reliability Engineering)

2023. 5. 30. 18:46

*목차

1. SRE 개요

가. SRE 정의

나. SRE 배경 및 원칙

2. SRE 구성요소 및 수행방법

가. SRE 구성요소

나. SRE 수행방법

*내용

1. DevOps 프랙티스, SRE 개요

가. SRE 정의

- 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안전성을 달성 할 수 있도록 지원하는 엔지니어링 분야

나. SRE 배경 및 원칙

구분	내용
배경	- DevOps 운영 철학 안에서 개발자들의 영역 확장에 따른 기존 운영자들의 새로운 역할 - 애플리케이션을 빌드하고 유연하게 배포, 모니터링 기술의 요구
원칙	- 가용성에 대한 명확한 정의, 가용성 목표 정의, 장애 발상에 대한 계획

2. SRE 구성요소 및 수행방법

가. SRE 구성요소

구성요소	세부구성요소	설명
Metric & Monitoring	- SLI(Service Level Indicator) - SLO(Service Level Objective) - Dashboard	- 서비스 지표 및 각 지표에 대한 안정성 목표 - 이해당사자에 시스템 상태 시각화 전달
Capacity Planning	- 시스템 필요용량 - 확보, 리소스용량 - SW, 최적화	- 단발성 리소스 요청에도 유연한 대응 필요 -자원확보 뿐만 아니라 성능 튜닝 중요
Change Management	- 점진적 배포 변경 - 배포 장애 시 빠른 문제 파악 - 장애 시 빠른 롤백	- 시스템 장애 약 70% 시스템 변경시 발생 - 배포 프로세스의 자동화 추진
Emergency Response	- MTTR - Playbook	- MTTR 최소화가 목표 - Playbook 기반 장애 대응 훈련
Culture	- Error Budget	- 데이터 기반 합리적 결정 - 비난하지 않고 책임을 나눠가지는 문화

나. SRE 수행방법

수행방법	핵심요소	설명
Reduce Organizational silos	- 주인의식 공유	- 원칙에 따라 장애에 대한 책임을 모두 공유 - 부서간 단절현상 완화 노력
Accept failure as normal	- Postmortem 회고 - Error budget 개념 도입	- 장애 처리 후 후속대책에 대한 준비 - 시스템 가용성의 적절한 관리를 위한 지표
Implement Gradual changes	- 카나리 배포 - 롤링 업그레이드	- 작은 변경 배포를 사용 점진적 변경을 통하여 장애 발생시 MTTR 감소
Leverage tooling and automation	- 시스템 운영 자동화 - Toil 도입	- 시스템 자동화를 통한 휴먼 오류 최소화 - 수동작업의 양을 조절하기 위한 개념
Measure everything	- 시스템 지표 - 수동작업시간, 장애시간	- 의사결정에 대한 기반인 지표가 매우 중요 - 모든 상황을 측정하여 데이터화

- SRE 에서는 데이터 기반으로 의사결정을 수행하므로 SLI와 SLO가 매우 중요

CD(Continuous Development) (0)	2023.05.30
CI(Continuous Integration) (0)	2023.05.30
DevOps (0)	2023.05.26
도메인 공학 (1)	2023.05.24
SSPL(System & Software Product Line) (0)	2023.05.14

IT 인생