반응형

SRE(Site Reliability Engineering)

 

 

*목차

1. SRE 개요

 가. SRE 정의

 나. SRE 배경 및 원칙

2. SRE 구성요소 및 수행방법

 가. SRE 구성요소

 나. SRE 수행방법

 

 

*내용

1. DevOps 프랙티스, SRE 개요

 가. SRE 정의

  - 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안전성을 달성 할 수 있도록 지원하는 엔지니어링 분야

 나. SRE 배경 및 원칙 

구분 내용
배경 - DevOps 운영 철학 안에서 개발자들의 영역 확장에 따른 기존 운영자들의 새로운 역할
- 애플리케이션을 빌드하고 유연하게 배포, 모니터링 기술의 요구
원칙 - 가용성에 대한 명확한 정의, 가용성 목표 정의, 장애 발상에 대한 계획

2. SRE 구성요소 및 수행방법

 가. SRE 구성요소

구성요소 세부구성요소 설명
Metric & Monitoring - SLI(Service Level Indicator)
- SLO(Service Level Objective)
- Dashboard
- 서비스 지표 및 각 지표에 대한 안정성 목표
- 이해당사자에 시스템 상태 시각화 전달
Capacity Planning - 시스템 필요용량
- 확보, 리소스용량
- SW, 최적화
- 단발성 리소스 요청에도 유연한 대응 필요
-자원확보 뿐만 아니라 성능 튜닝 중요
Change Management - 점진적 배포 변경
- 배포 장애 시 빠른 문제 파악
- 장애 시 빠른 롤백
- 시스템 장애 약 70% 시스템 변경시 발생
- 배포 프로세스의 자동화 추진
Emergency Response - MTTR
- Playbook
- MTTR 최소화가 목표
- Playbook 기반 장애 대응 훈련
Culture - Error Budget - 데이터 기반 합리적 결정
- 비난하지 않고 책임을 나눠가지는 문화

 나. SRE 수행방법

수행방법 핵심요소 설명
Reduce Organizational silos - 주인의식 공유 - 원칙에 따라 장애에 대한 책임을 모두 공유
- 부서간 단절현상 완화 노력
Accept failure as normal - Postmortem 회고
- Error budget 개념 도입
- 장애 처리 후 후속대책에 대한 준비
- 시스템 가용성의 적절한 관리를 위한 지표
Implement Gradual changes - 카나리 배포
- 롤링 업그레이드
- 작은 변경 배포를 사용 점진적 변경을 통하여 장애 발생시 MTTR 감소
Leverage tooling and automation - 시스템 운영 자동화
- Toil 도입
- 시스템 자동화를 통한 휴먼 오류 최소화
- 수동작업의 양을 조절하기 위한 개념
Measure everything - 시스템 지표
- 수동작업시간, 장애시간
- 의사결정에 대한 기반인 지표가 매우 중요
- 모든 상황을 측정하여 데이터화

- SRE 에서는 데이터 기반으로 의사결정을 수행하므로 SLI와 SLO가 매우 중요

반응형

'IT지식 > 소프트웨어공학' 카테고리의 다른 글

CD(Continuous Development)  (0) 2023.05.30
CI(Continuous Integration)  (0) 2023.05.30
DevOps  (0) 2023.05.26
도메인 공학  (1) 2023.05.24
SSPL(System & Software Product Line)  (0) 2023.05.14

+ Recent posts