능력치 만렙 SRE [관측 가능성, 자동화, 장애 대응을 넘어 독보적인 커리어 구축까지]

원서명Becoming a Rockstar SRE: Electrify your site reliability engineering mindset to build reliable, resilient, and efficient systems (ISBN 9781803239224)
지은이제레미 프로핏(Jeremy Proffitt), 로드 아나미(Rod Anami)
옮긴이김희진, 양재호, 표세열

ISBN : 9791161759791
40,000원 (eBook 32,000원)
2026년 03월 30일 펴냄
페이퍼백 | 584쪽 | 188*235mm
시리즈 : 소프트웨어 아키텍처

판매처

교보문고 YES24 알라딘

eBook 판매처

교보문고 리디북스 알라딘 YES24

책 소개
저자/역자 소개
목차
도서 오류 신고

책 소개

예제 코드 다운로드

이 책의 예제 코드는 에이콘출판사 공식 깃허브에서 다운로드할 수 있다.
https://github.com/AcornPublishing/9791161759791

책 소개

새벽 3시의 장애 알림에도 흔들리지 않는 압도적 신뢰성의 비밀,
대체 불가능한 '능력치 만렙 SRE'로 거듭나는 완벽한 실무 가이드!

이 책은 깃옵스와 쿠버네티스를 활용한 파이프라인 자동화부터 부하 테스트, 카오스 엔지니어링 등 SRE가 반드시 알아야 할 핵심 기술을 실무 밀착형 실습과 함께 제공한다.

단순한 기술 서적을 넘어, 피 말리는 장애 상황에서 빛을 발하는 런북 작성법, 비난 없는 사후 분석, 그리고 이해관계자들과의 효과적인 소통 전략까지 험난한 IT 현장의 생생한 노하우를 아낌없이 담아냈다.

여기에 구직자를 위한 날카로운 면접 및 연봉 협상 팁, 12팩터(12-Factor) 기반의 시스템 진단법까지 아우르고 있어, 클라우드 네이티브 시대에 비즈니스를 구원하는 최정예 엔지니어로 성장하고 싶은 모든 이를 위한 단 하나의 바이블이다.

내용 소개

1. 파이프라인 구축과 빈틈없는 테스트 자동화

깃옵스 기반의 CI/CD 파이프라인부터 컨테이너, 서버리스, 쿠버네티스 오케스트레이션까지 현대적인 클라우드 네이티브 아키텍처의 작동 원리를 파헤친다. 나아가 TDD, 퍼즈 테스트, k6 부하 테스트 등 다양한 테스트 전략과 용량 계획을 통해 운영 환경에 배포하기 전부터 시스템의 신뢰성을 견고하게 다지는 방법을 배운다.

2. 피 말리는 장애 상황을 압도하는 체계적인 위기 관리

실효성 있는 런북 작성법과 저소음 알림 설정으로 엔지니어의 피로도를 줄이고, 예측 불가능한 장애 상황에서 팀을 지휘하는 실전 소통 전략을 제시한다. 또한 장애를 성장의 기회로 바꾸는 '비난 없는 사후 분석'을 통해 근본 원인을 규명하고, 장기적인 해결책을 비즈니스 관점에서 도출한다.

3. 카오스 엔지니어링과 대체 불가능한 커리어 설계

'불운의 수레바퀴' 게임과 카오스 엔지니어링을 통해 운영 환경에 의도적으로 장애를 주입하며, 시스템의 한계를 테스트하고 내결함성을 극한으로 끌어올린다. 여기에 SRE 채용 시장의 현실적인 면접 팁, 연봉 협상 노하우, 12팩터(12-Factor) 기반의 시스템 진단법까지 수록하여 조직이 탐내는 핵심 인재로 성장하는 길을 안내한다.

이 책의 대상 독자

SRE 역할을 목표로 하는 개발자부터 기술을 마스터하려는 시스템 관리자, 그리고 조직 내 반복되는 서비스 중단을 경험하는 경영진에 이르기까지 모든 IT 전문가에게 추천한다. 또한 고객에게 미치는 영향을 줄이고 수익 손실을 막으면서 개발 처리량을 높이기 위해 조직에 신뢰성과 자동화를 도입하는 데 관심 있는 모든 사람에게 도움이 될 것이다. 책을 읽는 동안 API 및 웹 아키텍처에 대한 기본적인 이해와 클라우드 컴퓨팅 및 서비스에 대한 약간의 경험이 있다면 이해하기 수월할 것이다.

이 책의 구성

1장, SRE 직무: 주요 활동과 책임에서는 SRE의 역할에 대해 다루며, SRE가 누구인지 설명한다.
2장, 핵심 수치: 신뢰성 통계에서는 사이트 신뢰성 엔지니어링 작업과 비즈니스 영향이 어떻게 측정되는지 보여준다.
3장, 위험한 습관: 임시방편 아키텍처와 스파게티 코드에서는 시스템이 왜 본질적으로 신뢰할 수 없는지 설명한다.
4장, 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스에서는 모니터링에서 진정한 관측 가능성으로 나아가는 방법을 살펴본다.
5장, 해결 전략: 트러블슈팅 정복에서는 SRE 방식으로 정확하고 간결하게 문제를 해결하는 방법을 알아본다.
6장, 운영 프레임워크: 인프라와 시스템 관리에서는 SRE가 엔지니어링 업무뿐만 아니라 운영 업무를 다루는 이유와 방법을 설명한다.
7장, 데이터 활용: 관측 가능성 데이터 과학에서는 SRE를 위한 기본적인 수학 모델과 통계적 방법을 설명한다.
8장, 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계에서는 신뢰성에 적용되는 시스템 사고와 신뢰할 수 있는 아키텍처 패턴을 설명한다.
9장, 자동화의 가치: 단순 반복 작업의 발견과 제거에서는 사이트 신뢰성 엔지니어링의 핵심 기둥인 운영 확장성에 대해 독자가 익숙하게 만든다.
10장, 파이프라인 공개: 깃옵스 및 테스트 필수 요소에서는 데브옵스 전달 파이프라인 내에서 신뢰성을 활용하는 방법을 설명한다.
11장, 작업 군단: 서버리스, 컨테이너 및 쿠버네티스의 오케스트레이션에서는 워크로드 관리가 시스템의 신뢰성에 어떤 영향을 미치는지 알아본다.
12장, 최종 점검: 테스트 전략과 용량 설계에서는 좋은 테스트와 용량 계획이 어떻게 시스템 성능을 앞서게 하는지 보여준다.
13장, 첫 번째 과제: 운영 절차서와 저소음 장애 알람에서는 잘 설계된 절차와 알림이 SRE를 문제에 대비시키는 방법을 살펴본다.
14장, 신속 대응: 장애 관리 기법에서는 SRE의 긍정적인 행동과 중요한 장애 중에 해결을 향한 상호작용을 유지하는 방법을 알아본다.
15장, 솔직한 사후 분석: 장기적인 해결책에서는 사후 분석이 어떻게 시스템을 더 신뢰할 수 있게 만드는 조치로 이어져야 하는지를 알아본다.
16장, 카오스 주입기: 고급 시스템 안정성에서는 SRE가 시스템에 혼돈(chaos)을 주입해 더 많은 것을 배우고 게임화를 사용해 기술을 연마하는 방법을 명확히 한다.
17장, 면접 조언: 채용과 구직에서는 회사가 SRE를 어떻게 채용해야 하는지, 그리고 SRE가 면접 중에 자신의 지식을 어떻게 보여줘야 하는지를 보여준다.
부록 A, 사이트 신뢰성 엔지니어 선언문에서는 전 세계 모든 SRE의 주요 책임을 알아본다.
부록 B, 12팩터 선언문 적용에 관한 설문에서는 헤로쿠의 선언문에 따라 애플리케이션 설계가 신뢰할 수 있는지 테스트하기 위한 질문들을 살펴본다.

베타 리더 후기

이호철

평소에는 기능 개발에 더 익숙해서 안정성을 관리하는 일은 조금 다른 영역이라고 생각해 왔는데, 이 책을 읽으면서 SRE가 생각보다 멀리 있는 이야기가 아니라는 걸 자연스럽게 느끼게 됐습니다.

관측 가능성, 자동화, 장애 대응, 사후 분석 같은 내용도 따로 흩어져 있지 않고 하나의 흐름으로 이어져서 읽기 좋았습니다. 특히 장애가 발생한 뒤의 대응에서 끝나는 게 아니라 사후 분석을 통해 같은 문제가 반복되지 않도록 시스템을 계속 개선해 나가는 과정이 인상 깊었습니다. 안정성을 관리하는 일은 단순한 운영이 아니라 서비스를 더 좋은 방향으로 만들어가는 일이라는 생각이 들었습니다.

운영과 신뢰성에 대해 더 넓게 보고 싶은 웹 개발자라면 꼭 한 번 읽어볼 만한 책입니다.

임승민

개발과 운영 그리고 장애 대응까지 제품/서비스에 폭넓게 관여하는 직무인 SRE의 관심이 뜨겁습니다.

이 책은 SRE의 주요 업무와 함께 SRE에게 필요한 하드스킬 그리고 소프트스킬까지, SRE로 전직에 필요한 다양한 요건을 세밀하게 설명합니다. 또한 SRE 업무에 필요한 핵심 지표(SLA, SLI, SLO)와 관측 가능성, 아키텍처를 모두 다루며, 특히 장애 상황에 대한 대응법을 실무자의 눈높이에서 안내합니다.

시스템에 요구되는 신뢰성을 정의하며 코드의 배포, 모니터링, 변경 관리, 비상 대응 등 시스템 신뢰성을 높일 수 있도록 활동하는 SRE 직무가 궁금한 모든 분께 책을 추천합니다.

조성수

서비스 운영을 담당하는 엔지니어가 가장 신경 써야 하는 부분이 무엇인지 물어본다면 ‘고객보다 먼저 서비스 문제를 감지하는 것’이라고 저는 말하고 싶습니다.

이 책은 서비스의 안정성을 책임지는 엔지니어인 SRE로서 고객보다 먼저 서비스 문제를 감지하기 위한 모든 내용을 압축해서 설명하고 있습니다. 서비스 안정성을 객관화된 지표로 나타낸 SLO/SLA에 대한 이해를 시작으로 안정적인 시스템 구축/배포를 위한 전략, 모니터링에 필요한 다양한 관점과 이론, 마지막으로 서비스 장애에 효율적으로 대응하고 관리하는 방법까지 서비스 운영에 필요한 전 과정을 담고 있습니다.

조직 내 서비스 운영/모니터링/장애 대응에 대한 프로세스를 세우고 싶거나 개선하고 싶다면 이 책의 내용이 훌륭한 길라잡이가 될 것입니다.

최규민

수년간 시스템 엔지니어(SE)와 기술 지원(Tech Support)으로 일했지만 늘 “SRE는 단순한 SE의 새 이름일까?”라는 의구심이 있었습니다.

하지만 이 책을 통해 SRE가 단순히 인프라를 관리하는 기술자를 넘어, 데이터를 이정표 삼아 비즈니스 전체를 조율하는 ‘IT 오케스트라의 지휘자’라는 사실을 명확히 깨달았습니다.

기술적 개선은 물론, 아키텍처 설계와 배포, 그리고 마케팅팀이나 C-레벨까지 아우르는 커뮤니케이션 역량까지, 현대적인 SRE 엔지니어가 갖춰야 할 전방위적 역할을 이 책 한 권으로 마스터할 수 있습니다.

저자/역자 소개

지은이 소개

제레미 프로핏(Jeremy Proffitt)

1977년생으로, 끊임없이 시스템을 개선하고 누구보다 빠르게 문제를 해결하는 데 몰두하는 SRE의 정석과도 같은 인물이다. 엔지니어링에 대한 집요한 태도는 시스템을 더 완성도 높게 만드는 원동력이다. 솔루션과 기술 지식의 대가이며, AWS 아키텍처 및 데브옵스 프로페셔널 자격증을 보유한 능력치 만렙 SRE로서 경력 내내 수백만 달러에 달하는 잠재적 매출 손실을 막아냈다. ‘능력치 만렙’이라는 별명에 걸맞게 여가 시간에는 자신의 기술 아지트에서 3D 프린팅, 전자공학, IoT 프로젝트에 몰두한다. 현재 최고의 SRE 및 데브옵스 인재들로 구성된 팀을 이끌며 지속적인 개선을 주도하고 있다. 회사 내에서는 관측 가능성 및 비상 대응 분야의 선구자로 불린다.

로드 아나미(Rod Anami)

클라우드 인프라 및 소프트웨어 엔지니어링 기술 분야의 숙련된 엔지니어다. 킨드릴(Kyndryl) CoE의 SRE 중 한 명으로, 전 세계 고객을 위한 IT 현대화, 혁신, 자동화 프로젝트를 수행하는 다른 SRE들을 코칭한다. 킨드릴 내의 글로벌 SRE 길드를 이끌며, 여러 국가에서 SRE 챕터가 자리 잡고 성장하게 돕고 있다. 최고 수준의 SRE, 기술 전문가, 데브옵스 엔지니어 프로페셔널로 인증받았다. AWS, 하시코프(HashiCorp), 애저, 쿠버네티스 등 다수의 자격증을 보유하고 있다. 이 외에도 Node.js 라이브러리를 만들고 다듬으며 오픈소스에 기여하는 일에 열정을 쏟고 있다.

지은이의 말

사이트 신뢰성 엔지니어링은 끊임없는 개선을 통해 고객의 요구 사항과 기술적 한계 사이의 간극을 메우고, 비즈니스와 제품의 문제를 해결해 궁극적으로 더 높은 수익을 창출하는 것과 관련이 있다.

신뢰도를 정량화하고, 자원을 관리하며, 개발자의 요구를 파악하는 일은 때로 벅차게 느껴질 수 있다. 이 책은 인프라와 코드 관점에서 신뢰성을 탐구하고, 실제 사례를 통해 SRE의 역할을 생생하게 보여준다. 이 책은 “SRE는 누구인가?”라는 근본적인 질문에서 출발해, 사이트 신뢰성 엔지니어링의 철학과 실천 방법을 차례로 탐구한다. CI/CD 파이프라인 자동화와 단순 반복 작업 감소 같은 실용적인 주제부터 신뢰성 높은 아키텍처 설계, 그리고 비즈니스 및 외부 공급업체와의 효과적인 협상 전략까지, SRE가 현장에서 마주하는 모든 과제를 단계별로 안내한다. 또한 관측 가능성 확보, 장애 대응, 그리고 훌륭한 운영 절차서 작성법을 깊이 있게 다루고, 마지막으로 성공적인 면접과 커리어 개발을 위한 현실적인 조언으로 마무리한다.

마지막 페이지를 덮을 때쯤 독자는 신뢰성을 명확히 정의하고 측정하며, 장애를 줄이고, 생산성을 극대화해 모두가 인정하는 능력치 만렙 SRE로 거듭나 있을 것이다.

옮긴이 소개

김희진

컬리의 핀테크 스핀오프인 컬리페이 서비스 런칭 멤버로 합류해, 현재 데브옵스 엔지니어이자 SRE로 재직 중이다. 이전에는 백엔드 개발자로 일하며 시스템 전반에 대한 이해를 넓혔다. 엔지니어링이 누군가의 일상을 편리하게 만드는 데 기여한다고 믿으며, 함께 일하는 동료부터 서비스를 사용하는 고객까지 모두에게 더 나은 가치를 전달하기 위해 노력하고 있다.

양재호

컬리의 핀테크 조직에서 SRE팀의 파트장을 역임하고 있다. 서비스의 신뢰성을 높이기 위한 인프라 지표를 만드는 것에 관심이 많으며, 특히 최근에는 핀테크 서비스의 ‘신뢰성 있는 서비스로 판단하기 위한 지표’에 대한 고민을 하고 조직에 배포하고 있다.

표세열

개발과 운영의 경계를 허물고, 자동화를 통해 서비스의 지속적인 개선을 이끄는 SRE 엔지니어다. 다날, 컬리페이, 컬리를 거쳐 현재는 카카오뱅크 SRE 조직 내 컨테이너플랫폼팀에서 쿠버네티스 엔지니어로서 견고한 인프라를 구축하고 있다.

단순히 시스템을 운영하는 것을 넘어, SRE를 하나의 ‘조직 문화’로 정착시키는 데 깊은 관심을 두고 있다. 테라폼(Terraform), 헬름(Helm) 등을 활용한 IaC 구현과 깃옵스(GitOps) 기반의 CI/CD 파이프라인 구축, 그리고 사내 관측 가능성 플랫폼 설계를 주도해 왔다. 기술의 변화 속에서도 ‘신뢰성’이라는 핵심 가치를 지키기 위해 끊임없이 학습하며, 이 책을 통해 더 많은 엔지니어가 ‘능력치 만렙 SRE’로 성장하기를 바라는 마음으로 번역에 참여했다.

옮긴이의 말

데브옵스 엔지니어 혹은 SRE로 커리어 전환을 희망하는 개발자나, 업계의 주니어 엔지니어에게 이 책을 적극 추천합니다. 이 책은 SRE와 데브옵스 엔지니어의 차이점은 물론, SRE가 실제로 어떤 일을 하는지 구체적으로 보여줍니다. 단순히 이름만이 아닌 실제 사례를 통해 간접 경험을 제공하며 실무에 바로 적용할 수 있는 유용한 팁을 담고 있습니다. 특히 ‘15장, 솔직한 사후 분석: 장기적인 해결책’에서는 장애 발생 시 여러 엔지니어와 협업하며 비난 없는 사후 분석을 수행하고 보고서를 작성하는 방법을 생생한 예제로 배울 수 있습니다.
- 김희진

SRE로서 기술을 습득하고 실제 업무를 수행하는 데 있어서 많은 어려움에 봉착하게 됩니다. 기술적인 어려움도 있겠지만 가장 어려운 것은 기술을 쌓아 올린 이후에 과연 서비스를 안정적이고 효율적으로 운영하고 있는가에 대한 의문이 드는 것입니다. 능력치 만렙 SRE는 서비스에서 이것을 판단할 수 있는 지표를 설정할 수 있게 하고, 그 지표를 통해서 좀 더 나은 서비스를 만들기 위한 이정표를 제시합니다.
- 양재호

SRE로서 커리어를 쌓아가다 보면 어느 순간 기술적인 도구(Tool) 사용법만으로는 해결되지 않는 벽에 부딪히게 됩니다. “어떻게 하면 개발팀과 더 효율적으로 협업할 수 있을까?”, “우리 조직에 맞는 신뢰성 지표는 무엇일까?”, “단순한 운영자가 아닌, 서비스를 주도하는 엔지니어가 되려면 무엇이 필요할까?”

저 역시 수많은 트래픽과 데이터 속에서 인프라를 운영하며 매일같이 했던 고민들입니다. 이 책은 복잡한 커맨드 명령이나 설정값만 단순하게 나열하는 기술 서적이 아닙니다. 대신, 진짜 ‘능력치 만렙 SRE’가 되기 위해 필요한 소프트 스킬, 사고방식, 그리고 조직 문화를 기술과 조화시키는 방법을 현실적으로 다루고 있습니다.

제가 컬리페이에서 동료들과 함께 이 책을 번역하기로 결심한 이유도 바로 여기에 있습니다. 쿠버네티스나 테라폼 같은 도구는 배울 수 있지만, SRE로서의 ‘태도’와 ‘통찰’은 배우기 어렵기 때문입니다. 이제 막 SRE의 길에 들어선 분, 혹은 기술적 성장을 넘어 조직에 임팩트를 주는 엔지니어로 거듭나고 싶은 모든 분께 이 책을 강력히 추천합니다.
- 표세열

1부 - SRE 핵심 이해: 역할, 업무, 필요성
01장 SRE 직무: 주요 활동과 책임
개인 성장의 과정
__SRE의 원동력
__SRE의 역량
__SRE의 특징
사고방식과 취미
__SRE 성향 테스트
__SRE의 기본 원칙
__SRE의 취미
데브옵스 엔지니어 vs SRE vs 또 다른 엔지니어
__데브옵스 엔지니어와 SRE
__소프트웨어 엔지니어와 SRE
주요 책임
__운영 업무 책임
__엔지니어링 업무 책임
일상 업무
__대응 업무
__예방 업무
영감을 주는 사람들
__제레미의 감사: 폴 티마
__로드의 감사: 인고 아버덩크, 진 브라운
요약
더 읽을거리
02장 핵심 수치: 신뢰성 통계
SLA 협약: 숫자를 넘어선 소통
__내부 파트너를 위한 SLA
__외부 파트너를 위한 SLA
__9의 가치
__SLA 마무리
SLO 및 SLI 정의와 효과적인 활용법
__SLO
__SLO와 측정 기간
MTBF를 활용한 서비스 중단 빈도 추적
MTTR을 활용한 서비스 중단 시간 측정
수익 및 고객 영향도 분석
__서비스 중단 투명성 확보
__능력치 만렙 SRE의 SLA
요약
03장 위험한 습관: 임시방편 아키텍처와 스파게티 코드
비용으로 보는 소프트웨어 개발 사업
__소프트웨어의 가치
__사업 보호의 가치
__사업 성장의 가치
__인건비 절감의 가치
A/B 테스트 사고방식
__고객 상호작용과 A/B 테스트
__A/B 테스트 결과 분석
__분기 실적과 A/B 테스트
개발자의 헌신과 직업의식
__효과적인 소통 방법
병합 요청 검토
__형식적인 승인은 금물
__운영 환경 배포 시 고려 사항
모범 사례를 외면하는 이유
__개발자 업무 소유권
__개발 비용 추정의 결함
__속도, 품질, 비용: 선택의 문제
__관측 가능성: 신뢰성 문제의 해답
__고가용성과 비용
나쁜 코드 개선 전략
__장애 알림
__로깅 강화
__예외 처리
__신중한 재시도
요약
2부 - 사이트 신뢰성 엔지니어링을 위한 관측 가능성 구현
04장 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스
기술 요구 사항
시스템 모니터링과 원격 측정법
__인프라 모니터링
__모니터링 종류와 도구
__골든 시그널 모니터링
__데이터 모니터링
APM의 이해
토폴로지 자가 발견, 폭발 반경, 예측 가능성 및 상관관계
경보: 조용하게 하는 기술
__사용자 관점 알림 발생 원칙
__인시던트 이벤트 연결 원칙
모든 것을 활용한 관측 가능성
__시스템 중단 vs 중단 시간
__관측 가능성 아키텍처
__관측 가능성 효과
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
05장 해결 전략: 트러블슈팅 정복
문제의 올바른 정의와 올바른 질문
__정보의 출처
__제보자의 지식 수준
__이름 규칙
__잘못된 긴급성
__실행 요약
분석과 테스트를 위한 시스템
__하드웨어와 운영체제의 분해
__웹 API 분해
__단계 이해
__중간 지점 문제 해결 방법론의 문제점
작은 문제를 확인하기 위한 과거, 일반적인 이벤트
__기존의 근본 원인 분석 문서
__시계열 분석
__비교
__최선의 방법
인터넷과 동료를 통한 효과적인 검색
__구글 검색의 기술
__빠른 검토와 개선
__내부 자원 활용
효율적인 소스코드 분석
__생소한 코드
__실패를 했을 경우
코드와 로그
실습: 학습 내용 적용
요약
06장 운영 프레임워크: 인프라와 시스템 관리
기술 요구 사항
시스템 관리의 학문적 접근
__설계
__설치
__설정
__애플리케이션 배포
__운영
__업그레이드
__삭제
IT 서비스 운영의 이해
__ITIL
__데브옵스
다양한 계층과 다양한 분야로서 시스템 운영의 접근
시스템 구축과 운영 자동화
__코드로서의 인프라
__변하지 않는 인프라
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
07장 데이터 활용: 관측 가능성 데이터 과학
기술 요구 사항
데이터 기반 의사 결정
__질문과 선택지 정의
__데이터 선택
__이미 사용 가능한 데이터 확인
__누락 데이터 수집
__모든 데이터 세트 종합 분석
__의사 결정 기록 제시
__프로세스에서 얻은 교훈 문서화
과학적 접근법을 통한 문제 해결
__질문
__가설
__예측
__실험
__분석
가장 일반적인 통계 방법 이해
__백분율
__평균, 산술 평균, 표준 편차
__분위수와 백분위수
__히스토그램
관측 가능성에 수학 모델 활용
__몬테카를로 시뮬레이션
__머신러닝
그라파나로 도수분포표 시각화하기
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__latency.py
__실습 설명
요약
더 읽을거리
3부 - 신뢰성을 위한 아키텍처 적용
08장 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계
기술 요구 사항
신뢰성을 위한 설계
__아키텍처 측면
__신뢰성 방정식
__설계 패턴
__모던 애플리케이션
워크로드의 분할과 밸런싱
__분할
__분산
페일오버
스케일 업과 스케일 아웃: 수평 vs 수직
__수평 스케일링
__수직 스케일링
__오토스케일링
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
09장 자동화의 가치: 단순 반복 작업의 발견과 제거
기술 요구 사항
단순 반복 작업 제거
__단순 반복 작업의 재정의
__단순 반복 작업이 나쁜 이유
__단순 반복 작업을 잘 처리하는 방법
소프트웨어 문제로 다루는 자동화
__문서화
__알고리듬
__코드
CI/CD 파이프라인
__지속적인 통합
__지속적인 전달
__운영 배포
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
10장 파이프라인 공개: 깃옵스 및 테스트 필수 요소
기본 파이프라인: 인프라, 코드 배포를 위한 자동화
__시간 순서를 갖는 파이프라인
__파이프라인 템플릿
__파이프라인의 에러 또는 중단
__파이프라인 내에서 컨테이너 사용
__파이프라인 아티팩트
__파이프라인 문제 해결 팁
컴플라이언스, 보안 검사 자동화
__오래된 라이브러리
__애플리케이션 보안 테스트
__동적 애플리케이션 보안 테스트
__정적 애플리케이션 보안 테스트
__비밀 정보 검사
린트를 이용한 코드 품질, 표준 자동화
__린트 피드백을 활용한 컴파일
기능 검증을 위한 테스트 자동화
__신뢰성과 테스트의 연관성
__테스트 데이터
__테스트의 다양한 유형
__파이프라인 테스트 시기
__테스트의 관측 가능성
__자동 롤백
자동화에 따른 개발자의 단순 반복 작업 감소
__단순 반복 작업을 줄이는 의미
실습: 학습 내용 적용
__실습을 위한 AWS 준비
__저장소 생성
__저장소에 비밀 정보 추가
__실습 파일 다운로드와 커밋
__파이프라인 이해
__스텝 추가
__배포 없이 테스트만 실행
__마지막 처리
요약
11장 작업 군단: 서버리스, 컨테이너, 쿠버네티스의 오케스트레이션
기술 요구 사항
서버리스의 다양한 정의
__서버리스 프레임워크
__서버리스 컴퓨팅
__서버리스 함수
__서버리스 함수 모니터링
__에러
컨테이너가 사랑받는 이유
__격리
__불변성
__배포 용이성
__태깅
__롤백
__보안
__서명
__컨테이너 모니터링
쿠버네티스와 기타 컨테이너 오케스트레이션 방법
__헬스 체크
__충돌과 강제 종료된 컨테이너
__HTTP 기반 부하 분산
__서버 부하 분산
__서비스로서의 컨테이너(CaaS)
__간단한 컨테이너 오케스트레이션
쿠버네티스
다양한 배포 기술
__전통적인 교체 배포
__롤링 배포
__A/B 또는 블루 그린 배포
__카나리 배포
배포 자동화와 롤백
__롤백 메트릭
__롤백 시점
__롤백 방식
실습: 학습 내용 적용
__깃포드 활용: 컨테이너화된 작업 공간
__에뮬레이션 소스코드
__에뮬레이션 실행
요약
12장 최종 점검: 테스트 전략과 용량 설계
기술 요구 사항
다양한 테스트 유형
__개발 단계 테스트
__빌드 단계 테스트
__전달 단계 테스트
__배포 단계 테스트
__운영 단계 테스트
테스트 주도 개발
__고전적인 단위 테스트
__프레임워크를 사용한 단위 테스트
테스트 자동화 프레임워크 활용
용량 계획을 통한 선제적 대응
__부하 테스트 데이터
__용량 곡선
__수요 곡선
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 절차
요약
더 읽을거리
4부 - 장애 상황 완벽 대응
13장 첫 번째 과제: 운영 절차서와 저소음 장애 알람
기술 요구 사항
훌륭한 운영 절차서의 조건
__살아 숨 쉬는 운영 절차서
__독자의 지식 수준
__접근 권한 관리
__핵심 구성 요소
운영 절차서 너머의 통찰
__소스코드 신속 분석
__코드 속 핵심 정보 찾기
__이해를 돕는 주석
좋은 대시보드의 요건
__대시보드의 유형
__적색 신호와 녹색 신호
__추세 표시
__집계 및 세부 분석
__대시보드와 알림
우선순위 수준
__대응 노력
__엔지니어 이탈 방지
__장애 관리 시스템과 우선순위
__장애 관리 시스템과 스마트폰 통합
__P1 이벤트
__우선순위 정의
__관측 가능성 장애의 우선순위 수준
__우선순위 강제
__알림 조정
__로그 기반 알림
__알림 중지
실습: 학습 내용 적용
__우선순위 수준 정의
__운영 절차서
__알림
요약
14장 신속 대응: 장애 관리 기법
협업 공간 전략
__온라인 협업
__대면 협업
__장애 대응 기록의 활용
__참여자
__후속 조치
장애 대응 인력 활용법
__업무 배분
__대응 참여자의 성격 유형
__휴식 전략과 스트레스 관리
적시 대응의 중요성과 기회
__훈련 기회
__운영 문서 최신화
__팀워크 강화
__경영진을 향한 전략적 소통
__개선 사항 제안의 기회
고객 및 경영진과의 소통 방법
__고객 소통과 경영진 소통
__소통 주기
__이메일 그룹
__상태 페이지
__과도한 소통의 역효과
__기록, 또 기록
실습: 학습 내용 적용
__장애 및 알림
__통지 및 대응
__문제 해결
__결론
요약
15장 솔직한 사후 분석: 장기적인 해결책
경영진 핵심 요약 사후 분석
__경영진 핵심 요약
__개요
__영향도
__타임라인
__기술적 분석
__참여자 및 기여자
__해결 과정 및 결과
__향후 조치
결정을 비난하지 말 것
__비즈니스 관점
__자원 및 시간 제약
__모니터링
비즈니스와 신뢰성 향상
__액티브-액티브 구성
__수동 장애 조치
__장애 식별 시간
__부하 전환 시간
__숨겨진 개발 비용
훈련과 역량의 중요성
__역량 격차 파악
__자격증 취득
실행 계획 수립
__즉각적인 후속 조치
__참여 대상 선정
__타임라인과 우선순위
__소유권 할당
__작업 추적
실습: 사후 분석의 예
__개요 작성
__사후 분석 마무리
맞춤형 모자 회사 사후 분석 보고서
영향도
타임라인
기술적 세부 사항 및 대응
해결
향후 조치
요약
5부 - 미래 동향 및 SRE 인터뷰 준비
16장 카오스 주입기: 고급 시스템 안정성
기술 요구 사항
불운의 수레바퀴 게임 이해
__모든 끝은 새로운 시작
__장애 상황에서 얻는 교훈
__모의 장애 훈련
__게임화 기법
신뢰성 향상을 위한 카오스 엔지니어링
__카오스 엔지니어링의 원칙
__카오스 시스템 아키텍처
__카오스 실험
실습: 불운의 수레바퀴 게임 적용
__실습 아키텍처
__실습 내용
__실습 지침
실습: 시스템에 카오스 주입
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
17장 면접 조언: 채용과 구직
SRE의 자격 요건
__자가 평가
__신입 엔지니어
__문제 해결 능력
__협업과 수용의 자세
__폭넓은 지식과 기술
__리서치 및 학습 능력
__거절할 수 있는 용기
__조직 문화 적합성
__X 인자
__열정
__경험
__주인의식과 책임감
면접 질문 심층 분석
__기술 역량 질문
__비기술적 역량 질문
__통찰력 있는 엉뚱한 질문
좋은 직무와 회사 선택 기준
__좋은 상사의 정의
__점선 보고 체계
__기업 윤리
지원 회사 심층 분석
__비즈니스 모델
__향후 10년간의 수익성
__구조
__대기업과 중소기업
__상장사와 비상장사
__온라인 기업 리뷰
자격증의 가치와 함정
__가치 있는 자격증
__적정한 자격증 수
__관련성
성공적인 연봉 협상
__면접 팁
__연봉 협상
요약
부록 A 사이트 신뢰성 엔지니어 선언문
선언문
선언문 활용 방법
선언문 기여 방법
부록 B 12팩터 선언문 적용에 관한 설문
설문
__팩터 I: 코드베이스
__팩터 II: 종속성
__팩터 III: 설정
__팩터 IV: 백엔드 서비스
__팩터 V: 빌드, 릴리스, 실행
__팩터 VI: 프로세스
__팩터 VII: 포트 바인딩
__팩터 VIII: 동시성
__팩터 IX: 폐기 가능
__팩터 X: 개발/운영 환경 일치
__팩터 XI: 로그
__팩터 XII: 관리 프로세스
설문 활용 방안
설문 개선에 기여

도서 오류 신고

이름

e-mail

도서명

신고내용

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

개인정보수집ㆍ이용에 동의합니다.

능력치 만렙 SRE [관측 가능성, 자동화, 장애 대응을 넘어 독보적인 커리어 구축까지]

판매처

eBook 판매처

책 소개

이호철

임승민

조성수

최규민

저자/역자 소개

제레미 프로핏(Jeremy Proffitt)

로드 아나미(Rod Anami)

김희진

양재호

표세열

목차

도서 오류 신고