Comming Soon

능력치 만렙 SRE [관측 가능성, 자동화, 장애 대응을 넘어 독보적인 커리어 구축까지]

  • 원서명Becoming a Rockstar SRE: Electrify your site reliability engineering mindset to build reliable, resilient, and efficient systems (ISBN 9781803239224)
  • 지은이제레미 프로핏(Jeremy Proffitt), 로드 아나미(Rod Anami)
  • 옮긴이김희진, 양재호, 표세열
  • ISBN : 9791161759791
  • 40,000원
  • 2026년 03월 30일 펴냄
  • 페이퍼백 | 584쪽 | 188*235mm
  • 시리즈 : 소프트웨어 아키텍처

책 소개

예제 코드 다운로드

이 책의 예제 코드는 에이콘출판사 공식 깃허브에서 다운로드할 수 있다.
https://github.com/AcornPublishing/9791161759791

책 소개

새벽 3시의 장애 알림에도 흔들리지 않는 압도적 신뢰성의 비밀,
대체 불가능한 '능력치 만렙 SRE'로 거듭나는 완벽한 실무 가이드!

이 책은 깃옵스와 쿠버네티스를 활용한 파이프라인 자동화부터 부하 테스트, 카오스 엔지니어링 등 SRE가 반드시 알아야 할 핵심 기술을 실무 밀착형 실습과 함께 제공한다.

단순한 기술 서적을 넘어, 피 말리는 장애 상황에서 빛을 발하는 런북 작성법, 비난 없는 사후 분석, 그리고 이해관계자들과의 효과적인 소통 전략까지 험난한 IT 현장의 생생한 노하우를 아낌없이 담아냈다.

여기에 구직자를 위한 날카로운 면접 및 연봉 협상 팁, 12팩터(12-Factor) 기반의 시스템 진단법까지 아우르고 있어, 클라우드 네이티브 시대에 비즈니스를 구원하는 최정예 엔지니어로 성장하고 싶은 모든 이를 위한 단 하나의 바이블이다.

내용 소개

1. 파이프라인 구축과 빈틈없는 테스트 자동화

깃옵스 기반의 CI/CD 파이프라인부터 컨테이너, 서버리스, 쿠버네티스 오케스트레이션까지 현대적인 클라우드 네이티브 아키텍처의 작동 원리를 파헤친다. 나아가 TDD, 퍼즈 테스트, k6 부하 테스트 등 다양한 테스트 전략과 용량 계획을 통해 운영 환경에 배포하기 전부터 시스템의 신뢰성을 견고하게 다지는 방법을 배운다.

2. 피 말리는 장애 상황을 압도하는 체계적인 위기 관리

실효성 있는 런북 작성법과 저소음 알림 설정으로 엔지니어의 피로도를 줄이고, 예측 불가능한 장애 상황에서 팀을 지휘하는 실전 소통 전략을 제시한다. 또한 장애를 성장의 기회로 바꾸는 '비난 없는 사후 분석'을 통해 근본 원인을 규명하고, 장기적인 해결책을 비즈니스 관점에서 도출한다.

3. 카오스 엔지니어링과 대체 불가능한 커리어 설계

'불운의 수레바퀴' 게임과 카오스 엔지니어링을 통해 운영 환경에 의도적으로 장애를 주입하며, 시스템의 한계를 테스트하고 내결함성을 극한으로 끌어올린다. 여기에 SRE 채용 시장의 현실적인 면접 팁, 연봉 협상 노하우, 12팩터(12-Factor) 기반의 시스템 진단법까지 수록하여 조직이 탐내는 핵심 인재로 성장하는 길을 안내한다.

이 책의 대상 독자

SRE 역할을 목표로 하는 개발자부터 기술을 마스터하려는 시스템 관리자, 그리고 조직 내 반복되는 서비스 중단을 경험하는 경영진에 이르기까지 모든 IT 전문가에게 추천한다. 또한 고객에게 미치는 영향을 줄이고 수익 손실을 막으면서 개발 처리량을 높이기 위해 조직에 신뢰성과 자동화를 도입하는 데 관심 있는 모든 사람에게 도움이 될 것이다. 책을 읽는 동안 API 및 웹 아키텍처에 대한 기본적인 이해와 클라우드 컴퓨팅 및 서비스에 대한 약간의 경험이 있다면 이해하기 수월할 것이다.

이 책의 구성

1장, SRE 직무: 주요 활동과 책임에서는 SRE의 역할에 대해 다루며, SRE가 누구인지 설명한다.
2장, 핵심 수치: 신뢰성 통계에서는 사이트 신뢰성 엔지니어링 작업과 비즈니스 영향이 어떻게 측정되는지 보여준다.
3장, 위험한 습관: 임시방편 아키텍처와 스파게티 코드에서는 시스템이 왜 본질적으로 신뢰할 수 없는지 설명한다.
4장, 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스에서는 모니터링에서 진정한 관측 가능성으로 나아가는 방법을 살펴본다.
5장, 해결 전략: 트러블슈팅 정복에서는 SRE 방식으로 정확하고 간결하게 문제를 해결하는 방법을 알아본다.
6장, 운영 프레임워크: 인프라와 시스템 관리에서는 SRE가 엔지니어링 업무뿐만 아니라 운영 업무를 다루는 이유와 방법을 설명한다.
7장, 데이터 활용: 관측 가능성 데이터 과학에서는 SRE를 위한 기본적인 수학 모델과 통계적 방법을 설명한다.
8장, 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계에서는 신뢰성에 적용되는 시스템 사고와 신뢰할 수 있는 아키텍처 패턴을 설명한다.
9장, 자동화의 가치: 단순 반복 작업의 발견과 제거에서는 사이트 신뢰성 엔지니어링의 핵심 기둥인 운영 확장성에 대해 독자가 익숙하게 만든다.
10장, 파이프라인 공개: 깃옵스 및 테스트 필수 요소에서는 데브옵스 전달 파이프라인 내에서 신뢰성을 활용하는 방법을 설명한다.
11장, 작업 군단: 서버리스, 컨테이너 및 쿠버네티스의 오케스트레이션에서는 워크로드 관리가 시스템의 신뢰성에 어떤 영향을 미치는지 알아본다.
12장, 최종 점검: 테스트 전략과 용량 설계에서는 좋은 테스트와 용량 계획이 어떻게 시스템 성능을 앞서게 하는지 보여준다.
13장, 첫 번째 과제: 운영 절차서와 저소음 장애 알람에서는 잘 설계된 절차와 알림이 SRE를 문제에 대비시키는 방법을 살펴본다.
14장, 신속 대응: 장애 관리 기법에서는 SRE의 긍정적인 행동과 중요한 장애 중에 해결을 향한 상호작용을 유지하는 방법을 알아본다.
15장, 솔직한 사후 분석: 장기적인 해결책에서는 사후 분석이 어떻게 시스템을 더 신뢰할 수 있게 만드는 조치로 이어져야 하는지를 알아본다.
16장, 카오스 주입기: 고급 시스템 안정성에서는 SRE가 시스템에 혼돈(chaos)을 주입해 더 많은 것을 배우고 게임화를 사용해 기술을 연마하는 방법을 명확히 한다.
17장, 면접 조언: 채용과 구직에서는 회사가 SRE를 어떻게 채용해야 하는지, 그리고 SRE가 면접 중에 자신의 지식을 어떻게 보여줘야 하는지를 보여준다.
부록 A, 사이트 신뢰성 엔지니어 선언문에서는 전 세계 모든 SRE의 주요 책임을 알아본다.
부록 B, 12팩터 선언문 적용에 관한 설문에서는 헤로쿠의 선언문에 따라 애플리케이션 설계가 신뢰할 수 있는지 테스트하기 위한 질문들을 살펴본다.

베타 리더 후기

이호철

평소에는 기능 개발에 더 익숙해서 안정성을 관리하는 일은 조금 다른 영역이라고 생각해 왔는데, 이 책을 읽으면서 SRE가 생각보다 멀리 있는 이야기가 아니라는 걸 자연스럽게 느끼게 됐습니다.

관측 가능성, 자동화, 장애 대응, 사후 분석 같은 내용도 따로 흩어져 있지 않고 하나의 흐름으로 이어져서 읽기 좋았습니다. 특히 장애가 발생한 뒤의 대응에서 끝나는 게 아니라 사후 분석을 통해 같은 문제가 반복되지 않도록 시스템을 계속 개선해 나가는 과정이 인상 깊었습니다. 안정성을 관리하는 일은 단순한 운영이 아니라 서비스를 더 좋은 방향으로 만들어가는 일이라는 생각이 들었습니다.

운영과 신뢰성에 대해 더 넓게 보고 싶은 웹 개발자라면 꼭 한 번 읽어볼 만한 책입니다.

임승민

개발과 운영 그리고 장애 대응까지 제품/서비스에 폭넓게 관여하는 직무인 SRE의 관심이 뜨겁습니다.

이 책은 SRE의 주요 업무와 함께 SRE에게 필요한 하드스킬 그리고 소프트스킬까지, SRE로 전직에 필요한 다양한 요건을 세밀하게 설명합니다. 또한 SRE 업무에 필요한 핵심 지표(SLA, SLI, SLO)와 관측 가능성, 아키텍처를 모두 다루며, 특히 장애 상황에 대한 대응법을 실무자의 눈높이에서 안내합니다.

시스템에 요구되는 신뢰성을 정의하며 코드의 배포, 모니터링, 변경 관리, 비상 대응 등 시스템 신뢰성을 높일 수 있도록 활동하는 SRE 직무가 궁금한 모든 분께 책을 추천합니다.

조성수

서비스 운영을 담당하는 엔지니어가 가장 신경 써야 하는 부분이 무엇인지 물어본다면 ‘고객보다 먼저 서비스 문제를 감지하는 것’이라고 저는 말하고 싶습니다.

이 책은 서비스의 안정성을 책임지는 엔지니어인 SRE로서 고객보다 먼저 서비스 문제를 감지하기 위한 모든 내용을 압축해서 설명하고 있습니다. 서비스 안정성을 객관화된 지표로 나타낸 SLO/SLA에 대한 이해를 시작으로 안정적인 시스템 구축/배포를 위한 전략, 모니터링에 필요한 다양한 관점과 이론, 마지막으로 서비스 장애에 효율적으로 대응하고 관리하는 방법까지 서비스 운영에 필요한 전 과정을 담고 있습니다.

조직 내 서비스 운영/모니터링/장애 대응에 대한 프로세스를 세우고 싶거나 개선하고 싶다면 이 책의 내용이 훌륭한 길라잡이가 될 것입니다.

최규민

수년간 시스템 엔지니어(SE)와 기술 지원(Tech Support)으로 일했지만 늘 “SRE는 단순한 SE의 새 이름일까?”라는 의구심이 있었습니다.

하지만 이 책을 통해 SRE가 단순히 인프라를 관리하는 기술자를 넘어, 데이터를 이정표 삼아 비즈니스 전체를 조율하는 ‘IT 오케스트라의 지휘자’라는 사실을 명확히 깨달았습니다.

기술적 개선은 물론, 아키텍처 설계와 배포, 그리고 마케팅팀이나 C-레벨까지 아우르는 커뮤니케이션 역량까지, 현대적인 SRE 엔지니어가 갖춰야 할 전방위적 역할을 이 책 한 권으로 마스터할 수 있습니다.

저자/역자 소개

지은이 소개

제레미 프로핏(Jeremy Proffitt)

1977년생으로, 끊임없이 시스템을 개선하고 누구보다 빠르게 문제를 해결하는 데 몰두하는 SRE의 정석과도 같은 인물이다. 엔지니어링에 대한 집요한 태도는 시스템을 더 완성도 높게 만드는 원동력이다. 솔루션과 기술 지식의 대가이며, AWS 아키텍처 및 데브옵스 프로페셔널 자격증을 보유한 능력치 만렙 SRE로서 경력 내내 수백만 달러에 달하는 잠재적 매출 손실을 막아냈다. ‘능력치 만렙’이라는 별명에 걸맞게 여가 시간에는 자신의 기술 아지트에서 3D 프린팅, 전자공학, IoT 프로젝트에 몰두한다. 현재 최고의 SRE 및 데브옵스 인재들로 구성된 팀을 이끌며 지속적인 개선을 주도하고 있다. 회사 내에서는 관측 가능성 및 비상 대응 분야의 선구자로 불린다.

로드 아나미(Rod Anami)

클라우드 인프라 및 소프트웨어 엔지니어링 기술 분야의 숙련된 엔지니어다. 킨드릴(Kyndryl) CoE의 SRE 중 한 명으로, 전 세계 고객을 위한 IT 현대화, 혁신, 자동화 프로젝트를 수행하는 다른 SRE들을 코칭한다. 킨드릴 내의 글로벌 SRE 길드를 이끌며, 여러 국가에서 SRE 챕터가 자리 잡고 성장하게 돕고 있다. 최고 수준의 SRE, 기술 전문가, 데브옵스 엔지니어 프로페셔널로 인증받았다. AWS, 하시코프(HashiCorp), 애저, 쿠버네티스 등 다수의 자격증을 보유하고 있다. 이 외에도 Node.js 라이브러리를 만들고 다듬으며 오픈소스에 기여하는 일에 열정을 쏟고 있다.

지은이의 말

사이트 신뢰성 엔지니어링은 끊임없는 개선을 통해 고객의 요구 사항과 기술적 한계 사이의 간극을 메우고, 비즈니스와 제품의 문제를 해결해 궁극적으로 더 높은 수익을 창출하는 것과 관련이 있다.

신뢰도를 정량화하고, 자원을 관리하며, 개발자의 요구를 파악하는 일은 때로 벅차게 느껴질 수 있다. 이 책은 인프라와 코드 관점에서 신뢰성을 탐구하고, 실제 사례를 통해 SRE의 역할을 생생하게 보여준다. 이 책은 “SRE는 누구인가?”라는 근본적인 질문에서 출발해, 사이트 신뢰성 엔지니어링의 철학과 실천 방법을 차례로 탐구한다. CI/CD 파이프라인 자동화와 단순 반복 작업 감소 같은 실용적인 주제부터 신뢰성 높은 아키텍처 설계, 그리고 비즈니스 및 외부 공급업체와의 효과적인 협상 전략까지, SRE가 현장에서 마주하는 모든 과제를 단계별로 안내한다. 또한 관측 가능성 확보, 장애 대응, 그리고 훌륭한 운영 절차서 작성법을 깊이 있게 다루고, 마지막으로 성공적인 면접과 커리어 개발을 위한 현실적인 조언으로 마무리한다.

마지막 페이지를 덮을 때쯤 독자는 신뢰성을 명확히 정의하고 측정하며, 장애를 줄이고, 생산성을 극대화해 모두가 인정하는 능력치 만렙 SRE로 거듭나 있을 것이다.

옮긴이 소개

김희진

컬리의 핀테크 스핀오프인 컬리페이 서비스 런칭 멤버로 합류해, 현재 데브옵스 엔지니어이자 SRE로 재직 중이다. 이전에는 백엔드 개발자로 일하며 시스템 전반에 대한 이해를 넓혔다. 엔지니어링이 누군가의 일상을 편리하게 만드는 데 기여한다고 믿으며, 함께 일하는 동료부터 서비스를 사용하는 고객까지 모두에게 더 나은 가치를 전달하기 위해 노력하고 있다.

양재호

컬리의 핀테크 조직에서 SRE팀의 파트장을 역임하고 있다. 서비스의 신뢰성을 높이기 위한 인프라 지표를 만드는 것에 관심이 많으며, 특히 최근에는 핀테크 서비스의 ‘신뢰성 있는 서비스로 판단하기 위한 지표’에 대한 고민을 하고 조직에 배포하고 있다.

표세열

개발과 운영의 경계를 허물고, 자동화를 통해 서비스의 지속적인 개선을 이끄는 SRE 엔지니어다. 다날, 컬리페이, 컬리를 거쳐 현재는 카카오뱅크 SRE 조직 내 컨테이너플랫폼팀에서 쿠버네티스 엔지니어로서 견고한 인프라를 구축하고 있다.

단순히 시스템을 운영하는 것을 넘어, SRE를 하나의 ‘조직 문화’로 정착시키는 데 깊은 관심을 두고 있다. 테라폼(Terraform), 헬름(Helm) 등을 활용한 IaC 구현과 깃옵스(GitOps) 기반의 CI/CD 파이프라인 구축, 그리고 사내 관측 가능성 플랫폼 설계를 주도해 왔다. 기술의 변화 속에서도 ‘신뢰성’이라는 핵심 가치를 지키기 위해 끊임없이 학습하며, 이 책을 통해 더 많은 엔지니어가 ‘능력치 만렙 SRE’로 성장하기를 바라는 마음으로 번역에 참여했다.

옮긴이의 말

데브옵스 엔지니어 혹은 SRE로 커리어 전환을 희망하는 개발자나, 업계의 주니어 엔지니어에게 이 책을 적극 추천합니다. 이 책은 SRE와 데브옵스 엔지니어의 차이점은 물론, SRE가 실제로 어떤 일을 하는지 구체적으로 보여줍니다. 단순히 이름만이 아닌 실제 사례를 통해 간접 경험을 제공하며 실무에 바로 적용할 수 있는 유용한 팁을 담고 있습니다. 특히 ‘15장, 솔직한 사후 분석: 장기적인 해결책’에서는 장애 발생 시 여러 엔지니어와 협업하며 비난 없는 사후 분석을 수행하고 보고서를 작성하는 방법을 생생한 예제로 배울 수 있습니다.
- 김희진

SRE로서 기술을 습득하고 실제 업무를 수행하는 데 있어서 많은 어려움에 봉착하게 됩니다. 기술적인 어려움도 있겠지만 가장 어려운 것은 기술을 쌓아 올린 이후에 과연 서비스를 안정적이고 효율적으로 운영하고 있는가에 대한 의문이 드는 것입니다. 능력치 만렙 SRE는 서비스에서 이것을 판단할 수 있는 지표를 설정할 수 있게 하고, 그 지표를 통해서 좀 더 나은 서비스를 만들기 위한 이정표를 제시합니다.
- 양재호

SRE로서 커리어를 쌓아가다 보면 어느 순간 기술적인 도구(Tool) 사용법만으로는 해결되지 않는 벽에 부딪히게 됩니다. “어떻게 하면 개발팀과 더 효율적으로 협업할 수 있을까?”, “우리 조직에 맞는 신뢰성 지표는 무엇일까?”, “단순한 운영자가 아닌, 서비스를 주도하는 엔지니어가 되려면 무엇이 필요할까?”

저 역시 수많은 트래픽과 데이터 속에서 인프라를 운영하며 매일같이 했던 고민들입니다. 이 책은 복잡한 커맨드 명령이나 설정값만 단순하게 나열하는 기술 서적이 아닙니다. 대신, 진짜 ‘능력치 만렙 SRE’가 되기 위해 필요한 소프트 스킬, 사고방식, 그리고 조직 문화를 기술과 조화시키는 방법을 현실적으로 다루고 있습니다.

제가 컬리페이에서 동료들과 함께 이 책을 번역하기로 결심한 이유도 바로 여기에 있습니다. 쿠버네티스나 테라폼 같은 도구는 배울 수 있지만, SRE로서의 ‘태도’와 ‘통찰’은 배우기 어렵기 때문입니다. 이제 막 SRE의 길에 들어선 분, 혹은 기술적 성장을 넘어 조직에 임팩트를 주는 엔지니어로 거듭나고 싶은 모든 분께 이 책을 강력히 추천합니다.
- 표세열

목차

목차
  • 1부 - SRE 핵심 이해: 역할, 업무, 필요성

  • 01장 SRE 직무: 주요 활동과 책임
  • 개인 성장의 과정
  • __SRE의 원동력
  • __SRE의 역량
  • __SRE의 특징
  • 사고방식과 취미
  • __SRE 성향 테스트
  • __SRE의 기본 원칙
  • __SRE의 취미
  • 데브옵스 엔지니어 vs SRE vs 또 다른 엔지니어
  • __데브옵스 엔지니어와 SRE
  • __소프트웨어 엔지니어와 SRE
  • 주요 책임
  • __운영 업무 책임
  • __엔지니어링 업무 책임
  • 일상 업무
  • __대응 업무
  • __예방 업무
  • 영감을 주는 사람들
  • __제레미의 감사: 폴 티마
  • __로드의 감사: 인고 아버덩크, 진 브라운
  • 요약
  • 더 읽을거리

  • 02장 핵심 수치: 신뢰성 통계
  • SLA 협약: 숫자를 넘어선 소통
  • __내부 파트너를 위한 SLA
  • __외부 파트너를 위한 SLA
  • __9의 가치
  • __SLA 마무리
  • SLO 및 SLI 정의와 효과적인 활용법
  • __SLO
  • __SLO와 측정 기간
  • MTBF를 활용한 서비스 중단 빈도 추적
  • MTTR을 활용한 서비스 중단 시간 측정
  • 수익 및 고객 영향도 분석
  • __서비스 중단 투명성 확보
  • __능력치 만렙 SRE의 SLA
  • 요약

  • 03장 위험한 습관: 임시방편 아키텍처와 스파게티 코드
  • 비용으로 보는 소프트웨어 개발 사업
  • __소프트웨어의 가치
  • __사업 보호의 가치
  • __사업 성장의 가치
  • __인건비 절감의 가치
  • A/B 테스트 사고방식
  • __고객 상호작용과 A/B 테스트
  • __A/B 테스트 결과 분석
  • __분기 실적과 A/B 테스트
  • 개발자의 헌신과 직업의식
  • __효과적인 소통 방법
  • 병합 요청 검토
  • __형식적인 승인은 금물
  • __운영 환경 배포 시 고려 사항
  • 모범 사례를 외면하는 이유
  • __개발자 업무 소유권
  • __개발 비용 추정의 결함
  • __속도, 품질, 비용: 선택의 문제
  • __관측 가능성: 신뢰성 문제의 해답
  • __고가용성과 비용
  • 나쁜 코드 개선 전략
  • __장애 알림
  • __로깅 강화
  • __예외 처리
  • __신중한 재시도
  • 요약

  • 2부 - 사이트 신뢰성 엔지니어링을 위한 관측 가능성 구현

  • 04장 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스
  • 기술 요구 사항
  • 시스템 모니터링과 원격 측정법
  • __인프라 모니터링
  • __모니터링 종류와 도구
  • __골든 시그널 모니터링
  • __데이터 모니터링
  • APM의 이해
  • 토폴로지 자가 발견, 폭발 반경, 예측 가능성 및 상관관계
  • 경보: 조용하게 하는 기술
  • __사용자 관점 알림 발생 원칙
  • __인시던트 이벤트 연결 원칙
  • 모든 것을 활용한 관측 가능성
  • __시스템 중단 vs 중단 시간
  • __관측 가능성 아키텍처
  • __관측 가능성 효과
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 요약
  • 더 읽을거리

  • 05장 해결 전략: 트러블슈팅 정복
  • 문제의 올바른 정의와 올바른 질문
  • __정보의 출처
  • __제보자의 지식 수준
  • __이름 규칙
  • __잘못된 긴급성
  • __실행 요약
  • 분석과 테스트를 위한 시스템
  • __하드웨어와 운영체제의 분해
  • __웹 API 분해
  • __단계 이해
  • __중간 지점 문제 해결 방법론의 문제점
  • 작은 문제를 확인하기 위한 과거, 일반적인 이벤트
  • __기존의 근본 원인 분석 문서
  • __시계열 분석
  • __비교
  • __최선의 방법
  • 인터넷과 동료를 통한 효과적인 검색
  • __구글 검색의 기술
  • __빠른 검토와 개선
  • __내부 자원 활용
  • 효율적인 소스코드 분석
  • __생소한 코드
  • __실패를 했을 경우
  • 코드와 로그
  • 실습: 학습 내용 적용
  • 요약

  • 06장 운영 프레임워크: 인프라와 시스템 관리
  • 기술 요구 사항
  • 시스템 관리의 학문적 접근
  • __설계
  • __설치
  • __설정
  • __애플리케이션 배포
  • __운영
  • __업그레이드
  • __삭제
  • IT 서비스 운영의 이해
  • __ITIL
  • __데브옵스
  • 다양한 계층과 다양한 분야로서 시스템 운영의 접근
  • 시스템 구축과 운영 자동화
  • __코드로서의 인프라
  • __변하지 않는 인프라
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 요약
  • 더 읽을거리

  • 07장 데이터 활용: 관측 가능성 데이터 과학
  • 기술 요구 사항
  • 데이터 기반 의사 결정
  • __질문과 선택지 정의
  • __데이터 선택
  • __이미 사용 가능한 데이터 확인
  • __누락 데이터 수집
  • __모든 데이터 세트 종합 분석
  • __의사 결정 기록 제시
  • __프로세스에서 얻은 교훈 문서화
  • 과학적 접근법을 통한 문제 해결
  • __질문
  • __가설
  • __예측
  • __실험
  • __분석
  • 가장 일반적인 통계 방법 이해
  • __백분율
  • __평균, 산술 평균, 표준 편차
  • __분위수와 백분위수
  • __히스토그램
  • 관측 가능성에 수학 모델 활용
  • __몬테카를로 시뮬레이션
  • __머신러닝
  • 그라파나로 도수분포표 시각화하기
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __latency.py
  • __실습 설명
  • 요약
  • 더 읽을거리

  • 3부 - 신뢰성을 위한 아키텍처 적용

  • 08장 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계
  • 기술 요구 사항
  • 신뢰성을 위한 설계
  • __아키텍처 측면
  • __신뢰성 방정식
  • __설계 패턴
  • __모던 애플리케이션
  • 워크로드의 분할과 밸런싱
  • __분할
  • __분산
  • 페일오버
  • 스케일 업과 스케일 아웃: 수평 vs 수직
  • __수평 스케일링
  • __수직 스케일링
  • __오토스케일링
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 요약
  • 더 읽을거리

  • 09장 자동화의 가치: 단순 반복 작업의 발견과 제거
  • 기술 요구 사항
  • 단순 반복 작업 제거
  • __단순 반복 작업의 재정의
  • __단순 반복 작업이 나쁜 이유
  • __단순 반복 작업을 잘 처리하는 방법
  • 소프트웨어 문제로 다루는 자동화
  • __문서화
  • __알고리듬
  • __코드
  • CI/CD 파이프라인
  • __지속적인 통합
  • __지속적인 전달
  • __운영 배포
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 요약
  • 더 읽을거리

  • 10장 파이프라인 공개: 깃옵스 및 테스트 필수 요소
  • 기본 파이프라인: 인프라, 코드 배포를 위한 자동화
  • __시간 순서를 갖는 파이프라인
  • __파이프라인 템플릿
  • __파이프라인의 에러 또는 중단
  • __파이프라인 내에서 컨테이너 사용
  • __파이프라인 아티팩트
  • __파이프라인 문제 해결 팁
  • 컴플라이언스, 보안 검사 자동화
  • __오래된 라이브러리
  • __애플리케이션 보안 테스트
  • __동적 애플리케이션 보안 테스트
  • __정적 애플리케이션 보안 테스트
  • __비밀 정보 검사
  • 린트를 이용한 코드 품질, 표준 자동화
  • __린트 피드백을 활용한 컴파일
  • 기능 검증을 위한 테스트 자동화
  • __신뢰성과 테스트의 연관성
  • __테스트 데이터
  • __테스트의 다양한 유형
  • __파이프라인 테스트 시기
  • __테스트의 관측 가능성
  • __자동 롤백
  • 자동화에 따른 개발자의 단순 반복 작업 감소
  • __단순 반복 작업을 줄이는 의미
  • 실습: 학습 내용 적용
  • __실습을 위한 AWS 준비
  • __저장소 생성
  • __저장소에 비밀 정보 추가
  • __실습 파일 다운로드와 커밋
  • __파이프라인 이해
  • __스텝 추가
  • __배포 없이 테스트만 실행
  • __마지막 처리
  • 요약

  • 11장 작업 군단: 서버리스, 컨테이너, 쿠버네티스의 오케스트레이션
  • 기술 요구 사항
  • 서버리스의 다양한 정의
  • __서버리스 프레임워크
  • __서버리스 컴퓨팅
  • __서버리스 함수
  • __서버리스 함수 모니터링
  • __에러
  • 컨테이너가 사랑받는 이유
  • __격리
  • __불변성
  • __배포 용이성
  • __태깅
  • __롤백
  • __보안
  • __서명
  • __컨테이너 모니터링
  • 쿠버네티스와 기타 컨테이너 오케스트레이션 방법
  • __헬스 체크
  • __충돌과 강제 종료된 컨테이너
  • __HTTP 기반 부하 분산
  • __서버 부하 분산
  • __서비스로서의 컨테이너(CaaS)
  • __간단한 컨테이너 오케스트레이션
  • 쿠버네티스
  • 다양한 배포 기술
  • __전통적인 교체 배포
  • __롤링 배포
  • __A/B 또는 블루 그린 배포
  • __카나리 배포
  • 배포 자동화와 롤백
  • __롤백 메트릭
  • __롤백 시점
  • __롤백 방식
  • 실습: 학습 내용 적용
  • __깃포드 활용: 컨테이너화된 작업 공간
  • __에뮬레이션 소스코드
  • __에뮬레이션 실행
  • 요약

  • 12장 최종 점검: 테스트 전략과 용량 설계
  • 기술 요구 사항
  • 다양한 테스트 유형
  • __개발 단계 테스트
  • __빌드 단계 테스트
  • __전달 단계 테스트
  • __배포 단계 테스트
  • __운영 단계 테스트
  • 테스트 주도 개발
  • __고전적인 단위 테스트
  • __프레임워크를 사용한 단위 테스트
  • 테스트 자동화 프레임워크 활용
  • 용량 계획을 통한 선제적 대응
  • __부하 테스트 데이터
  • __용량 곡선
  • __수요 곡선
  • 실습: 학습 내용 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 절차
  • 요약
  • 더 읽을거리

  • 4부 - 장애 상황 완벽 대응

  • 13장 첫 번째 과제: 운영 절차서와 저소음 장애 알람
  • 기술 요구 사항
  • 훌륭한 운영 절차서의 조건
  • __살아 숨 쉬는 운영 절차서
  • __독자의 지식 수준
  • __접근 권한 관리
  • __핵심 구성 요소
  • 운영 절차서 너머의 통찰
  • __소스코드 신속 분석
  • __코드 속 핵심 정보 찾기
  • __이해를 돕는 주석
  • 좋은 대시보드의 요건
  • __대시보드의 유형
  • __적색 신호와 녹색 신호
  • __추세 표시
  • __집계 및 세부 분석
  • __대시보드와 알림
  • 우선순위 수준
  • __대응 노력
  • __엔지니어 이탈 방지
  • __장애 관리 시스템과 우선순위
  • __장애 관리 시스템과 스마트폰 통합
  • __P1 이벤트
  • __우선순위 정의
  • __관측 가능성 장애의 우선순위 수준
  • __우선순위 강제
  • __알림 조정
  • __로그 기반 알림
  • __알림 중지
  • 실습: 학습 내용 적용
  • __우선순위 수준 정의
  • __운영 절차서
  • __알림
  • 요약

  • 14장 신속 대응: 장애 관리 기법
  • 협업 공간 전략
  • __온라인 협업
  • __대면 협업
  • __장애 대응 기록의 활용
  • __참여자
  • __후속 조치
  • 장애 대응 인력 활용법
  • __업무 배분
  • __대응 참여자의 성격 유형
  • __휴식 전략과 스트레스 관리
  • 적시 대응의 중요성과 기회
  • __훈련 기회
  • __운영 문서 최신화
  • __팀워크 강화
  • __경영진을 향한 전략적 소통
  • __개선 사항 제안의 기회
  • 고객 및 경영진과의 소통 방법
  • __고객 소통과 경영진 소통
  • __소통 주기
  • __이메일 그룹
  • __상태 페이지
  • __과도한 소통의 역효과
  • __기록, 또 기록
  • 실습: 학습 내용 적용
  • __장애 및 알림
  • __통지 및 대응
  • __문제 해결
  • __결론
  • 요약

  • 15장 솔직한 사후 분석: 장기적인 해결책
  • 경영진 핵심 요약 사후 분석
  • __경영진 핵심 요약
  • __개요
  • __영향도
  • __타임라인
  • __기술적 분석
  • __참여자 및 기여자
  • __해결 과정 및 결과
  • __향후 조치
  • 결정을 비난하지 말 것
  • __비즈니스 관점
  • __자원 및 시간 제약
  • __모니터링
  • 비즈니스와 신뢰성 향상
  • __액티브-액티브 구성
  • __수동 장애 조치
  • __장애 식별 시간
  • __부하 전환 시간
  • __숨겨진 개발 비용
  • 훈련과 역량의 중요성
  • __역량 격차 파악
  • __자격증 취득
  • 실행 계획 수립
  • __즉각적인 후속 조치
  • __참여 대상 선정
  • __타임라인과 우선순위
  • __소유권 할당
  • __작업 추적
  • 실습: 사후 분석의 예
  • __개요 작성
  • __사후 분석 마무리
  • 맞춤형 모자 회사 사후 분석 보고서
  • 영향도
  • 타임라인
  • 기술적 세부 사항 및 대응
  • 해결
  • 향후 조치
  • 요약

  • 5부 - 미래 동향 및 SRE 인터뷰 준비

  • 16장 카오스 주입기: 고급 시스템 안정성
  • 기술 요구 사항
  • 불운의 수레바퀴 게임 이해
  • __모든 끝은 새로운 시작
  • __장애 상황에서 얻는 교훈
  • __모의 장애 훈련
  • __게임화 기법
  • 신뢰성 향상을 위한 카오스 엔지니어링
  • __카오스 엔지니어링의 원칙
  • __카오스 시스템 아키텍처
  • __카오스 실험
  • 실습: 불운의 수레바퀴 게임 적용
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 실습: 시스템에 카오스 주입
  • __실습 아키텍처
  • __실습 내용
  • __실습 지침
  • 요약
  • 더 읽을거리

  • 17장 면접 조언: 채용과 구직
  • SRE의 자격 요건
  • __자가 평가
  • __신입 엔지니어
  • __문제 해결 능력
  • __협업과 수용의 자세
  • __폭넓은 지식과 기술
  • __리서치 및 학습 능력
  • __거절할 수 있는 용기
  • __조직 문화 적합성
  • __X 인자
  • __열정
  • __경험
  • __주인의식과 책임감
  • 면접 질문 심층 분석
  • __기술 역량 질문
  • __비기술적 역량 질문
  • __통찰력 있는 엉뚱한 질문
  • 좋은 직무와 회사 선택 기준
  • __좋은 상사의 정의
  • __점선 보고 체계
  • __기업 윤리
  • 지원 회사 심층 분석
  • __비즈니스 모델
  • __향후 10년간의 수익성
  • __구조
  • __대기업과 중소기업
  • __상장사와 비상장사
  • __온라인 기업 리뷰
  • 자격증의 가치와 함정
  • __가치 있는 자격증
  • __적정한 자격증 수
  • __관련성
  • 성공적인 연봉 협상
  • __면접 팁
  • __연봉 협상
  • 요약

  • 부록 A 사이트 신뢰성 엔지니어 선언문
  • 선언문
  • 선언문 활용 방법
  • 선언문 기여 방법

  • 부록 B 12팩터 선언문 적용에 관한 설문
  • 설문
  • __팩터 I: 코드베이스
  • __팩터 II: 종속성
  • __팩터 III: 설정
  • __팩터 IV: 백엔드 서비스
  • __팩터 V: 빌드, 릴리스, 실행
  • __팩터 VI: 프로세스
  • __팩터 VII: 포트 바인딩
  • __팩터 VIII: 동시성
  • __팩터 IX: 폐기 가능
  • __팩터 X: 개발/운영 환경 일치
  • __팩터 XI: 로그
  • __팩터 XII: 관리 프로세스
  • 설문 활용 방안
  • 설문 개선에 기여

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안