데이터 과학으로 접근하는 정보보안 [데이터 분석과 시각화로 정보보안 강화하기]
- 원서명Data-Driven Security: Analysis, Visualization and Dashboards (ISBN 9781118793725)
- 지은이제이 제이콥스(Jay Jacobs), 밥 루디스(Bob Rudis)
- 옮긴이이정문
- ISBN : 9788960779099
- 40,000원
- 2016년 09월 27일 펴냄
- 페이퍼백 | 424쪽 | 188*250mm
- 시리즈 : 해킹과 보안
책 소개
2017년 세종도서 학술부문 선정도서
소스 파일은 아래 깃허브 페이지에서 내려 받으실 수 있습니다.
(https://github.com/AcornPublishing/data-security)
요약
이 책은 데이터 과학의 방법론을 활용하여 정보보안의 수준을 높이는 방안을 제시한다. 데이터 과학의 여러 요소로 도메인(정보보안) 지식, 프로그래밍, 통계학, 데이터 시각화, 데이터 관리 등을 골고루 설명하며, 프로그래밍 도구로써 R과 파이썬(주로 R)을 사용하고 있다. 정보보안 업무에 데이터 과학을 도입하기 위한 기초 개념을 이해하는 데 많은 도움이 될 것이다.
이 책에서 다루는 내용
■ 보안 데이터 획득, 준비, 시각화 방법에 대한 이해 제고
■ R과 파이썬의 분석 및 시각화 도구 사용법
■ IP 주소 기반으로 악성 코드의 활동 분석
■ 유의미한 연결을 찾기 위해서 보안 데이터 매핑 및 통계적 기법 이해
■ 시각적 의사전달의 동작 방법 및 데이터를 명확하게 바라보고 제시하는 방법 이해
■ 효과적이고 정보 전달력이 우수한 보안 대시보드 개발
■ 악성 코드의 동작을 탐지하는 데 도움이 되는 분석 모델 설계
■ 현실 세계의 네트워크 보안 시나리오 사례들로부터 실용적인 방법론적 지식 획득
이 책의 대상 독자
우리는 데이터 작업을 정말로 즐거워한다. 올바른 질문을 작성하는 방법을 이해하고, 데이터를 정확하고 재현 가능하도록 분석하며, 그 결과를 최대한 호소력 있게 전달하는 데 충분한 시간을 들인다면, 사이버 보안 수준 향상에 유의미한 진보를 이룰 수 있다고 진심으로 믿기 때문에 이 책을 썼다.
보안 분야에서의 경험과 기본적인 코딩/스크립팅 능력이 있다면 이 책에서 정말 많은 것을 얻을 수 있다. 파이썬에 익숙한 독자라면 2장의 파이썬 소개부분을 건너뛰어도 무방하며 3장의 내용도 상당 부분 건너뛸 수 있다. R도 파이썬과 비슷한 분량으로 소개되며, 이 책에서는 주로 R을 사용한 예제 코드를 제공하고 있으므로 최근의 가장 훌륭한 데이터 과학 언어인 R을 이해하는 것이 필수적이다. 프로그래밍이 낯선 독자라면, 2, 3, 4장을 통해서 이 책이 여러분을 위한 책인지 여부를 판단할 수 있을 것이다.
여러 장에서 통계 및 기계학습을 강조하는데 그 내용을 건너뛰지 않는 것이 좋다. 하지만 (기계학습을 주로 논의하는) 9장은 일단 건너뛰어도 책의 흐름을 손상하지 않으므로 나중에 읽어도 무방하다.
데이터베이스에 대해 이미 잘 알고 있다면 8장의 사례들은 내용 확인만 하면서 여러분이 최신의 전문적인 데이터베이스를 어떻게 활용할 수 있을지 생각하는 기회로 삼는 것이 좋다.
대시보드를 설명하는 다른 책들과는 달리 이 책의 10장은 MS 엑셀이나 오픈오피스 캘크(OpenOffice Calc)만 있어도 된다. 여러분이 속한 조직에서 사용 가능한 도구의 종류와 제약에 대해서 어떠한 가정도 하지 않는다. 또, 대화식 시각화에 대해 관심이 없는 독자라면 11장은 나중에 읽어도 무방하다.
요약하자면, 주요 독자는 IT 및 정보보안 전문가지만, 이 책은 학생, 컨설턴트, 그리고 네트워크 보호를 위한 데이터 분석 및 시각화에 관심 있는 모든 사람에게 많은 도움이 될 수 있다.
이 책의 구성
이 책의 각 장들은 타파스(tapas)(여러 요리를 조금씩 담아먹는 스페인 요리)처럼 구성돼 있다. 그래서 각 장마다 보안 데이터 과학 분야의 서로 다른 근본 주제를 다루며, 심화 학습에 필요한 다양한 정보를 제공한다.
1장은 여행을 위한 토대를 마련하고, 다양한 학문의 연구 결과가 어떻게 데이터 주도 보안으로 진화했는지 사례를 중심으로 소개한다. 또 보안 데이터 과학자에게 요구되는 스킬의 개요를 설명한다.
2, 3, 4장은 보안 데이터 과학자가 항상 지참해야 하는 도구 상자의 필수적인 도구, 기술, 기법에 뛰어든다. 에얼리언볼트(AlienVault)의 IP 평판 데이터베이스(공개적으로 사용 가능한 악성 노드 데이터베이스 중의 하나)를 이용하며, 제우스(ZeuS)와 제로액세스(ZeroAccess) 봇넷에 대해서도 살펴본다. 2장과 3장에서는 데이터 분석 도구로서의 파이썬을 간단히 소개한 뒤, 이 책에서 주로 사용되는 R에 초점을 두면서 통계 분석의 세계로 들어간다. 일반적인 R 입문서나 통계학 입문서와 달리, 이 책은 실제의 보안 데이터를 사용하면서 정보보안 전문가에게 가급적 현실적이고 실용적인 개념을 전달하는 데 주안점을 둔다.
5장은 지도(map)를 작성하는 몇 가지 기법을 소개하고 핵심적인 통계 개념을 설명하면서, 외계 방문자를 소재로 하는 교훈을 담고 있다.
6장은 시각적 의사 전달(데이터 시각화)의 생물학 및 인지과학적 기초를 설명하고, 보안 데이터를 애니메이션으로 보여주는 방법을 소개한다.
6장에서 배운 내용은 7장에서 보안 침해사고를 분석하고 시각화하는 방법을 배우는 토대가 된다. 7장에서는 실제로 발생했던 사례 데이터로 작업해 볼 기회가 있을 것이다.
8장에서는 최신의 데이터베이스 개념 및 전통적인 데이터베이스의 개선 방법을 다루고, 다양한 NoSQL 솔루션들이 제공하는 새로운 도구들을 소개한다. "이 IP 주소가 우리 회사 네트워크에 들어온 적이 있었던가?"라는 질문에 답을 얻기에 도움이 되는 팁을 설명한다.
9장은 기계학습(machine learning)이라는 상대적으로 새롭고 흥미로운 세계를 소개한다. 기계학습의 핵심 개념과 주요 기법을 알아보며, 직관이 인식하지 못한 패턴을 알고리즘이 어떻게 찾아낼 수 있는지 직접 실습할 것이다.
10장, 11장은 사용자가 잘 이해하고 심지어 감동을 받을 수 있는 효과적인 시각화를 구축하기 위한 실용적인 조언과 기법을 설명한다. MS 엑셀에서 최신 도구 및 라이브러리에 이르기까지 거의 모든 도구를 소개하며, 보안 사고의 데이터에서 얻은 지식을 시각적으로 변환할 수 있게 될 것이다. 주변에서 흔히 볼 수 있는 보안 상황판(대시보드)을 ‘단장’하는 사례를 통해서 시각화 개념들을 좀 더 손에 잡히듯 쉽게 이해할 수 있을 것이다.
마지막으로 12장에서는 이 책에서 학습한 내용을 개인 및 조직 수준에서 적용하는 방법을 설명한다.
상세이미지
목차
목차
- 1장. 데이터 주도 보안으로 떠나는 여행
- 데이터를 통한 학습의 간단한 역사
- 데이터 분석에 요구되는 스킬 데이터 주도 방법론에 대한 반대 논리
- 질문에 집중하자 요약
- 추천 읽을거리
- 2장. 보안 데이터 분석의 도구 상자: R과 파이썬 입문
- 왜 파이썬인가? 왜 R인가? 왜 둘 다 알아야 하는가?
- 캐노피로 파이썬 분석의 시동을 걸자 데이터프레임 입문
- 예제 파일의 디렉토리 구조 요약 추천 읽을거리
- 3장. 보안 데이터 분석 Hello World
- 문제 해결
- 데이터 획득
- 데이터 읽어 들이기
- 데이터 탐색하기
- 연구 질문을 향해서
- 요약
- 추천 읽을거리
- 4장. 탐색적 데이터 분석 수행
- IP 주소 자세히 뜯어보기
- IP 주소 데이터 보완 계획
- 더 나은 이해를 위한 시각화의 필요성
- 요약
- 추천 읽을거리
- 5장. 지도에서 회귀분석으로
- 지도 단순화하기
- 박스플롯을 사용한 특이값 찾기
- Z 점수를 계산해 특이점 찾기
- 선형회귀 소개
- 데이터의 범위를 넘어서 추론할 수 없다
- 특이점은 아주 큰 영향을 미친다
- 숨겨진 관계는 잘 숨는다.
- 변수가 너무 많으면 좋지 않다
- 시각화하고 간단한 검사를 적용한다
- 무엇이 제로액세스 감염과 상관관계를 갖고 있는가?
- 요약
- 추천 읽을거리
- 지도 단순화하기
- 6장. 보안 데이터 시각화
- 왜 시각화를 하는가?
- 시각적 사고
- 눈의 움직임을 추적하기
- 전주의 처리
- 시각적 전달의 구성 요소 이해
- 색은 상대적이다
- 팔레트는 데이터에 의존한다
- 점 사용
- 선으로 방향 만들기
- 막대 그래프 작성
- 불투명도 활용
- 크기로 나타내기
- 히스토그램과 밀도그래프
- 박스플롯으로 나타내기
- 여러분의 데이터를 영화 배우로 변신시키기
- 요약
- 추천 읽을거리
- 왜 시각화를 하는가?
- 7장. 보안 사고 데이터에서 배우기
- 연구 방향 설정
- 데이터 수집 프레임워크의 고려 사항
- VERIS 소개
- VERIS 실습
- VCDB 데이터 다루기
- 요약
- 추천 읽을거리
- 8장. 관계형 데이터베이스와의 이별
- 그릇의 한계를 알게 되다
- RDBMS의 대안이 될 수 있는 데이터 저장방식들
- 로그 처리에 적합한 일래스틱서치
- “연결” 처리에 적합한 Neo4j
- 요약
- 추천 읽을거리
- 9장. 기계학습 쉽게 이해하기
- 악성코드 탐지
- 기계학습으로 얻을 수 있는 이익
- 최량 부분집합 기법
- 단계적 비교 기법
- 다양한 학습 방법 소개
- 선형 회귀(및 변환)
- 로지스틱 회귀
- k-최근접 이웃
- 랜덤 포레스트
- K-평균 클러스터링
- 계층적 클러스터링
- 주성분 분석
- 다차원 스케일링
- 실습: 침해사고 데이터를 클러스터링하기
- 요약
- 추천 읽을거리
- 10장. 효과적인 보안 대시보드 설계하기
- 도대체 대시보드란 무엇인가?
- 차트 유형을 제한한다
- 공간의 제약을 기억하자
- 색을 신중하게 사용한다.
- 대시보드를 통한 ‘보안’ 의사소통과 관리
- 요약
- 추천 읽을거리
- 도대체 대시보드란 무엇인가?
- 11장. 대화식 보안 시각화 구축하기
- 정적 시각화에서 대화식 시각화로의 이동
- 문제를 정의한다
- 도메인 전문지식을 추구한다
- 학제 간 접근 방식을 취하다
- 인터페이스의 접근성을 향상시킨다
- 방향성을 갖춘 탐색을 촉진한다
- 적절한 세부정보를 포함한다
- 대화식 시각화 개발
- 베가로 메타 데이터 얻기
- 대화식 ‘보안위협 탐색기’ 작성
- 요약
- 추천 읽을거리
- 정적 시각화에서 대화식 시각화로의 이동
- 12장. 데이터 주도 보안으로의 움직임
- 개인 수준에서 데이터 주도 보안으로의 이동
- 코딩
- 데이터 조작
- 사고력
- 시각화
- 여러분의 조직을 데이터 주도 보안으로 변화시키기
- 요약
- 추천 읽을거리
- 개인 수준에서 데이터 주도 보안으로의 이동