Top

데이터 과학으로 접근하는 정보보안 [데이터 분석과 시각화로 정보보안 강화하기]

  • 원서명Data-Driven Security: Analysis, Visualization and Dashboards (ISBN 9781118793725)
  • 지은이제이 제이콥스(Jay Jacobs), 밥 루디스(Bob Rudis)
  • 옮긴이이정문
  • ISBN : 9788960779099
  • 40,000원
  • 2016년 09월 27일 펴냄
  • 페이퍼백 | 424쪽 | 188*250mm
  • 시리즈 : 해킹과 보안

책 소개

2017년 세종도서 학술부문 선정도서

소스 파일은 아래 깃허브 페이지에서 내려 받으실 수 있습니다.
(https://github.com/AcornPublishing/data-security)

요약

이 책은 데이터 과학의 방법론을 활용하여 정보보안의 수준을 높이는 방안을 제시한다. 데이터 과학의 여러 요소로 도메인(정보보안) 지식, 프로그래밍, 통계학, 데이터 시각화, 데이터 관리 등을 골고루 설명하며, 프로그래밍 도구로써 R과 파이썬(주로 R)을 사용하고 있다. 정보보안 업무에 데이터 과학을 도입하기 위한 기초 개념을 이해하는 데 많은 도움이 될 것이다.

이 책에서 다루는 내용

■ 보안 데이터 획득, 준비, 시각화 방법에 대한 이해 제고

■ R과 파이썬의 분석 및 시각화 도구 사용법

■ IP 주소 기반으로 악성 코드의 활동 분석

■ 유의미한 연결을 찾기 위해서 보안 데이터 매핑 및 통계적 기법 이해

■ 시각적 의사전달의 동작 방법 및 데이터를 명확하게 바라보고 제시하는 방법 이해

■ 효과적이고 정보 전달력이 우수한 보안 대시보드 개발

■ 악성 코드의 동작을 탐지하는 데 도움이 되는 분석 모델 설계

■ 현실 세계의 네트워크 보안 시나리오 사례들로부터 실용적인 방법론적 지식 획득

이 책의 대상 독자

우리는 데이터 작업을 정말로 즐거워한다. 올바른 질문을 작성하는 방법을 이해하고, 데이터를 정확하고 재현 가능하도록 분석하며, 그 결과를 최대한 호소력 있게 전달하는 데 충분한 시간을 들인다면, 사이버 보안 수준 향상에 유의미한 진보를 이룰 수 있다고 진심으로 믿기 때문에 이 책을 썼다.
보안 분야에서의 경험과 기본적인 코딩/스크립팅 능력이 있다면 이 책에서 정말 많은 것을 얻을 수 있다. 파이썬에 익숙한 독자라면 2장의 파이썬 소개부분을 건너뛰어도 무방하며 3장의 내용도 상당 부분 건너뛸 수 있다. R도 파이썬과 비슷한 분량으로 소개되며, 이 책에서는 주로 R을 사용한 예제 코드를 제공하고 있으므로 최근의 가장 훌륭한 데이터 과학 언어인 R을 이해하는 것이 필수적이다. 프로그래밍이 낯선 독자라면, 2, 3, 4장을 통해서 이 책이 여러분을 위한 책인지 여부를 판단할 수 있을 것이다.
여러 장에서 통계 및 기계학습을 강조하는데 그 내용을 건너뛰지 않는 것이 좋다. 하지만 (기계학습을 주로 논의하는) 9장은 일단 건너뛰어도 책의 흐름을 손상하지 않으므로 나중에 읽어도 무방하다.
데이터베이스에 대해 이미 잘 알고 있다면 8장의 사례들은 내용 확인만 하면서 여러분이 최신의 전문적인 데이터베이스를 어떻게 활용할 수 있을지 생각하는 기회로 삼는 것이 좋다.
대시보드를 설명하는 다른 책들과는 달리 이 책의 10장은 MS 엑셀이나 오픈오피스 캘크(OpenOffice Calc)만 있어도 된다. 여러분이 속한 조직에서 사용 가능한 도구의 종류와 제약에 대해서 어떠한 가정도 하지 않는다. 또, 대화식 시각화에 대해 관심이 없는 독자라면 11장은 나중에 읽어도 무방하다.
요약하자면, 주요 독자는 IT 및 정보보안 전문가지만, 이 책은 학생, 컨설턴트, 그리고 네트워크 보호를 위한 데이터 분석 및 시각화에 관심 있는 모든 사람에게 많은 도움이 될 수 있다.

이 책의 구성

이 책의 각 장들은 타파스(tapas)(여러 요리를 조금씩 담아먹는 스페인 요리)처럼 구성돼 있다. 그래서 각 장마다 보안 데이터 과학 분야의 서로 다른 근본 주제를 다루며, 심화 학습에 필요한 다양한 정보를 제공한다.
1장은 여행을 위한 토대를 마련하고, 다양한 학문의 연구 결과가 어떻게 데이터 주도 보안으로 진화했는지 사례를 중심으로 소개한다. 또 보안 데이터 과학자에게 요구되는 스킬의 개요를 설명한다.
2, 3, 4장은 보안 데이터 과학자가 항상 지참해야 하는 도구 상자의 필수적인 도구, 기술, 기법에 뛰어든다. 에얼리언볼트(AlienVault)의 IP 평판 데이터베이스(공개적으로 사용 가능한 악성 노드 데이터베이스 중의 하나)를 이용하며, 제우스(ZeuS)와 제로액세스(ZeroAccess) 봇넷에 대해서도 살펴본다. 2장과 3장에서는 데이터 분석 도구로서의 파이썬을 간단히 소개한 뒤, 이 책에서 주로 사용되는 R에 초점을 두면서 통계 분석의 세계로 들어간다. 일반적인 R 입문서나 통계학 입문서와 달리, 이 책은 실제의 보안 데이터를 사용하면서 정보보안 전문가에게 가급적 현실적이고 실용적인 개념을 전달하는 데 주안점을 둔다.
5장은 지도(map)를 작성하는 몇 가지 기법을 소개하고 핵심적인 통계 개념을 설명하면서, 외계 방문자를 소재로 하는 교훈을 담고 있다.
6장은 시각적 의사 전달(데이터 시각화)의 생물학 및 인지과학적 기초를 설명하고, 보안 데이터를 애니메이션으로 보여주는 방법을 소개한다.
6장에서 배운 내용은 7장에서 보안 침해사고를 분석하고 시각화하는 방법을 배우는 토대가 된다. 7장에서는 실제로 발생했던 사례 데이터로 작업해 볼 기회가 있을 것이다.
8장에서는 최신의 데이터베이스 개념 및 전통적인 데이터베이스의 개선 방법을 다루고, 다양한 NoSQL 솔루션들이 제공하는 새로운 도구들을 소개한다. "이 IP 주소가 우리 회사 네트워크에 들어온 적이 있었던가?"라는 질문에 답을 얻기에 도움이 되는 팁을 설명한다.
9장은 기계학습(machine learning)이라는 상대적으로 새롭고 흥미로운 세계를 소개한다. 기계학습의 핵심 개념과 주요 기법을 알아보며, 직관이 인식하지 못한 패턴을 알고리즘이 어떻게 찾아낼 수 있는지 직접 실습할 것이다.
10장, 11장은 사용자가 잘 이해하고 심지어 감동을 받을 수 있는 효과적인 시각화를 구축하기 위한 실용적인 조언과 기법을 설명한다. MS 엑셀에서 최신 도구 및 라이브러리에 이르기까지 거의 모든 도구를 소개하며, 보안 사고의 데이터에서 얻은 지식을 시각적으로 변환할 수 있게 될 것이다. 주변에서 흔히 볼 수 있는 보안 상황판(대시보드)을 ‘단장’하는 사례를 통해서 시각화 개념들을 좀 더 손에 잡히듯 쉽게 이해할 수 있을 것이다.
마지막으로 12장에서는 이 책에서 학습한 내용을 개인 및 조직 수준에서 적용하는 방법을 설명한다.

상세이미지

저자/역자 소개

지은이의 말

최근 몇 년 동안 사이버 보안은 우리 삶의 사생활이든 공적 업무에서든 가리지 않고 화제가 되고 있다. 데이터 유출 사고는 거의 매일 발생하고, 지능적인 공격자들은 소비자, 기업, 정부를 대상으로 발각될 우려 없이 혹은 자신들의 행동에 책임질 걱정 없이 전 방위로 공격을 시도하고 있다. 이러한 현상은 핵심 인프라의 뼈대를 구성하는 시스템, 네트워크, 애플리케이션이 점점 복잡해지고 상호 연결되면서 더욱 악화되고 있다.
오로지 믿음을 바탕으로 직관과 과거 사례에 의존하는 방어 기법들은 더 이상 우리들을 보호하기에 충분치 않다. 보안 샤머니즘의 시대는 빠르게 저물고 있으며, 효과가 입증된 도구와 기술을 활용하는 데이터 주도 보안(Data-Driven Security)으로 진화할 시기가 다가오고 있는 것이다.

지은이 소개

제이 제이콥스(Jay Jacobs)

IT 업계 및 정보보안 업계에서 15년 이상의 경력을 갖고 있으며, 암호학, 위험관리, 데이터 분석 분야에서 주로 일했다. 버라이즌(Verizon)의 RISK 팀의 수석 데이터 분석가로, 버라이즌이 매년 배포하는 데이터 침해사고 조사 보고서(DBIR, Data Breach Investigation Report)의 공동 작성자며 보안 관련 데이터를 분석 및 시각화하는 데 대부분의 시간을 보낸다. 또 ‘정보 위험 분석가들의 사회(SIRA, Society of Information Risk Analysts)’의 공동 설립자고, 현재는 이사회의 임원 역할을 맡고 있다. 활동적인 블로거, 강연자로서 ‘위험 과학(Risk Science)’ 팟캐스트의 공동 사회자며, 2014 메트리콘 보안 측정/분석 컨퍼런스의 공동 의장이었다. 트위터에서 @jayjacobs라는 이름을 사용하며, 미네소타 세인트폴의 컨커디어 대학(Concordia University)에서 기술 및 경영 학사 학위를, 펜실베니아 주립 대학(pennsylvania state university)에서 응용 통계학 분야의 수료증을 받았다.

밥 루디스(Bob Rudis)

데이터를 기반으로 글로벌 포춘 100대 기업들의 보안을 강화하는 데 20년 이상 헌신했다. 리버티 뮤추얼(Liberty Mutual)의 전사 정보 보호 및 IT 리스크 관리자로서, 대규모 보안 분석 사업에서의 지역별 사이버 안전 센터와의 협력 관계를 총괄하고 있다. 트위터 (@hrbrmstr)와 블로그(rud.is)를 열정적으로 운영하며, 저자이자 연사며, 오픈소스 커뮤니티(github.com/hrbrmstr)의 기여자기도 하다. 현재 ‘정보 위험 분석가들의 사회(SIRA, Society of Information Risk Analysts)’의 이사회 멤버며, SANS의 ‘인류의 안전 확보(Securing The Human)’ 교육 프로그램의 편집 위원이기도 하다. 또, 2014 메트리콘 보안 측정/분석 컨퍼런스의 공동 의장이었고, 스크랜튼 대학(University of Scranton)에서 학사 학위를 받았다.

옮긴이의 말

이 책의 목표는 조직의 정보보안 부서에서 보안 관련 의사결정을 내릴 때 데이터에 기반한 결정을 내리도록 유도하는 것이다. 따라서 이 책이 대상으로 하는 주요 독자는 조직 내에서 보안 관련 업무를 맡고 있는 보안 도메인의 전문가다.
데이터에 기반한, 혹은 데이터 주도의 보안이란 결국 보안 도메인에서 생성되는 데이터를 데이터 과학의 여러 기법으로 분석하고 이를 바탕으로 의사결정을 내리는 것을 의미한다. 데이터 과학은 IT 업계에서 가장 떠오르는 유망 분야로 손꼽히지만, 위키피디아 정의의 첫 마디가 ‘학제적(둘 이상이 학문분야에 걸치는)’ 접근 방법이라는 것에서도 알 수 있듯이 매우 넓은 범위의 지식을 바탕으로 한다. 데이터 과학에 요구되는 스킬을 도메인 전문 지식, 데이터 관리, 프로그래밍, 통계학, 데이터 시각화로 분류할 때, 한 명의 데이터 과학자가 이 모든 스킬을 갖추는 것은 불가능하다. 하지만 자신의 전공 분야가 아니라 할지라도 기본적인 이해를 갖춰야 원활한 협업과 피드백을 기대할 수 있을 것이다.
이 책의 저자들은 정보보안 분야에 오랜 경험이 있는 전문가로서, 데이터 과학에 필요한 스킬을 골고루 소개하면서 정보보안 분야의 경력자가 데이터 과학의 세계에 입문할 수 있도록 안내한다. 책에서 사용되는 예제는 모두 정보보안 분야와 관련이 있으며, 프로그래밍 언어는 R과 파이썬을 사용한다(다만, 파이썬은 중반 이후에는 사용되지 않고 R을 중점적으로 사용하며, R과 파이썬의 기초 문법을 다루지는 않는다).
또 다양한 데이터베이스를 소개하면서 효율적인 데이터 관리 방법을 설명한다. 특히 최근의 NoSQL 계열의 데이터베이스를 강조하고 있으며, 대용량 처리를 위한 하둡 및 기존의 관계형 데이터베이스의 개선에 대해서도 다룬다. 특히 저자들은 오픈소스 솔루션에 호의적이라는 점을 감안하고 읽으면 도움이 될 것이다.
통계학과 관련해서는 기초적인 통계학 지식과 더불어 기계학습을 소개한다. 기계학습은 최근 구글, MS, 페이스북 등에서 앞다퉈 투자를 확대하고 API를 공개하는 중으로, 이 책에서는 인공신경망이나 서포트 벡터 머신 등의 고급 기법을 소개하지는 않으나 기본적인 개념과 관련 기법을 소개하고 있으므로 기계학습에 대한 이해를 높일 수 있는 출발점 역할은 충분히 할 수 있다.
이 책은 효율적인 데이터 시각화의 바탕이 되는 인지과학적 지식을 설명하며, 저자들의 경험에서 우러나오는 보안 대시보드(상황판) 작성 예제를 통해서 데이터 시각화의 어려움과 문제 해결 과정을 유감없이 드러내고 있다. 마지막으로, 저자가 근무하는 버라이즌(미국의 이동통신사)의 정보보안 부서에서 공개한 보안 사고 데이터 수집을 위한 VERIS 프레임워크 및 VCDB 데이터베이스를 통해서, 분야의 특성상 공개가 어려운 보안 사고 데이터에도 오픈소스의 움직임이 일어나고 있음을 느낄 수 있다.
어쩌면 이 책을 읽고 나면 더 많은 내용을 공부해야 한다는 사실을 깨닫게 될 지도 모른다. 하지만 천 리 길도 한 걸음부터라고 한다. 좋은 나침반이 있으면 천 리 길을 가는 것도 어렵지만은 않다. 이 책이 데이터에 기반한 정보보안 의사결정이라는 목표에 다다르기 위한 좋은 나침반이 되길 희망한다.

옮긴이 소개

이정문

컴퓨터공학을 전공했으며 폭넓은 분야에 관심을 갖고 있다. 에이콘출판사의 『Rational XDE로 하는 UML 객체지향 모델링』(2006), 『비기닝 ANSI C++』(2008), 『안드로이드앱 마케팅』(2011), 『데이터 시각화 Visualizing Data』(2016) 등을 번역했다.

목차

목차
  • 1장. 데이터 주도 보안으로 떠나는 여행
    • 데이터를 통한 학습의 간단한 역사
    • 데이터 분석에 요구되는 스킬 데이터 주도 방법론에 대한 반대 논리
    • 질문에 집중하자 요약
    • 추천 읽을거리

  • 2장. 보안 데이터 분석의 도구 상자: R과 파이썬 입문
    • 왜 파이썬인가? 왜 R인가? 왜 둘 다 알아야 하는가?
    • 캐노피로 파이썬 분석의 시동을 걸자 데이터프레임 입문
    • 예제 파일의 디렉토리 구조 요약 추천 읽을거리

  • 3장. 보안 데이터 분석 Hello World
    • 문제 해결
    • 데이터 획득
    • 데이터 읽어 들이기
    • 데이터 탐색하기
    • 연구 질문을 향해서
    • 요약
    • 추천 읽을거리

  • 4장. 탐색적 데이터 분석 수행
    • IP 주소 자세히 뜯어보기
    • IP 주소 데이터 보완 계획
    • 더 나은 이해를 위한 시각화의 필요성
    • 요약
    • 추천 읽을거리

  • 5장. 지도에서 회귀분석으로
    • 지도 단순화하기
      • 박스플롯을 사용한 특이값 찾기
      • Z 점수를 계산해 특이점 찾기
    • 선형회귀 소개
      • 데이터의 범위를 넘어서 추론할 수 없다
      • 특이점은 아주 큰 영향을 미친다
      • 숨겨진 관계는 잘 숨는다.
      • 변수가 너무 많으면 좋지 않다
      • 시각화하고 간단한 검사를 적용한다
      • 무엇이 제로액세스 감염과 상관관계를 갖고 있는가?
    • 요약
    • 추천 읽을거리

  • 6장. 보안 데이터 시각화
    • 왜 시각화를 하는가?
      • 시각적 사고
      • 눈의 움직임을 추적하기
      • 전주의 처리
    • 시각적 전달의 구성 요소 이해
      • 색은 상대적이다
      • 팔레트는 데이터에 의존한다
      • 점 사용
      • 선으로 방향 만들기
      • 막대 그래프 작성
      • 불투명도 활용
      • 크기로 나타내기
      • 히스토그램과 밀도그래프
      • 박스플롯으로 나타내기
    • 여러분의 데이터를 영화 배우로 변신시키기
    • 요약
    • 추천 읽을거리

  • 7장. 보안 사고 데이터에서 배우기
    • 연구 방향 설정
    • 데이터 수집 프레임워크의 고려 사항
    • VERIS 소개
    • VERIS 실습
    • VCDB 데이터 다루기
    • 요약
    • 추천 읽을거리

  • 8장. 관계형 데이터베이스와의 이별
    • 그릇의 한계를 알게 되다
    • RDBMS의 대안이 될 수 있는 데이터 저장방식들
      • 로그 처리에 적합한 일래스틱서치
      • “연결” 처리에 적합한 Neo4j
    • 요약
    • 추천 읽을거리

  • 9장. 기계학습 쉽게 이해하기
    • 악성코드 탐지
    • 기계학습으로 얻을 수 있는 이익
      • 최량 부분집합 기법
      • 단계적 비교 기법
    • 다양한 학습 방법 소개
      • 선형 회귀(및 변환)
      • 로지스틱 회귀
      • k-최근접 이웃
      • 랜덤 포레스트
      • K-평균 클러스터링
      • 계층적 클러스터링
      • 주성분 분석
      • 다차원 스케일링
    • 실습: 침해사고 데이터를 클러스터링하기
    • 요약
    • 추천 읽을거리

  • 10장. 효과적인 보안 대시보드 설계하기
    • 도대체 대시보드란 무엇인가?
      • 차트 유형을 제한한다
      • 공간의 제약을 기억하자
      • 색을 신중하게 사용한다.
    • 대시보드를 통한 ‘보안’ 의사소통과 관리
    • 요약
    • 추천 읽을거리

  • 11장. 대화식 보안 시각화 구축하기
    • 정적 시각화에서 대화식 시각화로의 이동
      • 문제를 정의한다
      • 도메인 전문지식을 추구한다
      • 학제 간 접근 방식을 취하다
      • 인터페이스의 접근성을 향상시킨다
      • 방향성을 갖춘 탐색을 촉진한다
      • 적절한 세부정보를 포함한다
    • 대화식 시각화 개발
      • 베가로 메타 데이터 얻기
      • 대화식 ‘보안위협 탐색기’ 작성
    • 요약
    • 추천 읽을거리

  • 12장. 데이터 주도 보안으로의 움직임
    • 개인 수준에서 데이터 주도 보안으로의 이동
      • 코딩
      • 데이터 조작
      • 사고력
      • 시각화
    • 여러분의 조직을 데이터 주도 보안으로 변화시키기
    • 요약
    • 추천 읽을거리

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안