Top

수학 없이 배우는 데이터 과학과 알고리즘 [모두를 위한 데이터 사이언스]

  • 원서명Numsense! Data Science for the Layman: No Math Added (ISBN 9789811110689)
  • 지은이애널린 응(Annalyn Ng), 케네스 수(Kenneth Soo)
  • 옮긴이최광민
  • ISBN : 9791161750798
  • 13,800원
  • 2017년 11월 20일 펴냄
  • 페이퍼백 | 172쪽 | 152*224mm
  • 시리즈 : 데이터 과학

책 소개

요약

2017년 스탠퍼드대학교 CS102 빅데이터 강의에 활용된 이 책은 데이터 과학을 처음 시작하는 사람들에게 주로 사용되는 분석 기법과 핵심적인 머신 러닝 알고리즘의 원리를 실제 데이터를 바탕으로 설명하고 있다. 구체적인 코드나 세세한 수학적 내용으로 독자를 힘들게 하기보다, 알고리즘의 동작 원리와 장단점을 제시함으로써 데이터 과학을 처음 시작하는 비전공자나 데이터 과학이 무엇인지 궁금한 독자에게 훌륭한 출발점을 제공한다.

추천의 글

이 책의 예제는 쉽고 명쾌하지만, 진정한 명료함은 직관적인 글쓰기 스타일에서 비롯된다. ... 기술을 잘 모르는 독자뿐만 아니라 데이터 과학과 머신 러닝을 배우고 싶은 프로그래머를 위해 다른 책이라면 훨씬 더 어렵게 설명했을 알고리즘을 빠르게 이해할 수 있게 설명한다.
- The MagPi, 영국 라즈베리파이 공식 기술 잡지

이 책은 데이터 과학의 핵심 알고리즘을 시각적으로 쉽게 설명한다. 초보 데이터 과학자를 위한 입문서, 분석가와 협업하는 사업가를 위한 요약서, 데이터에 무슨 일이 벌어지고 있는지 알고 싶은 사람의 흥미를 자극할 만한 책으로서 유용하다.
- 데이비드 스틸웰 박사, 케임브리지 대학교 정신분석 센터 부국장

이 책은 빅데이터를 활용한 연구를 시작하려는 사업가를 위해 블랙박스같은 고급 통계 기법의 미스터리를 풀어준다.
- 타다가타 다스굽타 박사, 바이어컴 데이터 과학 및 고급 분석 리더

머신 러닝을 완벽하게 시각화해준 덕분에 기술적인 배경이 없는 학생들도 추상적인 개념들을 직관적으로 이해할 수 있었다.
- 에단 챈, 스탠퍼드 대학교 CS102 빅데이터 강사

어렵게만 느껴지는 데이터 과학을 평범한 상식인의 언어로 전달하는 책이다. 전체적인 그림을 이해한 후 세부적인 내용으로 들어가는 관문 역할을 할 수 있는 좋은 책이라고 생각한다. 특히 수학 및 통계에 관한 기초가 없다면 기초를 쌓는 동안 미리 전체적인 흐름을 이해하는 데 이 책이 큰 도움이 될 것이다.
- 김장현, 성균관대학교 부교수

이 책에서 다루는 내용

데이터 과학과 그에 포함된 알고리즘을 보통 사람들의 언어로 소개한다(이 책에 수학은 없다). 핵심 개념을 이해할 수 있도록 직관적인 설명과 많은 시각 자료를 사용할 것이다.
알고리즘마다 한 장을 할애해 실제 예제로 알고리즘의 동작 원리를 설명한다. 예제에서 사용한 데이터는 온라인에서 확인할 수 있으며, 출처는 참고문헌에서 볼 수 있다.
배운 내용을 복습하고 싶다면 각 장의 끝에 있는 요약을 확인하자. 책의 끝부분에서는 각 알고리즘의 장단점을 간략히 요약한 참고자료를 볼 수 있고, 일반적으로 사용하는 용어들을 포함하는 용어집도 볼 수 있다.
이 책을 바탕으로 데이터 과학에 대한 실용적인 이해를 얻고, 그 강점을 이용해 더 나은 의사결정을 할 수 있길 바란다.

이 책의 대상 독자

데이터 과학과 그 원동력이 되는 알고리즘에 입문하고 싶은 초심자에게 적극 추천한다

상세이미지

저자/역자 소개

지은이의 말

날이 갈수록 업무에서의 의사결정에 데이터 과학을 많이 사용하고 있지만, 많은 사람들이 데이터 과학을 제대로 알지 못하고 있다. 이것이 바로 우리가 만든 튜토리얼을 책으로 엮는 이유다. 배움에 목마른 학생들과 현업에서 일하는 기업의 전문가, 호기심 많은 누군가를 포함한 더 많은 사람들에게 배움의 기회를 주기 위해.
각 튜토리얼은 수학과 전문 용어에 구애 받지 않고 데이터 과학 분야의 기술에 있어 중요한 기능과 가정들을 다룬다. 그리고 실제 데이터와 예제를 바탕으로 이러한 기술들을 설명한다.

지은이 소개

애널린 응(Annalyn Ng)

미시간 대학교(앤아버)를 졸업했고, 그곳에서 통계학 강사로 일했다. 케임브리지대학교 정신분석학센터에서 박사 준비 과정을 이수했고, 타깃 광고를 위한 소셜미디어 데이터 마이닝과 채용을 위한 인지 테스트를 개발했다. 디즈니연구소의 행동 과학 팀에서 고객의 정신분석학적 프로필을 분석했다.

케네스 수(Kenneth Soo)

2017년 중반에 스탠퍼드대학교에서 통계학 석사를 이수했다. 워릭대학교 통계경제학부 운영연구과에서 3년 내내 수학 강의 1등을 차지했다. 같은 대학 운영 연구와 관리 과학 그룹의 연구원으로 일했고, 무작위성 실패에 취약한 네트워크 연구 분야에서 견고한 다중 목적 최적화를 연구했다.

옮긴이의 말

말 그대로 데이터의 시대가 왔다. 데이터가 곧 돈이요, 가치 있는 데이터를 확보한 기업이 미래의 주도권을 잡는 세상이 된 것이다. 누구나 데이터를 말하고, 데이터 과학을 이야기한다. 그만큼 데이터를 다룰 줄 알고, 데이터로부터 원하는 정보를 이끌어낼 수 있는 사람이 필요한 세상이다.
그러나 비전공자에게 데이터 과학이란 말은 어렵게 느껴질 뿐이다. 많은 사람들이 데이터를 분석하는 일에 흥미를 가지고 있지만 어디서, 어떻게, 무엇부터 시작해야 할지 갈피를 잡기 어렵다. 전문적인 분석가를 목표로 하는 사람이 아니더라도 데이터 과학이 무엇이고, 어떤 과정으로 이뤄지는지 궁금해 한다.
이 책은 이처럼 데이터 과학을 처음 시작하는 사람들이 주로 사용하는 분석 기법과 핵심적인 머신 러닝 알고리즘의 원리를 실제 데이터를 바탕으로 설명하고 있다. 구체적인 코드나 세세한 수학적 내용으로 독자를 힘들게 하기보다 알고리즘의 동작 원리와 장단점을 제시함으로써 데이터 과학을 처음 시작하는 비전공자나 데이터 과학이 무엇인지 궁금한 독자에게 훌륭한 출발점을 제공한다. 부디 이 책이 데이터 과학을 시작하고자 하는 모두에게 좋은 길잡이가 되길 바란다.

옮긴이 소개

최광민

한양대학교 컴퓨터 전공을 마치고 삼성 SDS 책임 연구원을 거쳐, 현재 인공지능 스타트업 알레시오에서 CTO로 재직 중이다. 회사에서든 일상에서든 새롭고 흥미로운 기술이라면 무엇이든 배우고 즐길 준비가 돼 있으며, 백발노인이 돼서도 끝없이 탐구하고 창조하는 사람이 되는 것을 인생의 목표로 삼고 있다.

목차

목차
  • 1장. 기초 훑어보기
    • 1.1 데이터 준비
      • 데이터 포맷
      • 변수 타입
      • 변수 선택
      • 특징 엔지니어링
      • 누락된 데이터
    • 1.2 알고리즘 선택
      • 비지도학습
      • 지도학습
      • 강화 학습
      • 이 밖에 고려해야 할 점
    • 1.3 파라미터 튜닝
    • 1.4 결과 평가하기
      • 분류 지표
      • 회귀 지표
      • 검증
    • 1.5 요약

  • 2장. 평균 군집화
    • 2.1 고객 군집 찾기
    • 2.2 예제: 영화 팬들의 성향 프로필
    • 2.3 군집 정의하기
      • 얼마나 많은 군집이 존재하는가?
      • 군집의 포함 관계는 어떤가?
    • 2.4 제약
    • 2.5 요약

  • 3장. 주성분 분석
    • 3.1 식품의 영양 성분 파악
    • 3.2 주성분
    • 3.3 예제: 식품 그룹 분석
    • 3.4 제약
    • 3.5 요약

  • 4장. 연관 규칙
    • 4.1 구매 패턴 발견하기
    • 4.2 지지도와 신뢰도, 향상도
    • 4.3 예제: 식료품 거래 분석
    • 4.4 Apriori 원칙
      • 지지도가 높은 품목 집합 찾기
      • 신뢰도나 향상도가 높은 품목 규칙 찾기
    • 4.5 제약
    • 4.6 요약

  • 5장. 소셜 네트워크 분석
    • 5.1 관계 매핑하기
    • 5.2 예제: 무기 거래로 엿보는 지정학
    • 5.3 루뱅 메서드
    • 5.4 페이지랭크 알고리즘
    • 5.5 제약
    • 5.6 요약

  • 6장. 회귀 분석
    • 6.1 추세선 찾기
    • 6.2 예제: 주택 가격 예측
    • 6.3 기울기 하강법
    • 6.4 회귀 계수
    • 6.5 상관 계수
    • 6.6 제약
    • 6.7 요약

  • 7장. k-최근접 이웃과 이상 감지
    • 7.1 식품 감별
    • 7.2 유유상종
    • 7.3 예제: 와인의 차이 알아내기
    • 7.4 이상 감지
    • 7.5 제약
    • 7.6 요약

  • 8장. 서포트 벡터 머신
    • 8.1 “아니요”냐, “절대 아니요!”냐?
    • 8.2 예제: 심장병 예측
    • 8.3 최적 경계 그리기
    • 8.4 제약
    • 8.5 요약

  • 9장. 의사결정 트리
    • 9.1 재앙에서 살아남을지 예측하기
    • 9.2 예제: 타이타닉 탈출하기
    • 9.4 제약
    • 9.5 요약

  • 10장. Random Forests
    • 10.1 대중의 지혜
    • 10.2 예제: 범죄 예측
    • 10.3 앙상블
    • 10.4 부트스트랩 집계
    • 10.5 제약
    • 10.6 요약

  • 11장. 신경망
    • 11.1 두뇌 흉내 내기
    • 11.2 예제: 수기 숫자 인식
    • 11.3 신경망의 구성 요소
    • 11.4 활성화 규칙
    • 11.5 제약
    • 11.6 요약

  • 12장. A/B 테스트와 멀티 암드 밴딧
    • 12.1 A/B 테스트의 기초
    • 12.2 A/B 테스트의 제약
    • 12.3 입실론 감소 전략
    • 12.4 예제: 멀티 암드 밴딧
    • 12.5 ‘승자 고집하기’에 얽힌 재밌는 사연
    • 12.6 입실론 감소 전략의 제약
    • 12.7 요약

  • 부록
    • A. 지도학습 알고리즘 개요
    • B. 지도학습 알고리즘 개요
    • C. 튜닝 파라미터 목록
    • D. 다양한 평가 지표
      • 분류 지표

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안

정오표

정오표

[p.25 : 끝에서 2행]
생선의 수를
->
과일의 수를

[p.77: 그림 5]
*도형 안의 숫자 변경
M: 23/ J: 13/ D: 54/ T: 10
->
M: 25/ J: 25/ D: 25/ T: 25