Top

실전 자동머신러닝 [Azure, AWS와 GCP에서 구현하는 다양한 AutoML]

  • 원서명Automated Machine Learning: Hyperparameter optimization, neural architecture search, and algorithm selection with cloud platforms (ISBN 9781800567689)
  • 지은이아드난 마수드(Adnan Masood)
  • 옮긴이이기홍
  • ISBN : 9791161756073
  • 30,000원
  • 2022년 01월 25일 펴냄
  • 페이퍼백 | 338쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약

자동 특성 공학, 모델 및 하이퍼파라미터 튜닝, 그래디언트 기반 접근법 등의 기본 기술을 살펴보고 다양한 오픈소스 툴을 사용해 자동머신러닝 기술을 구현하는 방법을 배운다. 구체적으로 애저(Azure), 아미존 웹 서비스(AWS), 구글 클라우드 플랫폼(GCP)을 포함한 3대 클라우드 서비스에서 자동머신러닝(AutoML)을 구현하는 다양한 방법을 설명한다. AutoML을 사용해 머신러닝 모델을 구축해 클라우드 AutoML 플랫폼의 기능을 살펴본다. 이 책을 마치면 정확하면서도 생산성을 높이고 상호 운용성을 허용하며 특징적인 엔지니어링 작업을 최소화하는 AutoML 모델을 구축하고 배포할 수 있을 것이다.

추천의 글

누구나 인생에서 어떤 일이 있어도 잊지 못하는 순간이 있을 것이다. 내게 있어 그 순간은 아드난 마수드 박사를 처음 만난 때였다. 테크 콘퍼런스나 직장 행사가 아닌 우리 아이들이 모두 참석한 교회 학교 행사에서 마주쳤다. 마수드 박사는 자기 소개를 한 다음 내 직업을 물었다. 보통 업무 분야 외에 이야기를 나누는 대부분의 사람들이 내가 하는 일을 제대로 이해하지 못하기 때문에 통상 낯설게 대답한다. 그러나 내가 데이터로 작업한다고 말하자 박사의 눈이 빛났다. 마수드 박사는 내게 오랫동안 들어본 적이 없는 가장 불명확한 머신러닝과 딥러닝 알고리듬에 대해 점점 더 깊이 있는 질문을 던졌다. 나와 같은 열정을 가진 사람이 있다는 사실을 알고 매우 기뻤다.
마수드 박사는 빠르게 성장하고 있으며 종종 오해받기도 하는 자동머신러닝 분야에 열정을 쏟고 있다. 마이크로소프트에서 일하는 데이터 과학자로서 나는 조직 책임자들로부터 자동머신러닝으로 인해 데이터 과학 전문 지식이 필요 없게 될 것이라는 말을 자주 듣는다. 이는 사실이 아니며, 자동머신러닝이 특성 엔지니어링, 데이터 전처리, 모델 훈련 및 모델 선택을 위한 “블랙박스” 또는 “일률적인” 접근법으로 간주돼서는 안 된다. 오히려 자동머신러닝은 데이터 과학, 머신러닝, 인공지능의 전반적인 장점을 빼앗아가는 업무와 관련된 시간과 비용을 줄이는 데 도움을 줄 수 있다.
이 책을 읽고 있다면, 현재와 미래의 모든 프로젝트에 자동머신러닝이 적용되는 이점을 당신이 이제 막 이해하기 시작했다는 뜻이기도 하다.
이 책을 통해 마이크로소프트 애저, 아미존 웹 서비스, 구글 클라우드 플랫폼이 제공하는 클라우드 솔루션뿐만 아니라 오픈소스 패키지와 함께 AutoML을 활용하는 실무 전문 지식을 얻을 수 있다. 숙련된 데이터 과학자, 초보 데이터 과학자, 데이터 엔지니어, ML 엔지니어, 데브옵스 엔지니어, 데이터 분석가라면 AutoML을 통해 머신러닝 여행의 다음 단계로 도약할 수 있을 것이다.

— 아메드 세리프(Ahmed Sherif)/ 마이크로소트프의 클라우드 솔루션 설계자(AI와 분석 도구)

이 책에서 다루는 내용

◆ AutoML의 기본 원리과 기본 방법 및 기법 탐구
◆ 적용되는 시나리오에서 알고리듬 선택, 자동 특성 설정, 하이퍼파라미터 튜닝과 같은 AutoML 측면 평가
◆ 클라우드와 OSS 제품의 차이점
◆ AWS, Azure, GCP와 같은 툴에서 AutoML 구현 및 ML 모델과 파이프라인 구축
◆ 설명 가능한 AutoML 파이프라인을 투명하게 구축하기
◆ 자동 특성 공학 및 시계열 예측
◆ 데이터 과학 모델링 작업을 자동화해 ML 솔루션을 쉽게 구현하고 더욱 복잡한 문제 알아보기

이 책의 대상 독자

오픈소스 도구, 마이크로소프트 애저 자동머신러닝, AWS, 구글 클라우드 플랫폼에서 제공하는 기능을 사용해 머신러닝 모델을 자동으로 구축하고자 하는 사람들뿐 아니라 시민 데이터 과학자, 머신러닝 개발자, AI 애호가에게도 이 책이 유용할 것이다.

이 책의 구성

1장, ‘자동머신러닝 개요’에서는 초보자를 위한 확실한 개요를 제공하고 숙련된 머신러닝 실무자를 위한 참조 역할을 함으로써 AutoML 방법에 대한 자세한 개요를 제시한다. 머신러닝 개발 수명주기로 시작해 AutoML이 해결하는 하이퍼파라미터 최적화 문제를 살펴본다.
2장, ‘자동머신러닝, 알고리듬 및 기술’을 통해 시민 데이터 과학자는 광범위한 경험 없이도 AI 솔루션을 구축할 수 있다. 또한 자동 특성 공학(AutoFE), 자동 모델 및 하이퍼파라미터 학습(AutoMHL), 자동 딥러닝(AutoDL)의 세 가지 범주 측면에서 AutoML의 현재 개발을 검토한다. 베이지안 최적화, 강화 학습, 진화 알고리듬 및 그레이디언트 기반 접근법을 포함해 이 세 가지 범주에서 채택된 최첨단 기술이 제시된다.
3장, ‘오픈소스 도구와 라이브러리를 사용한 자동머신러닝’에서는 예측 모델의 아이디어화, 개념화, 개발 및 배포의 전체 수명주기를 자동화하는 AutoML OSS(Open Source Software, 오픈소스 소프트웨어) 도구 및 라이브러리에 관해 설명한다.
4장, ‘Azure 머신러닝 시작하기’에서는 Windows Azure 플랫폼 및 서비스의 강력한 기능을 사용해 엔드투엔드 머신러닝 생애 주기를 가속화하는 데 도움이 되는 Azure 머신러닝을 다룬다.
5장, ‘마이크로소프트 Azure를 사용한 자동머신러닝’에서는 Azure 머신러닝 스택을 사용해 모델 개발의 시간 소모적이고 반복적인 작업을 자동화하고 Azure AutoML을 사용해 회귀, 분류, 시계열 분석과 같은 작업을 수행하는 방법에 대해 자세히 살펴본다.
6장, ‘아마존 웹 서비스와 함께하는 머신러닝’에서는 아마존 세이지메이커 스튜디오, 아마존 세이지메이커 오토파일럿, 아마존 세이지메이커 진실, 아마존 세이지메이커 네오와 함께 AWS가 제공하는 다른 AI 서비스와 프레임워크를 다룬다.
7장, ‘아마존 세이지메이커 오토파일럿을 사용한 자동머신러닝의 수행’에서는 세이지메이커 오토파일럿을 사용해 여러 후보를 실행해 데이터 사전 처리 단계, 머신러닝 알고리듬 및 하이퍼파라미터의 최적 조합을 알아낸다.
8장, ‘구글 클라우드 플랫폼을 통한 머신러닝'에서는 구글의 AI 및 머신러닝 오퍼링에 대해 살펴본다. 이 장을 통해 개발자가 TensorFlow, TPU 및 TFX 도구와 같은 최첨단 Google AI 기술에 액세스할 수 있는 휴대용 머신러닝 파이프라인인 Kubeflow를 어떻게 지원하는지 이해하게 될 것이다.
9장, ‘GCP Cloud AutoML을 사용한 자동 머신러닝’에서는 최소한의 노력과 머신러닝 전문지식으로 맞춤형 비즈니스별 머신러닝 모델을 교육하는 방법을 소개한다. 실습 사례와 코드 워크스루를 통해 Google Cloud AutoML 플랫폼을 탐색해 데이터 과학이나 프로그래밍에 대한 지식 없이도 자연어, 비전, 비정형 데이터, 언어 번역 및 비디오 인텔리전스 분야의 맞춤형 딥러닝 모델을 만들 것이다.
10장, ‘엔터프라이즈의 AutoML’은 예측 모델 및 성능 비교뿐만 아니라 데이터 분석을 포함하는 완전 자동화된 보고서를 생성해 데이터 과학을 자동화하는 시스템으로 기업 환경에서 AutoML을 제공한다.

저자/역자 소개

지은이의 말

모든 머신러닝 엔지니어는 하이퍼파라미터가 있는 시스템을 다루는데, 자동머신러닝에서 가장 기본적인 작업은 이러한 하이퍼파라미터를 자동으로 설정해 성능을 최적화하는 것이다. 최신 심층 신경망은 구조, 규제화 및 최적화를 위한 광범위한 하이퍼파라미터를 갖고 있으며, 시간과 노력을 절약하기 위해 효과적으로 사용자 지정할 수 있다.
이 책에서는 자동화된 특성 공학, 모델 및 하이퍼파라미터 튜닝, 그래디언트 기반 접근법 등의 기본 기술을 검토한다. 오픈소스 도구에서 이러한 기술을 구현하는 다양한 방법을 살펴보게 될 것이다. 다음으로 엔터프라이즈급 도구에 집중해 애저, AWS, 구글 클라우드 플랫폼의 다양한 AutoML 구현 방법을 알아본다. AutoML을 활용한 머신러닝 모델을 구축해 클라우드 AutoML 플랫폼의 기능을 살펴보고, 머신러닝 개발 수명주기와 관련된, 시간이 많이 걸리고 반복적인 작업을 자동화해 정확한 모델을 개발하는 방법을 알아본다.
이 책을 마치면 정확성과 생산성을 높이고 상호 운용성을 보장하며 특성 공학 작업을 최소화하는 AutoML 모델을 구축하고 배포할 수 있을 것이다.

지은이 소개

아드난 마수드(Adnan Masood)

미국 스탠퍼드대학교 AI 랩 객원학자, 소프트웨어 엔지니어, 마이크로소프트 MVP(Most Vauable Professional)이자 마이크로소프트 지역 인공지능 담당 이사다. UST Global의 AI 및 머신러닝 수석 설계자로, 스탠퍼드 AI Lab 및 MIT CSAIL과 협업하고 있으며 다양한 비즈니스, 제품, 이니셔티브에 영향을 미치는 비즈니스 가치와 통찰력을 제공할 수 있는 인공지능 솔루션을 개발하는 데이터 과학자 및 엔지니어 팀을 이끌고 있다.

옮긴이의 말

이 책은 『자동머신러닝』(에이콘, 2021)을 기술적인 구현 측면에서 보완하는 책이다. 애저, AWS와 GCP의 3대 클라우드 서비스의 다양한 AutoML 구현 방법을 설명한다. AutoML은 머신러닝/딥러닝의 민주화를 위한 강력한 개념이며, 이를 추구하는 과정에서 단순한 자동화를 넘어서는 머신러닝의 혁신을 유도한다. 또한 최첨단 이론들을 머신러닝의 초보자, 심지어 모르는 사람들조차도 짧은 시간에 업무에 용이하게 적용할 수 있도록 돕는 멋진 개념이며, 연구자 및 개발자로 하여금 연구와 개발에 집중할 수 있도록 한다. 머신러닝의 자동화 노력은 앞으로 머신러닝이 사람들의 일상생활에 더욱 밀착 적용될 것으로 믿어 의심치 않는다.
이 책에 나오는 개념을 더 깊이 탐구하고 싶은 사람들은 이론에 초점을 맞춘 『자동머신러닝』을 참고하기를 바란다.

옮긴이 소개

이기홍

카네기멜론대학교에서 석사 학위를 받았고, 피츠버그대학교의 Finance Ph.D, CFA, FRM이자 금융, 투자, 경제분석전문가다. 삼성생명, HSBC, 새마을금고중앙회, 한국투자공사 등과 같은 국내 유수의 금융기관, 금융 공기업에서 자산 운용 포트폴리오 매니저로 근무했으며 현재 딥러닝과 강화학습을 금융에 접목시켜 이를 전파하고 저변을 확대하는 것을 보람으로 삼고 있다. 저서로는 『엑셀 VBA로 쉽게 배우는 금융공학 프로그래밍』(한빛미디어, 2009)이 있으며, 번역서로는 『포트폴리오 성공 운용』(미래에셋투자교육연구소, 2010), 『딥러닝 부트캠프 with 케라스』(길벗, 2017), 『프로그래머를 위한 기초 해석학』(길벗, 2018)과 에이콘출판사에서 출간한 『실용 최적화 알고리즘』(2020), 『초과 수익을 찾아서 2/e』(2020), 『자산운용을 위한 금융 머신러닝』(2021), 『실전 알고리즘 트레이딩 배우기』(2021), 『존 헐의 비즈니스 금융 머신러닝 2/e』(2021), 『퀀트 투자를 위한 머신러닝•딥러닝 알고리듬 트레이딩 2/e』(2021), 『자동머신러닝』(2021), 『금융 머신러닝』(2022) 등이 있다. 누구나 자유롭게 머신러닝과 딥러닝을 자신의 연구나 업무에 적용해 활용하는 그날이 오기를 바라며 매진하고 있다.

목차

목차
  • 1부. 자동머신러닝 소개
  • 1장. 자동머신러닝 개요
    • 머신러닝 개발 수명 주기
    • 자동머신러닝
    • 자동화 ML의 작동법
      • 하이퍼파라미터
      • 자동머신러닝의 필요성
    • 데이터 과학의 민주화
    • 자동머신러닝 신화의 타파
      • 신화 #1: 데이터 과학자의 종말
      • 신화 #2: 자동ML은 단지 토이 문제만을 풀 수 있다
    • 자동머신러닝 생태계
    • 오픈소스 플랫폼과 도구
      • 마이크로소프트 NNI
      • Auto - sklearn
      • Auto - Weka
      • auto - Keras
      • TPOT
      • Ludwig - 코드 없는 AutoML 툴박스
      • AutoGluon: 딥러닝을 위한 AutoML 툴킷
      • Featuretools
      • H2O AutoML
    • 상업적 도구와 플랫폼
      • DataRobot
      • 구글 클라우드 AutoML
      • 아마존 세이지메이커 오토파일럿
      • 애저 자동ML
      • H2O 드라이버리스 AI
      • 자동ML의 미래
      • 자동ML 문제와 한계
      • 기업을 위한 입문 지침
    • 요약
  • 2장. 자동머신러닝, 알고리듬 그리고 기법
    • 자동화된 ML - 뚜껑 열기
      • 자동ML 용어의 분류 체계
    • 자동화된 특성 공학
    • 하이퍼파라미터 최적화
    • 신경망 구조 탐색
    • 요약
  • 3장. 오픈소스 툴과 라이브러리를 이용한 자동머신러닝
    • 기술 요구 사항
    • AutoML용 오픈소스 생태계
    • TPOT 소개
      • TPOT는 이를 어떻게 수행하는가?
    • Featuretools 소개
    • 마이크로소프트 NNI 소개
    • auto-sklearn 소개
    • Auto-Keras 소개
      • Ludwig - 코드 없는 AutoML 툴박스
    • AutoGluon - 딥러닝을 위한 AutoML 툴킷
    • 요약

  • 2부. 클라우드 플랫폼을 이용한 AutoML
  • 4장. Azure 머신러닝으로 시작하기
    • Azure 머신러닝으로 시작하기
    • Azure 머신러닝 스태킹하기
    • Azure 머신러닝 서비스로 시작하기
    • Azure 머신러닝으로 모델링하기
    • Azure 머신러닝을 이용한 모델 배포와 테스트
    • 요약

  • 5장. 마이크로소프트 Azure를 이용한 자동머신러닝
    • 마이크로소프트 Azure의 AutoML
    • AutoML을 이용한 시계열 예측
    • 요약

  • 6장. AWS를 이용한 머신러닝
    • AWS 지형에서의 ML
    • AWS ML로 시작하기
    • AWS 세이지메이커 오토파일럿
    • AWS 점프스타트
    • 요약

  • 7장. 아마존 세이지메이커 오토파일럿으로 자동머신러닝 실행하기
    • 기술적 요구 조건
    • 아마존 세이지메이커 오토파일럿의 작성 - 제한된 실험
    • AutoML 실험 생성
    • 세이지메이커 오토파일럿 실험의 수행과 모델의 배포
      • 세이지메이커 오토파일럿 모델 호출 및 테스트
    • 노트북으로부터 세이지메이커 오토파일럿 실험을 구축하고 실행하기
      • 모델 호스트와 호출
    • 요약

  • 8장. 구글 클라우드 플랫폼을 이용한 머신러닝
    • 구글 클라우드 플랫폼 서비스로 시작하기
    • 구글 클라우드 플랫폼을 이용한 AI와 ML
    • 구글 클라우드 AI 플랫폼과 AI 허브
    • 구글 클라우드 AI 플랫폼으로 시작하기
    • 구글 클라우드를 이용한 자동ML
    • 요약

  • 9장. 구글 클라우드 플랫폼을 이용한 자동머신러닝
    • 구글 클라우드 AutoML Tables로 시작하기
    • AutoML Tables 실험 생성
    • AutoML Tables 모델 배포 이해
    • BigQuery 공용 데이터셋을 이용한 AutoML Tables
    • 가격 예측을 위한 자동머신러닝
    • 요약

  • 3부. 자동머신러닝 응용
  • 10장. 엔터프라이즈 자동ML
    • 조직이 자동ML을 필요로 하는가?
      • 타이탄의 충돌 - 자동ML 대 데이터 과학자
    • 자동ML - 엔터프라이즈 고급 분석을 위한 가속기
      • 인간 친숙한 통찰력을 가진 AI의 민주화
      • 증강된 지능
    • 자동ML 도전 과제와 기회
      • 불충분한 데이터
      • 모델 성능
      • 도메인 전문가와 특수 용도 사례
      • 컴퓨팅 비용
      • 학습 곡선의 수용
      • 이해관계자의 적응
    • 신뢰 구축 - 모델 해석 가능성과 자동ML의 투명성
      • 특성 중요도
      • 반사실 분석
      • 데이터 과학 모델 정확도 척도
      • 사전 모델 설명 가능성
      • 실행 중 모델 설명 가능성
      • 사후 모델 설명 가능성
    • 조직에의 자동ML 도입
      • 충격 흡수
      • 올바른 자동ML 플랫폼 선택
      • 데이터의 중요성
      • 청중의 올바른 메시지
    • 활용 방안 - 다음 단계는 무엇인가?

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안