Top

[AutoML 창시자가 알려주는]
자동머신러닝

  • 원서명Automated Machine Learning: Methods, Systems, Challenges (ISBN 9783030053178)
  • 지은이프랭크 허터(Frank Hutter), 라스 코토프(Lars Kotthoff), 호아킨 반쇼렌(Joaquin Vanschoren)
  • 옮긴이이기홍
  • ISBN : 9791161755960
  • 30,000원
  • 2021년 12월 31일 펴냄
  • 페이퍼백 | 376쪽 | 155*235mm
  • 시리즈 : 데이터 과학

책 소개

2022년 대한민국학술원 우수학술도서 선정도서
요약

머신러닝과 딥러닝의 민주화라는 모토하에 자동머신러닝이 급속히 발전하고 있다. 이 책은 자동머신러닝의 이론적 기반과 이를 구현하는 시스템의 작동 원리를 자동머신러닝의 창시자들이 제공하고 있다. 개념적으로는 자동머신의 3대 고전적 주제인 하이퍼파라미터 최적화, 메타러닝 및 신경망 구조 탐색(NAS)에 대한 심층적 탐구를 접할 것이며, 오토웨카, 하이퍼옵트 사이킷런, 오토 사이킷런 및 오토넷과 TROP 등의 실무에 도움이 되는 많은 소프트웨어의 관련성과 작동 원리를 이해하게 될 것이다. 추가로 자동머신러닝 챌린지 경연대회를 운영하면서 쌓은 노하우와 앞으로 해결해야 할 과제를 제시한다. 번역서에서는 최신연구 동향과 메타러닝을 이해를 돕기 위한 부록을 추가했다.

추천의 글

"머신러닝을 사용하고 싶지만, 많은 시간을 투자할 수는 없다." 산업계나 다른 분야의 연구원들로부터 너무나 자주 듣는 말이다. 이에 따라 머신러닝에 대한 핸드 프리 솔루션에 대한 수요로 최근 자동머신러닝(AutoML) 분야가 생겨났으며, 이 책은 이 분야에 대한 최초의 종합 가이드다.
나는 지난 2014년 자동 통계학 프로젝트를 시작으로 머신러닝 자동화에 많은 관심이 있다. 머신러닝 자동화를 위해서는 전체 머신러닝과 데이터 분석 파이프라인의 모든 측면을 자동화하도록 노력해야 한다. 여기에는 데이터 수집 및 실험 설계 자동화, 데이터 정제 및 결측 데이터 대체 자동화, 특성 선택 및 변환 자동화, 모델 발견, 평가 및 설명 자동화, 계산 자원 할당 자동화 등이 포함된다. 그 외에도 하이퍼파라미터 변수 최적화 자동화, 추론 자동화, 모델 모니터링 및 이상 탐지 자동화 등이 있다. 우리는 이 모든 것을 자동화하고자 한다.
완전한 자동화는 과학 연구에 동기를 부여하고 장기적인 엔지니어링 목표를 제공할 수 있지만, 실제로는 대부분의 것을 반자동화하고 필요에 따라 루프에서 점차적으로 인간의 개입을 제거하기를 원할 것이다. 그 과정에서 목표로 한 모든 자동화를 수행하려고 하면 머신러닝을 좀 더 체계적이고 효율적으로 수행할 수 있는 강력한 툴을 개발할 수 있다. 만약 우리의 최종 목표인 자동화에 성공하지 못하더라도 이는 충분히 가치 있는 목표다. 하지만 이 책에서 보여주듯이 현재 AutoML은 여러 과제에서 인간 머신러닝 전문가보다 뛰어나다. 이러한 추세는 우리가 발전하고 연산이 점점 더 저렴해질수록 더욱 심화될 것으로 보인다. 따라서 AutoML은 앞으로 지켜봐야 할 주제 중 하나임이 분명하다. 지금은 AutoML에 참여하기에 좋은 시기이며, 이 책은 좋은 출발점이 될 것이다.
이 책에는 AutoML에 필요한 최신 기술(하이퍼파라미터 최적화, 메타러닝 및 신경망 구조 검색)이 포함되어 있으며, 기존 AutoML 시스템에 대한 심도 있는 논의를 제공하고, 2015년 이후 개최된 일련의 대회에서 AutoML의 최신 기술을 철저히 평가한다. 따라서 이 책을 현장에서 시작하고자 하는 머신러닝 연구자 및 AutoML 툴의 이면에 있는 방법을 이해하고자 하는 실무자에게 적극 추천한다.

— 주빈 가라마니(Zoubin Ghahramani)
/ 미국 샌프란시스코, 케임브리지대학교 교수, Uber 수석 과학자


이 책의 구성

1부에서는 AutoML 방법의 개요를 제공한다. 초보자들을 위한 탄탄한 개요를 제공하며 경험이 많은 AutoML 연구자에게 참고 자료가 사용될 것이다.
1장에서는 AutoML이 고려하는 가장 단순하고 일반적인 문제인 하이퍼파라미터 최적화 문제에 관해 설명하고, 현재 가장 효율적인 방법을 중점적으로 설명한다.
2장에서는 학습 방법, 즉 머신러닝 모델 평가에서 얻은 경험을 활용해 새로운 데이터로 새로운 학습 작업에 접근하는 방법을 설명한다.
3장에서는 NAS(Neural Architecture Search) 방법에 대해 포괄적으로 설명한다.

2부는 초보 사용자도 사용할 수 있는 실제 AutoML 시스템에 초점을 맞춰 설명한다.
4장에서는 최초의 AutoML 시스템 중 하나인 오토웨카(Auto-WEKA)를 설명한다. 이 툴킷은 잘 알려진 WEKA 머신러닝 툴킷을 기반으로 하며 다양한 분류 및 회귀 분석 방법, 하이퍼파라미터 설정 및 데이터 전처리 방법을 탐색한다.
5장에서는 널리 사용되는 사이킷런(scikit-learn) 프레임워크를 기반으로 하는 AutoML 프레임워크인 하이퍼옵트-사이킷런(Hyperopt-Sklearn)을 간략히 설명한다. 또한 시스템 사용 방법에 대한 몇 가지 실제 예도 포함돼 있다.
6장에서는 사이킷런을 기반으로 하는 오토사이킷런(Auto-sklearn)을 설명한다. 이는 오토웨카와 유사한 최적화 기술을 적용하고, 최적화 웜 스타트(warm starting) 및 자동 앙상블(auto ensembling)을 위한 메타러닝(meta-learning)과 같은 여러 가지 개선 사항을 추가했다. 또한 4장과 5장의 오토웨카 및 하이퍼옵트-사이킷런의 성능과 오토사이킷런의 성능과 비교한다.
7장에서는 딥신경망의 구조와 하이퍼파라미터를 모두 선택하는 자동 딥러닝을 위한 시스템인 오토넷(Auto-Net)을 간략히 설명한다.
8장에서는 트리 기반 머신러닝 파이프라인을 자동으로 구성하고 최적화하는 TPOT 시스템을 설명한다.
9장에서는 데이터 분석뿐만 아니라 예측 모델 및 성과 비교가 포함된 완전 자동화된 보고서를 생성해 데이터 과학을 자동화하는 시스템인 자동 통계 전문가 시스템(Automatic Statistician)을 설명한다.
마지막으로 3부와 10장에서는 2015년부터 실행돼 온 AutoML 챌린지(경연 대회)에 대해 간략히 설명한다.
10장에서는 경연 대회와 그 설계 배후에 있는 아이디어와 개념뿐만 아니라 과거 경연 대회에서 얻은 결과도 자세히 설명한다.

상세 이미지

저자/역자 소개

지은이의 말

지난 10년간 머신러닝 연구와 애플리케이션은 폭발적으로 증가했다. 특히 딥러닝은 컴퓨터 비전, 음성 처리, 게임 플레이와 같은 많은 응용 분야 영역에서 주요 발전을 가능하게 했다. 그러나 많은 머신러닝 방법은 설계 결정에 매우 민감하며, 이는 입문자가 상당한 어려워할 줄 수 있다. 신경망이 해야 할 일을 하면서 충분한 성과를 내기 위해 모든 구성 요소의 올바른 신경망 구조, 훈련 절차, 규제화 방법, 하이퍼파라미터를 선택해야 하는 딥러닝 분야가 특히 그렇다.
전문가들도 특정 데이터셋에 대한 적절한 선택 항목을 파악할 때까지 많은 시행착오를 겪게 된다. 자동머신러닝(AutoML) 분야는 사용자가 데이터를 제공하기만 하면 AutoML 시스템이 이 특정 애플리케이션에 가장 적합한 접근법을 자동으로 결정한다. 따라서 AutoML은 머신러닝을 적용하는 데는 관심이 있지만 기술에 대해 자세히 배울 만한 리소스가 없는 도메인 과학자들이 최첨단 머신러닝 접근법을 이용할 수 있도록 한다. 이는 머신러닝을 민주화한 것으로 볼 수 있으며 AutoML을 사용하면 사용자 정의된 최첨단 머신러닝에 누구나 쉽게 접근할 수 있다.
책에서 보듯이 AutoML 접근법은 이미 충분히 성숙돼 있어 인간 머신러닝 전문가에 필적할 수 있고 때로는 더 우수한 성능을 발휘할 수도 있다. 간단히 말해 머신러닝 전문가는 찾기도 어렵고 비용도 많이 들지만, AutoML은 상당한 시간과 비용을 절약하면서 성과 향상으로 이어질 수 있다. 그 결과 최근 몇 년간 AutoML에 대한 상업적인 관심이 급격히 높아졌으며 현재 몇몇 주요 테크 회사들이 자체 AutoML 시스템을 개발하고 있다. 그러나 머신러닝을 민주화하는 목적은 전용 유료 블랙박스 서비스보다 오픈 소스 AutoML 시스템을 통해 훨씬 더 잘 이룰 수 있다.
이 책은 빠르게 변화하는 AutoML 분야의 개요를 제공한다. 현재 커뮤니티가 딥러닝에 초점을 맞추고 있기 때문에 일부 연구자들은 AutoML을 신경망 구조 검색(NAS) 주제와 잘못 동일시하고 있다. 이 책을 읽고나면 NAS가 AutoML의 훌륭한 예지만, NAS보다 AutoML에 많은 것이 있다는 것을 알게 될 것이다.
이 책은 자신의 AutoML 접근법을 개발하려는 연구자들에게 몇 가지 배경과 출발점을 제공하고, 자신의 문제에 AutoML을 적용하고자 하는 실무자들에게는 사용할 수 있는 시스템을 강조하며, AutoML에서 이미 작업 중인 연구자들에게는 최신 기술의 개요를 제공하기 위한 것이다.

편저자 소개

프랭크 허터(Frank Hutter)

독일 프라이부르크대학교(University of Freiburg Freiburg) 컴퓨터 과학과를 졸업했다.

라스 코토프(Lars Kotthoff)

네벌란드 에인트호번 공과대학교(Eindhoven University of Technology)를 졸업했다.

호아킨 반쇼렌(Joaquin Vanschoren)

미국 와이오밍 래러미에 있는 와이오밍대학교(University of Wyoming)를 졸업했다.

옮긴이의 말

자동머신러닝(AutoML)의 창시자(적어도 초기에 가장 큰 공헌을 한 연구자)들이 AutoML의 역사와 현황, 발전 방향을 다룬 책이다. 전통적인 머신러닝 분야, 메타러닝 및 NAS 분야에서 여러 개념을 설명하고 있으며, 더 나아가 실제적으로 사용하는 소프트웨어 및 프레임워크를 소개하고 있다. 더불어 이 모든 것의 종합적 기반을 다지게 한 AutoML 챌린지(경연 대회)에 대한 기반 아이디어 및 진행 경험을 보여주고 있다(나 또한 경연 대회는 머신러닝 발전을 위한 훌륭한 수단이라고 생각한다. 비근한 예로 ImageNet까지 안 가도 Kaggle을 생각해보라).
이 책이 기본 개념 및 배경 철학을 잘 다루고 있지만, 이 책의 저술 시기가 2018년이고 이후 많은 발전이 있었기 때문에 이를 보완하기 위해 He, Zhao와 Chu(2020)의 AutoML 최신 동향 조사를 요약 발췌해 부록에 첨부했다. 이 책과 같이 읽으면 AutoML의 근본적인 문제뿐만 아니라 최신 기법까지 섭렵할 수 있을 것이다. 이외에도 아주 중요한 문헌들을 참고문헌으로 첨부했으니 참고하기를 바란다.
추가로 이 책의 저자 프랭크 후터는 훌륭한 강연을 유튜브에 여러 편 남기고 있어 관심 있는 독자들은 참고하기 바란다. 더불어 유튜브나 블로그에 많은 AutoML에 관련된 많은 동영상과 글들이 있지만, 특히 카네기멜론대학교 교수인 아미트 탈왈카르(Ameet Talwalker)의 유튜브 강연을 보길 권한다. NAS의 탐색 공간, 구조 탐색 및 구조 평가의 관점에서 NAS를 분류하고 있는데 이는 개념을 정리하는 데 많은 도움이 될 것이다.
머신러닝과 딥러닝의 민주화를 기치(旗幟)로 하는 AutoML은 아마도 인공지능 분야의 가장 역동적이고 흥미로운 분야 중 하나이므로 앞으로 수년 내로 더욱 획기적인 발전이 있을 것으로 전망된다. 독자들이 이 책을 통해 단순히 기계적인 테크닉으로서의 AutoML이 아니라 인간이 가진 어떤 문제를 풀어 나가는 해법으로 AutoML를 인식하고, 인간이 더 높은 단계로 하나하나 문제를 풀어나가는 과정을 즐기기를 바란다.

옮긴이 소개

이기홍

카네기멜론대학교에서 석사 학위를 받았고, 피츠버그대학교의 Finance Ph.D, CFA, FRM이자 금융, 투자, 경제분석전문가다. 삼성생명, HSBC, 새마을금고중앙회, 한국투자공사 등과 같은 국내 유수의 금융기관, 금융 공기업에서 자산 운용 포트폴리오 매니저로 근무했으며 현재 딥러닝과 강화학습을 금융에 접목시켜 이를 전파하고 저변을 확대하는 것을 보람으로 삼고 있다. 저서로는 『엑셀 VBA로 쉽게 배우는 금융공학 프로그래밍』(한빛미디어, 2009)이 있으며, 번역서로는 『포트폴리오 성공 운용』(미래에셋투자교육연구소, 2010), 『딥러닝 부트캠프 with 케라스』(길벗, 2017), 『프로그래머를 위한 기초 해석학』(길벗, 2018)과 에이콘출판사에서 출간한 『실용 최적화 알고리즘』(2020), 『초과 수익을 찾아서 2/e』(2020), 『자산운용을 위한 금융 머신러닝』(2021), 『실전 알고리즘 트레이딩 배우기』(2021), 『존 헐의 비즈니스 금융 머신러닝 2/e』(2021), 『퀀트 투자를 위한 머신러닝•딥러닝 알고리듬 트레이딩 2/e』(2021), 『자동머신러닝』(2021), 『금융 머신러닝』(2022) 등이 있다. 누구나 자유롭게 머신러닝과 딥러닝을 자신의 연구나 업무에 적용해 활용하는 그날이 오기를 바라며 매진하고 있다.

목차

목차
  • 1부. AutoML 방법
  • 1장. 하이퍼파라미터 최적화
  • 1.1 서론
  • 1.2 문제 기술
  • 1.2.1 최적화에 대한 대안: 앙상블과 한계화
  • 1.2.2 다중 목적에 대한 최적화
  • 1.3 블랙박스 하이퍼파라미터 최적화
  • 1.3.1 모델 프리 블랙박스 최적화 방법
  • 1.3.2 베이지안 최적화
  • 1.4 다중 충실도 최적화
  • 1.4.1 조기 종료를 위한 학습 곡선 기반의 예측
  • 1.4.2 밴딧 기반 알고리듬 선택 방법
  • 1.4.3 충실도의 적응적 선택
  • 1.5 AutoML에의 응용
  • 1.6 미해결 문제와 미래 연구 방향
  • 1.6.1 벤치마크와 비교 가능성
  • 1.6.2 그래디언트 기반 최적화
  • 1.6.3 확장성
  • 1.6.4 과적합과 일반화
  • 1.6.5 임의 크기의 파이프라인 구축

  • 2장. 메타러닝
  • 2.1 서론
  • 2.2 모델 평가로부터 학습
  • 2.2.1 작업 독립 권장
  • 2.2.2 설정 공간 설계
  • 2.2.3 설정 전이
  • 2.2.4 학습 곡선
  • 2.3 작업 속성으로부터 학습
  • 2.3.1 메타 - 특성
  • 2.3.2 메타 - 특성 학습
  • 2.3.3 유사 작업으로부터 예열 시작 최적화
  • 2.3.4 메타모델
  • 2.3.5 파이프라인 합성
  • 2.3.6 조정할 것인가, 조정하지 않을 것인가
  • 2.4 사전 모델로부터 학습
  • 2.4.1 전이학습
  • 2.4.2 신경망으로 메타러닝
  • 2.4.3 소수 사례 학습
  • 2.4.4 지도학습을 넘어서
  • 2.5 결론

  • 3장. 신경망 구조 탐색
  • 3.1 서론
  • 3.2 탐색 공간
  • 3.3 탐색 전략
  • 3.4 성과 추정 전략
  • 3.5 미래 방향

  • 2부. AutoML Systems
  • 4장. 오토웨카: 자동 모델 선택과 웨카를 활용한 하이퍼파라미터 최적화
  • 4.1 서론
  • 4.2 사전 준비
  • 4.2.1 모델 선택
  • 4.2.2 하이퍼파라미터 최적화
  • 4.3 결합 알고리듬 선택과 하이퍼파라미터
  • 4.3.1 순차적 모델 기반 알고리듬 구성
  • 4.4 오토웨카
  • 4.5 실험 평가
  • 4.5.1 베이스라인 방법
  • 4.5.2 검증 성과 결과
  • 4.5.3 테스트 성과 결과
  • 4.6 결론
  • 4.6.1 커뮤니티 채택

  • 5장. 하이퍼옵트 사이킷런
  • 5.1 서론
  • 5.2 배경: 최적화를 위한 하이퍼옵트
  • 5.3 검색 문제로서 사이킷런 모델 선택
  • 5.4 사용 예제
  • 5.5 실험
  • 5.6 논의와 미래 연구
  • 5.7 결론

  • 6장. 오토 사이킷런: 효율적이고 강건한 자동머신러닝
  • 6.1 서론
  • 6.2 CASH 문제로서의 AutoML
  • 6.3 AutoML의 효율성과 강건성을 향상시키기 위한 새로운 방법
  • 6.3.1 좋은 머신러닝 프레임워크를 찾기 위한 메타러닝
  • 6.3.2 최적화 동안 평가된 모델의 자동 앙상블 구축
  • 6.4 현실적인 AutoML 시스템
  • 6.5 오토 사이킷런의 오토웨카와 하이퍼옵트 사이킷런과의 비교
  • 6.6 AutoML 개선안의 평가
  • 6.7 오토 사이킷런 구성 요소의 세부 분석
  • 6.8 논의와 결론
  • 6.8.1 논의
  • 6.8.2 사용법
  • 6.8.3 PoSH 오토 사이킷런의 확장
  • 6.8.4 결론과 미래 연구

  • 7장. 딥신경망의 자동 튜닝
  • 7.1 서론
  • 7.2 오토넷 1.0
  • 7.3 오토넷 2.0
  • 7.4 실험
  • 7.4.1 오토넷 10과 오토 사이킷런의 베이스라인 평가
  • 7.4.2 AutoML 경연 데이터셋에 대한 결과
  • 7.4.3 오토넷 10과 20의 비교
  • 7.5 결론

  • 8장. TROP: 자동머신러닝을 위한 트리 기반 파이프라인 최적화 도구
  • 8.1 서론
  • 8.2 방법
  • 8.2.1 머신러닝 파이프라인 연산자
  • 8.2.2 트리 기반 파이프라인 구축
  • 8.2.3 트리 기반 파이프라인 최적화
  • 8.2.4 벤치마크 데이터
  • 8.3 결과
  • 8.4 결론과 미래 연구

  • 9장. 자동 통계 전문가 시스템
  • 9.1 서론
  • 9.2 자동 통계 전문가의 기본 해부
  • 9.2.1 관련 연구
  • 9.3 시계열 데이터에 대한 자동 통계 전문가 시스템
  • 9.3.1 커널에 대한 문법
  • 9.3.2 탐색과 평가 절차
  • 9.3.3 자연어 설명 생성
  • 9.3.4 인간과의 비교
  • 9.4 다른 자동 통계 전문가 시스템
  • 9.4.1 핵심 구성 요소
  • 9.4.2 설계에 있어서 풀어야 할 과제들
  • 9.5 결론

  • 10장. 2015-2018 AutoML 챌린지 시리즈에 관한 분석
  • 10.1 서론
  • 10.2 문제 설정과 개요
  • 10.2.1 문제의 범위
  • 10.2.2 완전 모델 선택
  • 10.2.3 하이퍼파라미터 최적화
  • 10.2.4 모델 탐색 전략
  • 10.3 데이터
  • 10.4 챌린지 프로토콜
  • 10.4.1 시간 예산과 계산 자원
  • 10.4.2 점수 척도
  • 10.4.3 2015/2016 챌린지 라운드와 단계
  • 10.4.4 2018 챌린지 단계
  • 10.5 결과
  • 10.5.1 2015/2016 챌린지에서 얻은 점수
  • 10.5.2 2018 챌린지에서 얻은 점수
  • 10.5.3 데이터셋/작업의 어려움
  • 10.5.4 하이퍼파라미터 최적화
  • 10.5.5 메타러닝
  • 10.5.6 챌린지에서 사용된 방법들
  • 10.6 논의
  • 10.7 결론

  • 부록 I. AutoML 최신 동향
  • 부록 II. 메타러닝과 AutoML

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안