[AutoML 창시자가 알려주는]
자동머신러닝
- 원서명Automated Machine Learning: Methods, Systems, Challenges (ISBN 9783030053178)
- 지은이프랭크 허터(Frank Hutter), 라스 코토프(Lars Kotthoff), 호아킨 반쇼렌(Joaquin Vanschoren)
- 옮긴이이기홍
- ISBN : 9791161755960
- 30,000원
- 2021년 12월 31일 펴냄
- 페이퍼백 | 376쪽 | 155*235mm
- 시리즈 : 데이터 과학
책 소개
2022년 대한민국학술원 우수학술도서 선정도서
요약
머신러닝과 딥러닝의 민주화라는 모토하에 자동머신러닝이 급속히 발전하고 있다. 이 책은 자동머신러닝의 이론적 기반과 이를 구현하는 시스템의 작동 원리를 자동머신러닝의 창시자들이 제공하고 있다. 개념적으로는 자동머신의 3대 고전적 주제인 하이퍼파라미터 최적화, 메타러닝 및 신경망 구조 탐색(NAS)에 대한 심층적 탐구를 접할 것이며, 오토웨카, 하이퍼옵트 사이킷런, 오토 사이킷런 및 오토넷과 TROP 등의 실무에 도움이 되는 많은 소프트웨어의 관련성과 작동 원리를 이해하게 될 것이다. 추가로 자동머신러닝 챌린지 경연대회를 운영하면서 쌓은 노하우와 앞으로 해결해야 할 과제를 제시한다. 번역서에서는 최신연구 동향과 메타러닝을 이해를 돕기 위한 부록을 추가했다.
추천의 글
"머신러닝을 사용하고 싶지만, 많은 시간을 투자할 수는 없다." 산업계나 다른 분야의 연구원들로부터 너무나 자주 듣는 말이다. 이에 따라 머신러닝에 대한 핸드 프리 솔루션에 대한 수요로 최근 자동머신러닝(AutoML) 분야가 생겨났으며, 이 책은 이 분야에 대한 최초의 종합 가이드다.
나는 지난 2014년 자동 통계학 프로젝트를 시작으로 머신러닝 자동화에 많은 관심이 있다. 머신러닝 자동화를 위해서는 전체 머신러닝과 데이터 분석 파이프라인의 모든 측면을 자동화하도록 노력해야 한다. 여기에는 데이터 수집 및 실험 설계 자동화, 데이터 정제 및 결측 데이터 대체 자동화, 특성 선택 및 변환 자동화, 모델 발견, 평가 및 설명 자동화, 계산 자원 할당 자동화 등이 포함된다. 그 외에도 하이퍼파라미터 변수 최적화 자동화, 추론 자동화, 모델 모니터링 및 이상 탐지 자동화 등이 있다. 우리는 이 모든 것을 자동화하고자 한다.
완전한 자동화는 과학 연구에 동기를 부여하고 장기적인 엔지니어링 목표를 제공할 수 있지만, 실제로는 대부분의 것을 반자동화하고 필요에 따라 루프에서 점차적으로 인간의 개입을 제거하기를 원할 것이다. 그 과정에서 목표로 한 모든 자동화를 수행하려고 하면 머신러닝을 좀 더 체계적이고 효율적으로 수행할 수 있는 강력한 툴을 개발할 수 있다. 만약 우리의 최종 목표인 자동화에 성공하지 못하더라도 이는 충분히 가치 있는 목표다. 하지만 이 책에서 보여주듯이 현재 AutoML은 여러 과제에서 인간 머신러닝 전문가보다 뛰어나다. 이러한 추세는 우리가 발전하고 연산이 점점 더 저렴해질수록 더욱 심화될 것으로 보인다. 따라서 AutoML은 앞으로 지켜봐야 할 주제 중 하나임이 분명하다. 지금은 AutoML에 참여하기에 좋은 시기이며, 이 책은 좋은 출발점이 될 것이다.
이 책에는 AutoML에 필요한 최신 기술(하이퍼파라미터 최적화, 메타러닝 및 신경망 구조 검색)이 포함되어 있으며, 기존 AutoML 시스템에 대한 심도 있는 논의를 제공하고, 2015년 이후 개최된 일련의 대회에서 AutoML의 최신 기술을 철저히 평가한다. 따라서 이 책을 현장에서 시작하고자 하는 머신러닝 연구자 및 AutoML 툴의 이면에 있는 방법을 이해하고자 하는 실무자에게 적극 추천한다.
— 주빈 가라마니(Zoubin Ghahramani)
/ 미국 샌프란시스코, 케임브리지대학교 교수, Uber 수석 과학자
이 책의 구성
1부에서는 AutoML 방법의 개요를 제공한다. 초보자들을 위한 탄탄한 개요를 제공하며 경험이 많은 AutoML 연구자에게 참고 자료가 사용될 것이다.
1장에서는 AutoML이 고려하는 가장 단순하고 일반적인 문제인 하이퍼파라미터 최적화 문제에 관해 설명하고, 현재 가장 효율적인 방법을 중점적으로 설명한다.
2장에서는 학습 방법, 즉 머신러닝 모델 평가에서 얻은 경험을 활용해 새로운 데이터로 새로운 학습 작업에 접근하는 방법을 설명한다.
3장에서는 NAS(Neural Architecture Search) 방법에 대해 포괄적으로 설명한다.
2부는 초보 사용자도 사용할 수 있는 실제 AutoML 시스템에 초점을 맞춰 설명한다.
4장에서는 최초의 AutoML 시스템 중 하나인 오토웨카(Auto-WEKA)를 설명한다. 이 툴킷은 잘 알려진 WEKA 머신러닝 툴킷을 기반으로 하며 다양한 분류 및 회귀 분석 방법, 하이퍼파라미터 설정 및 데이터 전처리 방법을 탐색한다.
5장에서는 널리 사용되는 사이킷런(scikit-learn) 프레임워크를 기반으로 하는 AutoML 프레임워크인 하이퍼옵트-사이킷런(Hyperopt-Sklearn)을 간략히 설명한다. 또한 시스템 사용 방법에 대한 몇 가지 실제 예도 포함돼 있다.
6장에서는 사이킷런을 기반으로 하는 오토사이킷런(Auto-sklearn)을 설명한다. 이는 오토웨카와 유사한 최적화 기술을 적용하고, 최적화 웜 스타트(warm starting) 및 자동 앙상블(auto ensembling)을 위한 메타러닝(meta-learning)과 같은 여러 가지 개선 사항을 추가했다. 또한 4장과 5장의 오토웨카 및 하이퍼옵트-사이킷런의 성능과 오토사이킷런의 성능과 비교한다.
7장에서는 딥신경망의 구조와 하이퍼파라미터를 모두 선택하는 자동 딥러닝을 위한 시스템인 오토넷(Auto-Net)을 간략히 설명한다.
8장에서는 트리 기반 머신러닝 파이프라인을 자동으로 구성하고 최적화하는 TPOT 시스템을 설명한다.
9장에서는 데이터 분석뿐만 아니라 예측 모델 및 성과 비교가 포함된 완전 자동화된 보고서를 생성해 데이터 과학을 자동화하는 시스템인 자동 통계 전문가 시스템(Automatic Statistician)을 설명한다.
마지막으로 3부와 10장에서는 2015년부터 실행돼 온 AutoML 챌린지(경연 대회)에 대해 간략히 설명한다.
10장에서는 경연 대회와 그 설계 배후에 있는 아이디어와 개념뿐만 아니라 과거 경연 대회에서 얻은 결과도 자세히 설명한다.
상세 이미지
목차
목차
- 1부. AutoML 방법
- 1장. 하이퍼파라미터 최적화
- 1.1 서론
- 1.2 문제 기술
- 1.2.1 최적화에 대한 대안: 앙상블과 한계화
- 1.2.2 다중 목적에 대한 최적화
- 1.3 블랙박스 하이퍼파라미터 최적화
- 1.3.1 모델 프리 블랙박스 최적화 방법
- 1.3.2 베이지안 최적화
- 1.4 다중 충실도 최적화
- 1.4.1 조기 종료를 위한 학습 곡선 기반의 예측
- 1.4.2 밴딧 기반 알고리듬 선택 방법
- 1.4.3 충실도의 적응적 선택
- 1.5 AutoML에의 응용
- 1.6 미해결 문제와 미래 연구 방향
- 1.6.1 벤치마크와 비교 가능성
- 1.6.2 그래디언트 기반 최적화
- 1.6.3 확장성
- 1.6.4 과적합과 일반화
- 1.6.5 임의 크기의 파이프라인 구축
- 2장. 메타러닝
- 2.1 서론
- 2.2 모델 평가로부터 학습
- 2.2.1 작업 독립 권장
- 2.2.2 설정 공간 설계
- 2.2.3 설정 전이
- 2.2.4 학습 곡선
- 2.3 작업 속성으로부터 학습
- 2.3.1 메타 - 특성
- 2.3.2 메타 - 특성 학습
- 2.3.3 유사 작업으로부터 예열 시작 최적화
- 2.3.4 메타모델
- 2.3.5 파이프라인 합성
- 2.3.6 조정할 것인가, 조정하지 않을 것인가
- 2.4 사전 모델로부터 학습
- 2.4.1 전이학습
- 2.4.2 신경망으로 메타러닝
- 2.4.3 소수 사례 학습
- 2.4.4 지도학습을 넘어서
- 2.5 결론
- 3장. 신경망 구조 탐색
- 3.1 서론
- 3.2 탐색 공간
- 3.3 탐색 전략
- 3.4 성과 추정 전략
- 3.5 미래 방향
- 2부. AutoML Systems
- 4장. 오토웨카: 자동 모델 선택과 웨카를 활용한 하이퍼파라미터 최적화
- 4.1 서론
- 4.2 사전 준비
- 4.2.1 모델 선택
- 4.2.2 하이퍼파라미터 최적화
- 4.3 결합 알고리듬 선택과 하이퍼파라미터
- 4.3.1 순차적 모델 기반 알고리듬 구성
- 4.4 오토웨카
- 4.5 실험 평가
- 4.5.1 베이스라인 방법
- 4.5.2 검증 성과 결과
- 4.5.3 테스트 성과 결과
- 4.6 결론
- 4.6.1 커뮤니티 채택
- 5장. 하이퍼옵트 사이킷런
- 5.1 서론
- 5.2 배경: 최적화를 위한 하이퍼옵트
- 5.3 검색 문제로서 사이킷런 모델 선택
- 5.4 사용 예제
- 5.5 실험
- 5.6 논의와 미래 연구
- 5.7 결론
- 6장. 오토 사이킷런: 효율적이고 강건한 자동머신러닝
- 6.1 서론
- 6.2 CASH 문제로서의 AutoML
- 6.3 AutoML의 효율성과 강건성을 향상시키기 위한 새로운 방법
- 6.3.1 좋은 머신러닝 프레임워크를 찾기 위한 메타러닝
- 6.3.2 최적화 동안 평가된 모델의 자동 앙상블 구축
- 6.4 현실적인 AutoML 시스템
- 6.5 오토 사이킷런의 오토웨카와 하이퍼옵트 사이킷런과의 비교
- 6.6 AutoML 개선안의 평가
- 6.7 오토 사이킷런 구성 요소의 세부 분석
- 6.8 논의와 결론
- 6.8.1 논의
- 6.8.2 사용법
- 6.8.3 PoSH 오토 사이킷런의 확장
- 6.8.4 결론과 미래 연구
- 7장. 딥신경망의 자동 튜닝
- 7.1 서론
- 7.2 오토넷 1.0
- 7.3 오토넷 2.0
- 7.4 실험
- 7.4.1 오토넷 10과 오토 사이킷런의 베이스라인 평가
- 7.4.2 AutoML 경연 데이터셋에 대한 결과
- 7.4.3 오토넷 10과 20의 비교
- 7.5 결론
- 8장. TROP: 자동머신러닝을 위한 트리 기반 파이프라인 최적화 도구
- 8.1 서론
- 8.2 방법
- 8.2.1 머신러닝 파이프라인 연산자
- 8.2.2 트리 기반 파이프라인 구축
- 8.2.3 트리 기반 파이프라인 최적화
- 8.2.4 벤치마크 데이터
- 8.3 결과
- 8.4 결론과 미래 연구
- 9장. 자동 통계 전문가 시스템
- 9.1 서론
- 9.2 자동 통계 전문가의 기본 해부
- 9.2.1 관련 연구
- 9.3 시계열 데이터에 대한 자동 통계 전문가 시스템
- 9.3.1 커널에 대한 문법
- 9.3.2 탐색과 평가 절차
- 9.3.3 자연어 설명 생성
- 9.3.4 인간과의 비교
- 9.4 다른 자동 통계 전문가 시스템
- 9.4.1 핵심 구성 요소
- 9.4.2 설계에 있어서 풀어야 할 과제들
- 9.5 결론
- 10장. 2015-2018 AutoML 챌린지 시리즈에 관한 분석
- 10.1 서론
- 10.2 문제 설정과 개요
- 10.2.1 문제의 범위
- 10.2.2 완전 모델 선택
- 10.2.3 하이퍼파라미터 최적화
- 10.2.4 모델 탐색 전략
- 10.3 데이터
- 10.4 챌린지 프로토콜
- 10.4.1 시간 예산과 계산 자원
- 10.4.2 점수 척도
- 10.4.3 2015/2016 챌린지 라운드와 단계
- 10.4.4 2018 챌린지 단계
- 10.5 결과
- 10.5.1 2015/2016 챌린지에서 얻은 점수
- 10.5.2 2018 챌린지에서 얻은 점수
- 10.5.3 데이터셋/작업의 어려움
- 10.5.4 하이퍼파라미터 최적화
- 10.5.5 메타러닝
- 10.5.6 챌린지에서 사용된 방법들
- 10.6 논의
- 10.7 결론
- 부록 I. AutoML 최신 동향
- 부록 II. 메타러닝과 AutoML