책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
https://github.com/AcornPublishing/algorithms-decision
요약
많은 의사결정은 불확실한 상황에서 이뤄진다. 이 책은 계산 관점에서 이러한 문제를 바라보고 문제를 해결하는 다양한 의사결정 모델의 이론을 설명한다. 책은 각각 결과의 불확실성, 모델의 불확실성, 상태의 불확실성, 상호작용의 불확실성이라는 네 가지 불확실성을 정의한다. 그리고 이 책은 계산 관점에서 이러한 문제를 바라보고 문제를 해결하는 다양한 의사결정 모델의 이론을 설명하며, 각각 결과의 불확실성, 모델의 불확실성, 상태의 불확실성, 상호작용의 불확실성이라는 네 가지 불확실성을 정의한다. 그리고 이러한 불확실을 극복하고 ’현명한’ 결정을 내리기 위한 각 전략과 그 전략의 이론적 설명을 곁들인다.
1부에서 추론부터 살펴보는데, 나이브 베이지, 신뢰 전파, 우도 가중치 샘플링, 가우시안 모델을 사용한 추론을 설명하고 매개변수 학습에서 최대우도 매개변수 학습과 베이지안 매개변수 학습, 비모수적 학습, 결측치를 가진 데이터를 사용한 학습 등을 다룬다. 2부에서는 구조 학습으로 넘어가서 정확한 해의 추구와 함께 근사 가치 함수, 온라인 계획, 전략 검색, 액터-크리틱 기법을 설명한다. 3부는 모델 불확실성에 중점을 두고 있으며, 4부는 상태 불확실성에 중점을 두고 이산 상태분포와 칼만 필터, 입자 필터 등을 살펴본다. 5부는 다중 에이전트를 가진 문제로 확장되며 단순 게임으로부터 내쉬 균형, 그래디언트 상승 등을 살핀다. 부록에서는 앞서 설명한 여러 개념에 대한 정의부터 간략한 증명을 제공한다.
추천의 글
"그 놀라운 명확성, 범위, 깊이로 인해 이 책은 배울 때와 가르칠 때 모두 훌륭한 책이다. 여러 현대 기법의 문을 열면서도 통계적 및 수학적 이론에 견고하게 뿌리를 두고 있어 참으로 특출나다."
"다루는 주제들이 좋다. 고전적 접근 방식과 최근 동향을 훌륭하게 조합했다. 강화 학습을 가르치는 데 주요 교재가 될 것이다."
이 책에서 다루는 내용
◆ 운영 연구, 컴퓨터 과학, 제어 알고리듬 연결
◆ 복잡하고 급변하는 분야의 기본 사항
◆ 모든 알고리듬에 대해 학생이 직접 실행할 수 있는 줄리아(Julia) 코드 제공
이 책의 구성
자동화된 의사결정 시스템 또는 의사결정 지원 시스템은 항공기 충돌 회피부터 유방암 스크리닝까지 다양한 응용 분야에서 사용되며, 다양한 불확실성 요소를 고려해 신중하게 여러 목표의 균형을 잡아야 한다. 이 교재는 불확실성하에서의 의사결정을 위한 알고리듬을 광범위하게 소개하고, 기본적인 수학적 문제 정의와 이를 해결하는 알고리듬에 대해 다룬다.
상세이미지
목차
목차
- 1장. 서론
- 1.1 의사결정
- 1.2 응용
- 1.2.1 항공기 충돌 회피
- 1.2.2 자율주행
- 1.2.3 유방암 검진
- 1.2.4 금융 소비 및 포트폴리오 배분
- 1.2.5 분산 산불 감시
- 1.2.6 화성 과학 탐사
- 1.3 방법
- 1.3.1 명시적 프로그래밍
- 1.3.2 지도 학습
- 1.3.3 최적화
- 1.3.4 계획
- 1.3.5 강화학습
- 1.4 연혁
- 1.4.1 경제학
- 1.4.2 심리학
- 1.4.3 신경과학
- 1.4.4 컴퓨터 과학
- 1.4.5 공학
- 1.4.6 수학
- 1.4.7 운용 과학
- 1.5 사회적 영향
- 1.6 개요
- 1.6.1 확률적 추론
- 1.6.2 순차적 문제
- 1.6.3 모델 불확실성
- 1.6.4 상태 불확실성
- 1.6.5 다중 에이전트 시스템
- 1부. 확률적 추론
- 2장. 표현식
- 2.1 신뢰와 확률의 정도
- 2.2 확률 분포
- 2.2.1 이산 확률 분포
- 2.2.2 연속 확률 분포
- 2.3 결합 분포
- 2.3.1 이산 결합 분포
- 2.3.2 연속 결합 분포
- 2.4 조건부 분포
- 2.4.1 이산 조건부 모델
- 2.4.2 조건부 가우스 모델
- 2.4.3 선형 가우스 모델
- 2.4.4 조건부 선형 가우스 모델
- 2.4.5 시그모이드 모델
- 2.4.6 결정론적 변수
- 2.5 베이즈 네트워크
- 2.6 조건부 독립
- 2.7 요약
- 2.8 연습 문제
- 3장. 추론
- 3.1 베이즈 네트워크에서의 추론
- 3.2 나이브 베이즈 모델에서의 추론
- 3.3 합-곱 변수 제거
- 3.4 신뢰 전파
- 3.5 계산 복잡도
- 3.6 직접 샘플링
- 3.7 우도 가중 샘플링
- 3.8 깁스 샘플링
- 3.9 가우시안 모델의 추론
- 3.10 요약
- 3.11 연습 문제
- 4장. 매개 변수 학습
- 4.1 최대 우도 매개 변수 학습
- 4.1.1 범주형 분포에 대한 최대 우도 추정
- 4.1.2 가우스 분포에 대한 최대 우도 추정
- 4.1.3 베이지안 네트워크에 대한 최대 우도 추정
- 4.2 베이지안 매개 변수 학습
- 4.2.1 이진 분포를 위한 베이지안 학습
- 4.2.2 범주형 분포에서 베이지안 학습
- 4.3 비매개 변수적 학습
- 4.4 누락된 데이터로 학습
- 4.4.1 결측치 처리
- 4.4.2 기댓값 최대화
- 4.5 요약
- 4.6 연습 문제
- 5장. 구조 학습
- 5.1 베이지안 네트워크 스코어링
- 5.2 방향성 그래프 검색
- 5.3 마르코프 등가 부류
- 5.4 부분 방향성 그래프 검색
- 5.5 요약
- 5.6 연습 문제
- 6장. 단순 결정
- 6.1 합리적 선호에 대한 제약
- 6.2 효용 함수
- 6.3 효용 도출
- 6.4 최대 기대 효용 원리
- 6.5 의사결정 네트워크
- 6.6 정보의 가치
- 6.7 비합리성
- 6.8 요약
- 6.9 연습 문제
- 2부. 순차 문제
- 7장. 정확한 해 방법
- 7.1 MDP
- 7.2 정책 평가
- 7.3 가치 함수 정책
- 7.4 정책 반복
- 7.5 가치 반복
- 7.6 비동기 가치 반복
- 7.7 선형 프로그램 공식화
- 7.8 2차 보상 선형 시스템
- 7.9 요약
- 7.10 연습 문제
- 8장. 근사 가치 함수
- 8.1 매개 변수적 표현
- 8.2 최근접 이웃
- 8.3 커널 평활화
- 8.4 선형 보간
- 8.5 심플렉스 보간
- 8.6 선형 회귀
- 8.7 신경망 회귀
- 8.8 요약
- 8.9 연습 문제
- 9장. 온라인 계획
- 9.1 후향적 기간 계획
- 9.2 롤아웃을 활용한 예측
- 9.3 순방향 검색
- 9.4 분기 및 제한
- 9.5 희소 샘플링
- 9.6 몬테 카를로 트리 검색
- 9.7 휴리스틱 검색
- 9.8 레이블된 휴리스틱 검색
- 9.9 개방 루프 계획
- 9.9.1 결정론적 모델 예측 제어
- 9.9.2 안정적 모델 예측 제어
- 9.9.3 다중 예상 모델 예측 제어
- 9.10 요약
- 9.11 연습 문제
- 10장. 정책 검색
- 10.1 근사 정책 평가
- 10.2 지역 검색
- 10.3 유전자 알고리듬
- 10.4 교차 엔트로피 방법
- 10.5 진화 전략
- 10.6 등방성 진화 전략
- 10.7 요약
- 10.8 연습 문제
- 11장. 정책 그래디언트 추정
- 11.1 유한 차분
- 11.2 회귀 그래디언트
- 11.3 우도 비율
- 11.4 리워드 투 고
- 11.5 기준선 차감
- 11.6 요약
- 11.7 연습 문제
- 12장. 정책 그래디언트 최적화
- 12.1 그래디언트 상승 갱신
- 12.2 제한된 그래디언트 갱신
- 12.3 자연 그래디언트 갱신
- 12.4 신뢰 영역 갱신
- 12.5 클램프된 대리 목적 함수
- 12.6 요약
- 12.7 연습 문제
- 13장. 액터-크리틱 기법
- 13.1 액터-크리틱
- 13.2 일반화된 어드밴티지 추정
- 13.3 결정론적 정책 그래디언트
- 13.4 몬테 카를로 트리 검색을 사용한 액터-크리틱
- 13.5 요약
- 13.6 연습 문제
- 14장. 정책 검증
- 14.1 성능 척도 평가
- 14.2 희귀 사건 시뮬레이션
- 14.3 견고성 분석
- 14.4 거래 분석
- 14.5 적대적 분석
- 14.6 요약
- 14.7 연습 문제
- 3부. 모델 불확실성
- 15장. 탐색과 활용
- 15.1 강도 문제
- 15.2 베이지안 모델 추정
- 15.3 무방향 탐색 전략
- 15.4 방향 탐색 전략
- 15.5 최적 탐색 전략
- 15.6 여러 상태로 탐색
- 15.7 요약
- 15.8 연습 문제
- 16장. 모델 기반 기법
- 16.1 최대 우도 모델
- 16.2 갱신 체계
- 16.2.1 전체 갱신
- 16.2.2 무작위 갱신
- 16.2.3 우선 갱신
- 16.3 탐색
- 16.4 베이지안 기법
- 16.5 베이즈-적응-마르코프 결정 프로세스
- 16.6 사후 샘플링
- 16.7 요약
- 16.8 연습 문제
- 17장. 비모델 기법
- 17.1 평균 증분 추정
- 17.2 Q-러닝
- 17.3 Sarsa
- 17.4 자격 추적
- 17.5 보상 형성
- 17.6 행동 가치 함수 근사
- 17.7 경험 재생
- 17.8 요약
- 17.9 연습 문제
- 18장. 모방 학습
- 18.1 행동 복제
- 18.2 데이터셋 집계
- 18.3 확률적 혼합 반복 학습
- 18.4 최대 마진 역강화학습
- 18.5 최대 엔트로피 역강화학습
- 18.6 생성적 적대 모방 학습
- 18.7 요약
- 18.8 연습 문제
- 4부. 상태 불확실성
- 19장. 신뢰
- 19.1 신뢰 초기화
- 19.2 이산 상태 필터
- 19.3 칼만 필터
- 19.4 확장 칼만 필터
- 19.5 무향 칼만 필터
- 19.6 입자 필터
- 19.7 입자 주입
- 19.8 요약
- 19.9 연습 문제
- 20장. 정확한 신뢰-상태 계획
- 20.1 신뢰-상태 마르코프 결정 프로세스
- 20.2 조건부 계획
- 20.3 알파 벡터
- 20.4 가지치기
- 20.5 가치 반복
- 20.6 선형 정책
- 20.7 요약
- 20.8 연습 문제
- 21장. 오프라인 신뢰-상태 계획
- 21.1 완전히 관찰 가능한 가치 근사
- 21.2 빠른 정보 범위
- 21.3 빠른 하한
- 21.4 점 기반 가치 반복
- 21.5 무작위 점 기반 가치 반복
- 21.6 톱니 상한
- 21.7 점 선택
- 21.8 톱니 휴리스틱 검색
- 21.9 삼각 분할 함수
- 21.10 요약
- 21.11 연습 문제
- 22장. 온라인 신뢰-상태 계획
- 22.1 롤아웃을 통한 예측
- 22.2 순방향 검색
- 22.3 분기 및 제한
- 22.4 희소 샘플링
- 22.5 몬테 카를로 트리 검색
- 22.6 결정된 희소 트리 검색
- 22.7 갭 휴리스틱 검색
- 22.8 요약
- 22.9 연습 문제
- 23장. 컨트롤러 추상화
- 23.1 컨트롤러
- 23.2 정책 반복
- 23.3 비선형 프로그래밍
- 23.4 그래디언트 상승
- 23.5 요약
- 23.6 연습 문제
- 5부. 다중 에이전트 시스템
- 24장. 다중 에이전트 추론
- 24.1 단순 게임
- 24.2 대응 모델
- 24.2.1 최선의 대응
- 24.2.2 소프트맥스 대응
- 24.3 우월 전략 균형
- 24.4 내시 균형
- 24.5 상관 균형
- 24.6 반복 최상 대응
- 24.7 계층적 소프트맥스
- 24.8 가상 플레이
- 24.9 그래디언트 상승
- 24.10 요약
- 24.11 연습 문제
- 25장. 순차적 문제
- 25.1 마르코프 게임
- 25.2 대응 모델
- 25.2.1 최상 대응
- 25.2.2 소프트맥스 대응
- 25.3 내시 균형
- 25.4 가상 플레이
- 25.5 그래디언트 상승
- 25.6 내시 Q-러닝
- 25.7 요약
- 25.8 연습 문제
- 26장. 상태 불확실성
- 26.1 부분 관찰 가능 마르코프 게임
- 26.2 정책 평가
- 26.2.1 조건부 계획 평가
- 26.2.2 확률적 컨트롤러 평가
- 26.3 내시 균형
- 26.4 동적 프로그래밍
- 26.5 요약
- 26.6 연습 문제
- 27장. 협업 에이전트
- 27.1 부분적으로 관찰 가능한 분산형 마르코프 결정 프로세스
- 27.2 하위 부류
- 27.3 동적 프로그래밍
- 27.4 반복 최상 응답
- 27.5 휴리스틱 검색
- 27.6 비선형 계획법
- 27.7 요약
- 27.8 연습 문제
- 부록
- 부록 A. 수학적 개념
- A.1 측도 공간
- A.2 확률 공간
- A.3 측도 공간
- A.4 노름 벡터 공간
- A.5 양의 정부호
- A.6 볼록성
- A.7 정보 내용
- A.8 엔트로피
- A.9 교차 엔트로피
- A.10 상대 엔트로피
- A.11 그래디언트 상승
- A.12 테일러 확장
- A.13 몬테 카를로 추정
- A.14 중요도 샘플링
- A.15 수축 매핑
- A.16 그래프
- 부록 B. 확률 분포
- 부록 C. 계산 복잡도
- C.1 점근적 표기법
- C.2 시간 복잡도 부류
- C.3 공간 복잡도 부류
- C.4 결정 가능성
- 부록 D. 신경 표현
- D.1 신경망
- D.2 피드포워드 네트워크
- D.3 매개 변수 정규화
- D.4 컨볼루션 신경망
- D.5 순환 네트워크
- D.6 오토인코더 네트워크
- D.7 적대적 네트워크
- 부록 E. 검색 알고리듬
- E.1 검색 문제
- E.2 검색 그래프
- E.3 순방향 검색
- E.4 분기 및 제한
- E.5 동적 프로그래밍
- E.6 휴리스틱 검색
- 부록 F. 문제
- F.1 육각 세계 문제
- F.2 2048
- F.3 카트-폴
- F.4 산악 차량
- F.5 단순 레귤레이터
- F.6 항공기 충돌 회피
- F.7 우는 아기
- F.8 기계 교체
- F.9 캐치볼
- F.10 죄수의 딜레마
- F.11 가위-바위-보
- F.12 여행자의 딜레마
- F.13 포식자-먹이 육각 세계
- F.14 다중 보호자 우는 아기
- F.15 협업 포식자-먹이 육각 세계
- 부록 G. 줄리아
- G.1 유형
- G.1.1 부울
- G.1.2 숫자
- G.1.3 문자열
- G.1.4 기호
- G.1.5 벡터
- G.1.6 행렬
- G.1.7 튜플
- G.1.8 명명된 튜플
- G.1.9 딕셔너리
- G.1.10 복합 유형
- G.1.11 추상 유형
- G.1.12 모수적 유형
- G.2 함수
- G.2.1 명명된 함수
- G.2.2 익명 함수
- G.2.3 호출 가능 객체
- G.2.4 선택적 인수
- G.2.5 키워드 인수
- G.2.6 디스패치
- G.2.7 스플래팅
- G.3 제어 흐름
- G.3.1 조건부 평가
- G.3.2 루프
- G.3.3 반복자
- G.4 패키지
- G.4.1 그래프.jl
- G.4.2 분포.jl
- G.4.3 JuMP.jl
- G.5 편의 함수
- 참고 문헌
- 찾아보기