책 소개
요약
로페즈 데 프라도 박사의 저서 『실전 금융 머신러닝 완벽 분석』의 후속작으로, 개념적으로는 자산운용 일반에도 적용할 수 있으며, 퀀트 매니저와 퀀트 분석가에게 지침이 될 수 있는 책이다. 머신러닝의 금융 응용에 대한 아이디어를 제시하며, 『실전 금융 머신러닝 완벽 분석』을 이해하기 위한 기초 개념을 더 자세히 설명하고 관련된 최근의 연구를 추가했다.
이 책의 구성
금융 공분산 행렬이 잡음을 갖고, 이들은 회귀 분석을 하거나 최적 포트폴리오를 계산하기 이전에 정제돼야 한다는 것을 배울 것이다(2장). 상관관계가 상호 연관성에 대한 매우 좁은 정의이고, 다양한 정보이론 척도가 더 통찰력이 있다는 것을 배울 것이다(3장). 기저(basis)를 변경하지 않고 공간의 차원을 축소하는 직관적인 방법을 배울 것이다. 주성분 분석(PCA, Principal Component Analysis)과 달리 머신러닝 기반의 차원 축소법은 직관적 결과를 제공한다(4장). 불가능한 고정 기간 예측(fixed-horizon prediction)을 목적으로 하기보다는 높은 정확도로 풀 수 있는 금융 예측 문제를 제안하는 대안적 방법들을 배울 것이다(5장). 고전적 p-값에 대한 현대적 대안을 배우고(6장) 평균-분산 투자 포트폴리오에 만연한 불안정성 문제를 해결하는 법을 배울 것이다(7장). 그리고 연구자의 발견이 다중 테스트의 결과로 거짓일 확률을 평가하는 법을 배울 것이다(8장). 만약 자산 운용 산업 또는 금융 학문에서 일을 한다면 이 책은 바로 당신을 위한 것이다.
목차
목차
- 1장. 들어가며
- 1.1 동기 부여
- 1.2 이론이 중요하다
- 1.2.1 교훈1: 이론이 필요하다
- 1.2.2 교훈2: 머신러닝은 이론을 발견하는 것을 돕는다
- 1.3 어떻게 과학자들이 머신러닝을 이용하는가
- 1.4 두 가지 형태의 과적합
- 1.4.1 훈련셋 과적합
- 1.4.2 테스트셋 과적합
- 1.5 개요
- 1.6 청중
- 1.7 다섯 가지 만연한 금융 머신러닝에 대한 잘못된 개념
- 1.7.1 머신러닝은 성배 대 머신러닝은 무용지물
- 1.7.2 머신러닝은 블랙박스
- 1.7.3 금융은 머신러닝을 적용하기에는 불충분한 데이터를 갖고 있다
- 1.7.4 금융에서 신호 대 잡음 비율이 너무 낮다
- 1.7.5 금융에서 과적합의 위험은 너무 크다
- 1.8 금융 리서치의 미래
- 1.9 자주 물어 보는 질문들
- 1.10 결론
- 1.11 연습문제
- 2장. 잡음 제거와 주음 제거
- 2.1 동기 부여
- 2.2 마르첸코–파스퇴르 정리
- 2.3 신호가 있는 랜덤 행렬
- 2.4 마르첸코–파스퇴르 PDF 적합화
- 2.5 잡음 제거
- 2.5.1 상수 잔차 고유값 방법
- 2.5.2 타깃 축소
- 2.6 주음 제거
- 2.7 실험 결과
- 2.7.1 최소 분산 포트폴리오
- 2.7.2 최대 샤프 비율 포트폴리오
- 2.8 결론
- 2.9 연습문제
- 3장. 거리 척도
- 3.1 동기 부여
- 3.2 상관계수 기반 척도
- 3.3 한계와 결합 엔트로피
- 3.4 조건부 엔트로피
- 3.5 쿨백 - 라이블러 발산
- 3.6 교차 엔트로피
- 3.7 상호 정보
- 3.8 정보 변분
- 3.9 이산화
- 3.10 두 분할 간의 거리
- 3.11 실험 결과
- 3.11.1 무관계
- 3.11.2 선형관계
- 3.11.3 비선형관계
- 3.12 결론
- 3.13 연습문제
- 4장. 최적 군집화
- 4.1 동기 부여
- 4.2 근접성 행렬
- 4.3 군집화 종류
- 4.4 군집의 수
- 4.4.1 관측 행렬
- 4.4.2 기본 군집화
- 4.4.3 상위 수준 군집화
- 4.5 실험 결과
- 4.5.1 랜덤 블록 상관관계 행렬 생성
- 4.5.2 군집의 수
- 4.6 결론
- 4.7 연습문제
- 5장. 금융 레이블
- 5.1 동기 부여
- 5.2 고정 - 기간 방법
- 5.3 삼중 배리어 방법
- 5.4 추세 검색 방법
- 5.5 메타 레이블링
- 5.5.1 기대 샤프 비율에 의한 베팅 크기
- 5.5.2 앙상블 베팅 크기
- 5.6 실험 결과
- 5.7 결론
- 5.8 연습문제
- 6장. 특성 중요도 분석
- 6.1 동기 부여
- 6.2 p - 값
- 6.2.1 p 값의 몇 가지 결함
- 6.2.2 수치 예제
- 6.3 특성 중요도
- 6.3.1 평균 감소 불순도
- 6.3.2 평균 감소 정확도
- 6.4 확률 가중 정확도
- 6.5 대체 효과
- 6.5.1 직교화
- 6.5.2 군집 특성 중요도
- 6.6 실험 결과
- 6.7 결론
- 6.8 연습문제
- 7장. 포트폴리오 구축
- 7.1 동기 부여
- 7.2 볼록 포트폴리오 최적화
- 7.3 조건 수
- 7.4 마코위츠의 저주
- 7.5 공분산 불안정성의 원천으로서의 신호
- 7.6 중첩 군집 최적화 알고리즘
- 7.6.1 상관 군집화
- 7.6.2 군집 내 비중
- 7.6.3 군집 간 비중
- 7.7 실험 결과
- 7.7.1 최소 분산 포트폴리오
- 7.7.2 최대 샤프 비율 포트폴리오
- 7.8 결론
- 7.9 연습문제
- 8장. 테스트셋 과적합
- 8.1 동기 부여
- 8.2 정밀도와 재현율
- 8.3 다중 테스트하의 정밀도와 재현율
- 8.4 샤프 비율
- 8.5 ‘거짓 전략’ 정리
- 8.6 실험 결과
- 8.7 축소 샤프 비율
- 8.7.1 유효 시행 수
- 8.7.2 시행 간 분산
- 8.8 군별 오차율
- 8.8.1 시다크 조정
- 8.8.2 다중 테스트하의 1종 오류
- 8.8.3 다중 테스트하의 2종 오류
- 8.8.4 1종과 2종 오류 간의 상호작용
- 8.9 결론
- 8.10 연습문제
- 부록 A. 합성 데이터 테스트
- 부록 B. ‘거짓 전략’ 정리의 증명