금융 대체 데이터 [투자자, 트레이더, 리스크 매니저를 위한 안내서]
- 원서명The Book of Alternative Data: A Guide for Investors, Traders and Risk Managers (ISBN 9781119601791)
- 지은이알렉산더 데네브(Alexander Denev), 사이드 아멘(Saeed Amem)
- 옮긴이이기홍
- ISBN : 9791161757179
- 35,000원
- 2023년 01월 31일 펴냄
- 페이퍼백 | 552쪽 | 188*235mm
- 시리즈 : 금융 퀀트 머신러닝 융합
책 소개
요약
기존의 테이블 형태로 정형화된 데이터를 뛰어 넘어 비정형화된 데이터와 함께 최근 기술의 발전에 따라 더욱 활성화되고 있는 텍스트, 이미지 및 음성 등을 포함한 빅데이터 시대에 번성하는 각종 대체 데이터가 금융 분야에서 어떻게 사용돼야 하고, 현재 어떻게 사용되고 있는가에 대한 소개와 지침 및 실전 예를 제시하는 최초의 책이다. 이에 따라 본서는 머신러닝/딥러닝의 금융 특히 투자/자산운용과의 융합을 더욱 공고히 하는 데에 기여하고, 이에 대한 독자들의 이해를 높이는 최적의 도서가 될 것이다.
추천의 글
“대체 데이터는 오늘날 투자 운용업계에서 가장 뜨거운 주제다. 글로벌 경제 성장을 실시간으로 예측하는 데 사용하든, 분기별 보고서에서 제공하는 것보다 더 세분화된 회사의 내막을 분석하는 데 사용하든, 주식 시장의 행동을 더 잘 이해하기 위해 사용하든, 대체 데이터는 자산 운용 부문의 모든 사람이 포착해야 할 사항이다. 알렉산더 데네브와 사이드 아멘은 심지어 여전히 파이썬을 피하는 것이 가장 좋은 것이라고 생각하는 사람들에게도 기술적, 이론적 함정이 많은 난해한 주제를 안내할 것이다.”
— 로빈 위글즈워스(Robin Wigglesworth)/
글로벌 금융 특파원, 「파이낸셜 타임스」
“대체 데이터에 대해 시의적절하고 포괄적이며 접근하기 쉬운 토론을 만들어준 저자들에게 축하를 전한다. 우리가 21세기로 더 나아가면서, 이 책은 빠르게 이 주제에 대해 필수로 참고해야 할 연구가 될 것이다.”
— 데이비드 핸드(David Hand)/
런던 임페리얼 칼리지 교수
“지난 10년 동안 대체 데이터는 일시적 정보 독점 추구의 중심이 됐다. 그러나 빈번한 사용에도 불구하고 가치를 추출하는 데 필요한 엔드 투 엔드 파이프라인에 대해서는 거의 쓰이지 않았다. 이 책은 머신러닝 방법과 데이터 소스에 대한 실용적인 개요뿐만 아니라 결과에 매핑되는 모델과 함께 데이터 수집, 준비 및 전처리에 많은 중요성을 부여해 누락 사항을 채운다. 저자들은 방법론만을 고려하는 것이 아니라 통찰력 있는 사례 연구와 실제 사례를 제공하고 비용 편익 분석의 중요성을 강조한다. 대체 데이터에서 가치를 추출하기 위해 합리적인 통찰력과 깊은 개념적 이해를 제공하고 있으며, 이들은 이러한 기술을 거래의 핵심에 성공적으로 포함시키려면 필수적이다.”
— 스티븐 로버츠(Stephen Roberts)/
영국 옥스퍼드대학교 머신러닝 교수 겸 옥스퍼드-맨 계량금융연구소 소장
“진정한 투자의 초과 성과는 데이터와 머신러닝과 슈퍼컴퓨팅의 삼자로부터 나온다. 알렉산더 데네브와 사이드 아멘은 대체 데이터에 대한 최초의 종합적인 설명서를 저술했으며, 이는 정형화된 데이터 세트에 의해서 포착되지 않는 알파의 소스를 밝힌다. 이 책의 내용에 익숙하지 않은 자산 운용사들은 투자자들에게 부과하는 수수료를 벌지 못하고 있을 것이다.”
— 마르코스 로페즈 데 프라도(Marcos Lopes de Prado)/
코넬대학 교수 겸 True Positive Technologies LP의 CIO
“알렉산더와 사이드는 중요한 주제에 대해 중요한 책을 저술했다. 나는 매일 대체 데이터에 간여하고 있지만, 여전히 책에 있는 관점을 즐기고, 많은 것을 배웠다. 대체 데이터의 힘을 활용하고 함정을 피하고자 하는 모든 사람에게 이 책을 적극 추천한다.”
— 젠스 노르빅(Jens Nordvig)/
Extante Data의 창립자 겸 CEO
목차
목차
- 1장. 대체 데이터: 현황
- 1.1 서론
- 1.2 대체 데이터란 무엇인가?
- 1.3 대체 데이터의 세분화
- 1.4 많은 데이터 대 빅데이터
- 1.5 왜 대체 데이터인가?
- 1.6 누가 대체 데이터를 사용하는가?
- 1.7 전략의 용량과 대체 데이터
- 1.8 대체 데이터의 차원
- 1.9 누가 대체 데이터 공급업자인가?
- 1.10 자산 운용의 대체 데이터셋 이용
- 1.11 결론
- 2장. 대체 데이터의 가치
- 2.1 서론
- 2.2 투자 가치의 감쇠
- 2.3 데이터 시장
- 2.4 데이터의 금전적 가치(1부)
- 2.4.1 비용 가치
- 2.4.2 시장 가치
- 2.4.3 경제적 가치
- 2.5 백테스트를 사용하는 경우와 사용하지 않는 경우의 (대체) 데이터의 평가
- 2.5.1 시스템 투자자
- 2.5.2 재량적 투자자
- 2.5.3 위험 관리자
- 2.6 데이터의 금전적 가치(2부)
- 2.6.1 구매자의 관점
- 2.6.2 판매자의 관점
- 2.7 성숙한 대체 데이터셋의 이점
- 2.8 요약
- 3장. 대체 데이터 위험과 도전 과제
- 3.1 데이터의 법적 측면
- 3.2 대체 데이터 사용의 위험
- 3.3 대체 데이터 사용의 어려움
- 3.3.1 엔티티 매칭
- 3.3.2 결측 데이터
- 3.3.3 데이터의 정형화
- 3.3.4 이상치의 처리
- 3.4 데이터의 집계
- 3.5 요약
- 4장. 머신러닝 기법
- 4.1 서론
- 4.2 머신러닝: 정의와 기법
- 4.2.1 편향, 분산과 잡음
- 4.2.2 교차 검증
- 4.2.3 머신러닝 소개
- 4.2.4 인기 있는 지도 머신러닝 기법들
- 4.2.5 군집화 기반 비지도 머신러닝 기법
- 4.2.6 군집을 제외한 다른 비지도 머신러닝 기법
- 4.2.7 머신러닝 라이브러리
- 4.2.8 신경망과 딥러닝
- 4.2.9 가우시안 프로세스
- 4.3 어떤 기법을 선택할 것인가?
- 4.4 머신러닝 기법의 가정과 한계
- 4.4.1 인과관계
- 4.4.2 비정상성
- 4.4.3 제한된 정보 세트
- 4.4.4 알고리듬 선택
- 4.5 이미지의 정형화
- 4.5.1 특성과 특성 탐지 알고리듬
- 4.5.2 이미지 분률을 위한 딥러닝과 CNN
- 4.5.3 다른 데이터셋을 이용한 위성 이미지 데이터 증강
- 4.5.4 이미지 도구들
- 4.6 자연어 처리(NLP)
- 4.6.1 자연어 처리(NLP)란 무엇인가?
- 4.6.2 정규화
- 4.6.3 단어 임베딩의 생성: 단어 주머니
- 4.6.4 단어 임베딩의 생성: Word2Vec과 이를 넘어서
- 4.6.5 감성 분석과 분류 문제로서의 NLP 작업
- 4.6.6 토픽 모델링
- 4.6.7 NLP의 다양한 도전 과제
- 4.6.8 상이한 언어와 상이한 텍스트
- 4.6.9 음성 NLP
- 4.6.10 NLP 도구
- 4.7 요약
- 5장. 대체 데이터 사용 배후의 프로세스
- 5.1 서론
- 5.2 대체 데이터 작업의 단계
- 5.2.1 1단계: 비전과 전략 설정
- 5.2.2 2단계: 적절한 데이터셋의 식별
- 5.2.3 3단계: 벤더에 대한 실사 수행
- 5.2.4 4단계: 위험의 사전 평가
- 5.2.5 5단계: 신호 존재의 사전 평가
- 5.2.6 6단계: 데이터 온보딩
- 5.2.7 7단계: 데이터 전처리
- 5.2.8 8단계: 신호 추출
- 5.2.9 9단계: 구현 (또는 프로덕션에서 배포)
- 5.2.10 유지 관리 프로세스
- 5.3 대체 데이터 사용을 위한 팀 구성
- 5.4 데이터 공급 업체
- 5.5 요약
- 6장. 팩터 투자
- 6.1 서론
- 6.1.1 CAPM
- 6.2 팩터 모델들
- 6.2.1 차익 거래 가격 결정 이론(APT)
- 6.2.2 파마-프렌치 3팩터 모델
- 6.2.3 카하트 모델
- 6.2.4 다른 접근법(데이터 마이닝)
- 6.3 횡단면 트레이딩 접근법과 시계열 트레이딩 접근법의 차이
- 6.4 팩터 투자가 필요한 이유
- 6.5 대체 데이터 입력을 사용한 스마트 베타 인덱스
- 6.6 ESG 팩터
- 6.7 직접과 간접 예측
- 6.8 요약
- 6.1 서론
- 7장. 결측 데이터: 배경
- 7.1 서론
- 7.2 결측 데이터 분류
- 7.2.1 결측 데이터 처리
- 7.3 결측 데이터 처리의 문헌 개요
- 7.3.1 Luengo et al.(2012)
- 7.3.2 Garcia-Laencina et al.(2010)
- 7.3.3 Grzymala-Busse et al.(2000)
- 7.3.4 Zou et al.(2005)
- 7.3.5 Jerez et al.(2010)
- 7.3.6 Farhangfar et al.(2008)
- 7.3.7 Kang et al.(2013)
- 7.4 요약
- 8장. 결측 데이터: 사례 연구
- 8.1 서론
- 8.2 사례 연구: 다변량 신용 부도 스왑 시계열의 결측 데이터 대체
- 8.2.1 결측 데이터 분류
- 8.2.2 대체 성과 척도
- 8.2.3 CDS 데이터와 테스트 데이터 생성
- 8.2.4 다중 대체 방법
- 8.2.5 결정론적 및 EOF 기반 기법
- 8.2.6 결과
- 8.3 사례 연구: 위성 이미지
- 8.4 요약
- 8.5 부록: MICE 절차에 대한 일반적 설명
- 8.6 부록: 8장에서 사용하는 소프트웨어 라이브러리
- 9장. 이상치(이상 징후)
- 9.1 서론
- 9.2 이상치 탐지, 분류 및 탐지 방법
- 9.3 시간적 구조
- 9.4 전역적 대 국지적 이상치, 점 이상치와 마이크로 군집
- 9.5 이상치 탐지 문제 설정
- 9.6 이상치 탐지 알고리듬의 상대 비교
- 9.7 이상치 설명 방법
- 9.7.1 Micenkova et al
- 9.7.2 Duan et al
- 9.7.3 Angiulli et al
- 9.8 사례 연구: 미연준 소통 인덱스상의 이상치 탐지
- 9.9 요약
- 9.10 부록
- 9.10.1 모델 기반 기법
- 9.10.2 거리 기반 기법
- 9.10.3 밀도 기반 기법
- 9.10.4 휴리스틱 기반 접근법
- 10장. 자동차 기본 데이터
- 10.1 서론
- 10.2 데이터
- 10.3 접근법 1: 간접 접근법
- 10.3.1 수행 단계
- 10.3.2 단계 1
- 10.4 접근법 2: 직접적 접근법
- 10.4.1 데이터
- 10.4.2 팩터 생성
- 10.4.3 팩터 성과
- 10.4.4 팩터 결과 세부 사항
- 10.5 가우스 프로세스 예제
- 10.6 요약
- 10.7 부록
- 10.7.1 회사 목록
- 10.7.2 재무제표 항목의 설명
- 10.7.3 사용한 비율
- 10.7.4 IHS Markit 데이터 특성
- 10.7.5 국가별 보고 지연
- 11장. 서베이와 크라우드소싱 데이터
- 11.1 서론
- 11.2 대체 데이터로서의 서베이 데이터
- 11.3 데이터
- 11.4 제품
- 11.5 사례 연구
- 11.6 서베이에 대한 기술적 고려 사항
- 11.7 크라우드소싱 애널리스트 추정치 서베이
- 11.8 알파 캡처 데이터
- 11.9 요약
- 11.10 부록
- 12장. 구매자 관리 지수
- 12.1 서론
- 12.2 PMI 성과
- 12.3 GDP 성장률 전망
- 12.4 금융시장에 미치는 영향
- 12.5 요약
- 13장. 인공위성 이미지와 항공 사진
- 13.1 서론
- 13.2 미국 수출 증가율 예측
- 13.3 소매업체를 위한 자동차 수 및 주당 이익
- 13.4 위성 데이터를 이용한 중국 제조업 PMI 측정
- 13.5 요약
- 14장. 위치 데이터
- 14.1 서론
- 14.2 원유 공급량 추적을 위한 선적 데이터
- 14.3 소매 활동을 이해하기 위한 휴대폰 위치 데이터
- 14.3.1 휴대폰 위치 데이터를 이용한 REIT ETF 거래
- 14.3.2 휴대폰 위치 데이터로 주당 이익 추정
- 14.4 택시 승차 데이터 및 뉴욕 연방 회의
- 14.5 기업 제트 위치 데이터 및 M&A
- 14.6 요약
- 15장. 텍스트, 웹, 소셜 미디어 및 뉴스
- 15.1 서론
- 15.2 웹 데이터 수집
- 15.3 소셜 미디어
- 15.3.1 헤도노미터 지수
- 15.3.2 미국 비농업 고용 변화를 예측하는 데 도움이 되는 트위터 데이터 사용
- 15.3.3 FOMC에 대한 주식 시장 반응을 예측하기 위한 트위터 데이터
- 15.3.4 소셜 미디어로부터의 유동성 및 감성
- 15.4 뉴스
- 15.4.1 FX 거래 및 FX 변동성 파악을 위한 머신 판독 가능한 뉴스
- 15.4.2 연방준비제도 소통과 및 미국 국채 수익률
- 15.5 기타 웹 소스
- 15.5.1 소비자 물가 상승률 측정
- 15.6 요약
- 16장. 투자자 관심
- 16.1 서론
- 16.2 투자자의 관심을 측정하기 위한 고용 보고서 독자 수
- 16.3 시장 테마 측정을 위한 구글 트렌드 데이터
- 16.5 위키피디아를 사용한 암호화폐의 가격 행태 이해
- 16.6 EMFX 트레이딩에 정보를 제공하는 국가에 대한 온라인 관심
- 16.7 요약
- 17장. 소비자 거래
- 17.1 서론
- 17.2 신용 및 직불 카드 거래 데이터
- 17.3 소비자 영수증
- 17.4 요약
- 18장. 정부, 산업과 기업 데이터
- 18.1 서론
- 18.2 주식 거래를 위한 혁신 척도 사용
- 18.3 통화 위기 위험 계량화
- 18.4 통화 시장에 대한 중앙은행의 개입 모델링
- 18.5 요약
- 19장. 시장 데이터
- 19.1 서론
- 19.2 기관 FX 플로우 데이터와 FX 현물의 관계
- 19.3 고빈도 FX 데이터를 이용한 유동성 이해
- 19.4 요약
- 20장. 사모 시장의 대체 데이터
- 20.1 서론
- 20.2 사모펀드 및 벤처캐피털 기업의 정의
- 20.3 사모펀드 데이터셋
- 20.4 비상장 기업의 성과 이해