파이썬 성능 높이기 2/e [프로그램 병목 찾기부터 파이썬 구현 선택, 병렬 시스템 확장까지]
- 원서명Python High Performance - Second Edition : Build robust applications by implementing concurrent and distributed processing techniques (ISBN 9781787282896)
- 지은이가브리엘레 라나로(Gabriele Lanaro)
- 옮긴이임혜연
- ISBN : 9791161752419
- 28,000원
- 2018년 11월 30일 펴냄
- 페이퍼백 | 340쪽 | 188*235mm
- 시리즈 : acorn+PACKT, 프로그래밍 언어
책 소개
소스 코드 파일은 여기에서 내려 받으실 수 있습니다.
본문에 쓰인 컬러 이미지는 여기에서 내려 받으세요.
요약
파이썬 프로그램의 성능을 높이기 위한 여러 가지 전략을 소개한다. 파이썬에서 기본적인 프로그램 성능을 높이기 위한 병목 찾기를 어떻게 진행하는지부터 성능이 좋은 라이브러리 도입, 확장 파이썬을 컴파일하는 컴파일러, 파이썬 프로그램을 병렬적으로 만드는 것까지 다양한 수준의 성능 개선 기법이 나와 있으므로 파이썬을 어느 정도 써본 사람이라면 도움 될 것이다.
이 책에서 다루는 내용
■ NumPy와 Pandas 라이브러리로 효율적인 수치 계산 코드 작성하기
■ Cython과 Numba를 사용해 네이티브 성능 달성하기
■ 프로파일러로 파이썬 코드의 성능 병목 찾기
■ Asyncio와 RxPy를 사용해 비동기 코드 작성하기
■ 파이썬에서 텐서플로와 테아노를 사용해 자동으로 병렬 처리하기
■ Dask와 PySpark를 사용해 클러스터에 분산 알고리즘 설정, 실행하기
이 책의 대상 독자
애플리케이션 성능을 개선하려는 파이썬 개발자를 대상으로 한다. 파이썬에 대한 기초 지식이 있다고 가정한다.
이 책의 구성
1장, ‘벤치마크와 프로파일링 파이썬’에서는 프로그램 성능을 평가하는 방법과 코드의 느린 부분을 알아내고 고립시키는 실용적인 전략을 알려준다.
2장, ‘순수 파이썬 최적화’에서는 파이썬 표준 라이브러리와 순수 파이썬 서드파티 모듈이 제공하는 효율적인 데이터 구조와 알고리즘을 사용해 실행 시간을 수십 배 단위로 향상시키는 방법을 다룬다.
3장, ‘NumPy와 Pandas를 사용한 고속 배열 연산’에서는 NumPy와 Pandas 패키지에 대한 안내를 한다. 이 패키지를 정복하면 빠르게 동작하는 수치적 알고리즘을 표현력 좋고 간결한 인터페이스로 구현할 수 있게 된다.
4장, ‘Cython으로 C 성능 얻기’에서는 효율적인 C 코드를 생성하기 위해 파이썬 호환 문법을 사용하는 언어인 Cython을 살펴본다.
5장, ‘컴파일러 탐구’에서는 파이썬을 효율적 기계어 코드로 컴파일하는 데 사용할 수 있는 도구를 다룬다. 파이썬 함수를 최적화하는 컴파일러인 Numba와 파이썬 프로그램을 실행하면서 바로 최적화할 수 있는 대안 인터프리터인 PyPy를 사용하는 방법을 배운다.
6장, ‘동시성 구현’에서는 비동기적 프로그래밍 및 반응형 프로그래밍에 대한 지침을 알아본다. 여기서는 주요 용어와 개념을 배우고, asyncio와 RxPy 프레임워크를 사용해 깔끔한 동시성 코드를 작성하는 방법을 시연할 것이다.
7장, ‘병렬 처리’에서는 다중 코어 프로세서와 GPU에서의 병렬 프로그래밍을 소개한다. multiprocessing 모듈을 사용하고 코드가 테아노(Theano)와 텐서플로(Tensorflow)를 사용하도록 해 병렬성을 얻는 법을 배운다.
8장, ‘분산 처리’에서는 대규모 문제와 빅데이터를 위한 분산 시스템에서 병렬 알고리즘을 실행하는 데 초점을 두고 7장의 내용을 확장한다. Dask, PySpark, mpi4py 라이브러리를 다룬다.
9장, ‘성능을 높이는 설계’에서는 고성능 파이썬 애플리케이션 개발과 테스트, 배포를 위한 일반적 최적화 전략과 모범 사례를 다룬다.
목차
목차
- 1장. 벤치마킹과 프로파일링
- 애플리케이션 설계
- 테스트와 벤치마크 작성하기
- 벤치마크 시간 측정하기
- pytest-benchmark로 개선된 테스트와 벤치마크
- cProfile로 병목 찾기
- line_profiler로 행 단위 프로파일
- 코드 최적화
- dis 모듈
- memory_profiler를 통한 메모리 사용량 프로파일링
- 요약
- 2장. 순수 파이썬 최적화
- 유용한 알고리즘 및 데이터 구조
- 리스트와 덱
- 딕셔너리
- 집합
- 힙
- 트라이
- 캐싱과 메모이제이션
- JOBLIB
- 조건 제시법과 제너레이터
- 요약
- 유용한 알고리즘 및 데이터 구조
- 3장. NumPy와 Pandas를 사용한 고속 배열 연산
- NumPy 시작하기
- 배열 생성하기
- 배열 접근하기
- 브로드캐스팅
- 수학 연산
- 놈 계산
- 입자 시뮬레이터를 NumPy로 다시 작성하기
- numexpr로 최적의 성능에 도달하기
- Pandas
- Pandas 기초
- Pandas를 사용한 데이터베이스 방식의 연산
- 요약
- NumPy 시작하기
- 4장. Cython으로 C 성능 얻기
- Cython 확장 컴파일
- 정적 형식 추가
- 변수
- 함수
- 클래스
- 선언 공유
- 배열 다루기
- C 배열과 포인터
- NumPy 배열
- 형식화된 메모리뷰
- Cython 입자 시뮬레이터
- Cython 프로파일링
- 주피터로 Cython 사용하기
- 요약
- 5장. 컴파일러 탐구
- Numba
- NUMBA 첫 단계
- 형식 특수화
- 객체 모드와 원시 모드
- Numba와 NumPy
- JIT 클래스
- Numba 제약
- PyPy 프로젝트
- PyPy 설치
- PyPy로 입자 시뮬레이터 실행하기
- 그 밖의 흥미로운 프로젝트
- 요약
- Numba
- 6장. 동시성 구현
- 비동기적 프로그래밍
- I/O 대기
- 동시성
- 콜백
- 퓨처
- 이벤트 루프
- asyncio 프레임워크
- 코루틴
- 블로킹 코드를 논블로킹 코드로 변환하기
- 반응형 프로그래밍
- 옵저버블
- 유용한 연산자
- 뜨거운 옵저버블과 차가운 옵저버블
- CPU 모니터 구축
- 요약
- 비동기적 프로그래밍
- 7장. 병렬 처리
- 병렬 처리 개론
- 그래픽 처리 장치
- 여러 프로세스 사용하기
- PROCESS와 POOL 클래스
- Executor 인터페이스
- 파이 값의 몬테 카를로 근사치 계산법
- 동기화와 잠금
- OpenMP를 사용한 병렬 Cython
- 자동 병렬성
- 테아노 시작
- 텐서플로
- GPU에서 코드 실행
- 요약
- 병렬 처리 개론
- 8장. 분산 처리
- 분산 컴퓨팅 소개
- 맵리듀스 소개
- Dask
- 방향성 비순환 그래프
- Dask 배열
- Dask Bag과 DataFrame
- Dask distributed
- 파이스파크 사용하기
- 스파크와 파이스파크 설정
- 스파크 아키텍처
- RDD
- 스파크 데이터프레임
- mpi4py를 사용한 과학기술 컴퓨팅
- 요약
- 분산 컴퓨팅 소개
- 9장. 성능을 높이는 설계
- 적절한 전략 선택하기
- 일반 애플리케이션
- 수치 코드
- 빅데이터
- 소스 코드 구조화하기
- 격리와 가상 환경, 컨테이너
- Conda 환경 사용하기
- 가상화와 컨테이너
- 지속적인 통합
- 요약
- 적절한 전략 선택하기