책 소개
2023년 대한민국학술원 우수학술도서 선정도서
요약
컴퓨터 비전은 길지 않은 시간동안 너무나 빨리, 광범위한 영역에 걸쳐 발전을 이뤘다. 오랜 기간동안 컴퓨터 비전 분야에 몸담은 경험을 바탕으로 이론적인 내용과 수학적인 원리, 응용을 꼼꼼히 파고든다. 5판은 모션 분석이나 딥러닝 등 최신 내용을 충실히 반영했다. 컴퓨터 비전을 깊게 이해하고 싶은 독자들에게 이 책은 좋은 길잡이가 되어줄 것이다.
추천의 글
컴퓨터 비전의 가능성을 믿는 사람들이라면 이 분야가 실제로 얼마나 흥미진진한지 알고 있을 것이다. 인간의 시각부터 전자적 하드웨어, 컴퓨터, 여러 컴퓨터 소프트웨어를 필요로 하는 머신 비전까지 다양한 방면에 걸쳐 있기 때문이다. 이 책은 이 모든 것을 탁월하게 설명한다.
5판에서 달라진 주된 점을 꼽자면 딥러닝의 등장이라 할 수 있다. 사실 컴퓨터 비전과 패턴 인식에 있어 이는 엄청난 변화였다. 컴퓨팅 파워와 메모리 가격 하락으로 인해 이 기법을 더 복잡하게 적용할 수 있었으며, 덕분에 ‘빅데이터’의 분석에 충분히 활용할 정도가 됐다. 이제는 딥러닝 및 합성곱 신경망의 성능을 무시할 수 없을 것이다. 혹은 유명 국제 학회의 프로그램 책자만 읽어봐도 연구자들 사이에서 그 혁명적인 기술의 반향을 엿볼 수 있다. 물론 아직은 초기 단계이긴 하지만 어느 정도의 방향을 제시하는 것은 필요하다. 인공지능 시스템에서 성능 문제는 언제나 고찰의 대상이며, 이를 풀어내기 위해서는 그 구조와 기반을 깊이 살펴볼 필요가 있다. 결국 교재의 역할이란 연구와 실제 측면에서 핵심적인 내용을 적절하게 요약해 소개하는 데 있다. 5판에서 딥러닝 내용을 포함한 것은 대담하지만 꼭 필요한 결정이라 생각한다.
나는 5판이 내 책꽂이에 꽂혀 있는 4판을 대신하게 될 때를 기대하고 있다. 학생들의 책꽂이도 그렇게 될 것이라 믿어 의심치 않는다. 언제나 나에게 이 책은 필요한 정보를 찾기 위해 뒤적이는 교재 중 하나였다. 인터넷에 떠돌아다니는 단편적인 지식과 달리, 이 책을 통하면 맥락에 맞는 정보를 얻고 다른 자료로 안내받을 수 있다. 교재란 원래 그런 역할을 하는 것이다. 그리고 나는 이 5판이 그 역할을 충실히 할 것이라 확신한다.
─ 마크 닉슨(Mark S. Nixon)/ 사우샘프턴대학교
이 책에서 다루는 내용
◆ 머신러닝 관련 주제의 발전사
◆ ‘기본적인 분류 개념’과 ‘확률론 모델’
◆ 딥러닝 네트워크의 원리와 컴퓨터 비전에 이 주제가 끼친 영향
◆ ‘물체 분할’과 ‘형태 모델’에 대한 머신러닝 방법론과 실제 응용 방식
◆ 기하 변형, EM 알고리듬, 부스팅, 시맨틱 분할, 얼굴 전면화, RNN 등 핵심적인 주제에 대한 심화 논의
◆ 비스킷, 이물질, 얼굴, 눈, 차선, 차량, 보행자의 위치 및 감시 등의 응용과 그 예제들을 통한 현실 비전 시스템의 발전 과정과 그 실제 구현
◆ 수학 및 이론에 대한 상세한 설명과 예제
◆ 각 장의 '최근 연구' 절로 학생 및 관련 종사자에게 최신 정보 전달
◆ 주제에 맞춘 프로그래밍 예제: 코드, 방법론, 그림, 문제, 힌트, 해답(MATLAB과 C++ 중심)
이 책의 대상 독자
전자공학 및 컴퓨터과학 학부 졸업학기 과목에서 이 책을 사용한다면 일반적으로 1~13장 및 16장에 더해, 필요에 따라 다른 장의 일부를 학습할 필요가 있다. 석사 및 박사 학위 과정에서는 3부와 4부를 깊게 다루고, 이미지 분석 시스템에 대한 여러 실용적인 예제와 함께 5부 중 일부 장을 다루도록 강의를 구성하는 것이 적절하다(부록에서 다룬 강건 통계의 경우 학부 수준 밖에 있긴 하지만, 깊은 수준으로 들어가기 위해서는 반드시 거쳐갈 필요가 있는 내용이다). 후자의 경우 구체적인 내용은 대상이 되는 학생이 어떤 분야를 연구하는지에 따라 달라진다. 즉, 어느 수준을 넘어서면 이 책은 연구를 위한 핸드북 역할이 더 강해지며, 실제로 책을 서술한 목적 중 하나는 이 중요한 분야의 연구자와 실무자가 핸드북으로 사용할 수 있도록 하는 것이다.
이 책의 구성
확률론적 방법론의 경우 수학적인 내용을 다루는 수준을 구성하는 데 있어 주의를 기울여야 한다. 너무 얕게 다루면 내용이 부실해져 실질적으로 전달되는 것이 없는 것과 마찬가지다. 너무 깊이 다루면 많은 독자가 내용을 따라가는 것이 불가능해진다. 어느 쪽이든 독자가 (수학적) 실제를 파악하는 데 적합하지 않다. 따라서 14장에서는 사용되는 방법론을 전체적으로 개괄하되, 최소한 처음 읽을 때는 약간의 수학적 복잡함을 느낄 수 있을 정도로 서술했다. 상대적으로 어려운 14장에 이어, 15장 및 21장은 사례 연구를 크게 두 부류로 나누어 설명한다. 전자는 딥러닝 네트워크에 대한 주요한 발전이 이뤄지던 기간(2012~2015년)에 해당하는 내용을, 후자는 비슷한 시기이지만(2013~2016년) 딥러닝이 얼굴 검출 및 인식에 초점을 맞춰서 주목할 만한 성과를 보인 내용을 다룬다. 그뿐 아니라, 새롭게 추가된 내용을 반영해 책의 제목 역시 수정했다. 아울러 책의 구성을 변경해, 응용 분야를 다룬 3개 장을 모아 새롭게 5부 ‘컴퓨터 비전의 응용’으로 묶었다.
현재 컴퓨터 비전은 엄밀함, 신뢰도, 일반성, (매우 강력한 GPU 등 향상된 하드웨어 구현을 통한) 실시간 성능 등의 측면에서 충분한 수준의 성숙도를 보이고 있다. 이는 연구자들이 이전보다 더 깊은 수준으로 이를 응용하고 있으며, 실제적인 어려움이 더 줄어들었음을 뜻한다. 이에 따라 5판에서는 이러한 새롭고 흥미로운 상황을 기초적인 수준에서부터 다뤘다.
상세 이미지
목차
목차
- 1장. 비전, 그 도전
- 1.1 서론: 인간의 감각
- 1.2 비전의 본질
- 1.2.1 인식의 과정
- 1.2.2 인식 문제 처리하기
- 1.2.3 객체 위치
- 1.2.4 장면 분석
- 1.2.5 역 그래픽으로서의 비전
- 1.3 자동 시각 검사와 감시
- 1.4 이 책에 대해
- 1.5 머신러닝에 대해
- 1.6 책 구성
- 1.7 문헌
- 1부. 저수준 비전
- 2장. 이미지와 이미지 연산
- 2.1 서론
- 2.1.1 그레이스케일과 컬러
- 2.2 이미지 프로세싱 연산
- 2.2.1 그레이스케일 이미지 기본 연산
- 2.2.2 바이너리 이미지 기본 연산
- 2.3 합성곱과 점퍼짐 함수
- 2.4 순차적 연산과 병렬 연산
- 2.5 결론
- 2.6 문헌과 연보
- 2.7 문제
- 3장. 이미지 필터링과 모폴로지
- 3.1 서론
- 3.2 가우시안 스무딩을 통한 노이즈 저감
- 3.3 메디안 필터
- 3.4 모드 필터
- 3.5 랭크 오더 필터
- 3.6 샤프-언샤프 마스킹
- 3.7 메디안 필터로 인한 전이
- 3.7.1 메디안 전이 연속체 모델
- 3.7.2 그레이스케일 이미지 일반화
- 3.7.3 메디안 전이 불연속체 모델
- 3.8 랭크 오더 필터로 인한 전이
- 3.8.1 직사각형 이웃 영역의 전이
- 3.9 산업 비전 분야에서 필터의 역할
- 3.10 컬러 이미지 필터링
- 3.11 바이너리 이미지의 팽창과 침식
- 3.11.1 팽창과 침식
- 3.11.2 상쇄 효과
- 3.11.3 수정 팽창 및 침식 연산자
- 3.12 수학적 모폴로지
- 3.12.1 일반 모폴로지 팽창
- 3.12.2 일반 모폴로지 침식
- 3.12.3 팽창과 침식의 이중성
- 3.12.4 팽창 및 침식 연산자의 특성
- 3.12.5 닫힘과 열림
- 3.12.6 기본 모폴로지 연산 요약
- 3.13 모폴로지 그룹핑
- 3.14 그레이스케일 이미지에서의 모폴로지
- 3.15 결론
- 3.16 문헌과 연보
- 3.16.1 최근 연구
- 3.17 연습문제
- 4장 임계화의 역할
- 4.1 서론
- 4.2 영역 확장 방식
- 4.3 임계화
- 4.3.1 적정 임곗값 찾기
- 4.3.2 임곗값 선택 과정에서의 편향 문제
- 4.4 적응형 임계화
- 4.4.1 로컬 임계화 방식
- 4.5 더 정확한 임곗값 선택 방식
- 4.5.1 분산 기반 임계화
- 4.5.2 엔트로피 기반 임계화
- 4.5.3 최대 가능도 임계화
- 4.6 전역 골짜기 임계화
- 4.7 전역 골짜기 방식 예제
- 4.8 히스토그램 오목성 분석
- 4.9 결론
- 4.10 문헌과 연보
- 4.10.1 최근 연구
- 4.11 연습문제
- 5장. 외각 검출
- 5.1 서론
- 5.2 외각 검출의 기본 원리
- 5.3 템플릿 매칭 방식
- 5.4 3×3 템플릿 연산자 이론
- 5.5 차분 그레이디언트 연산자 설계
- 5.6 원형 연산자 개념
- 5.7 원형 연산자 실제
- 5.8 차분 외각 연산자 설계 체계
- 5.9 기존 방식의 문제점과 그 대안
- 5.10 히스테리시스 임계화
- 5.11 캐니 연산자
- 5.12 라플라시안 연산자
- 5.13 결론
- 5.14 문헌과 연보
- 5.14.1 최근 연구
- 5.15 연습문제
- 6장. 모서리, 특징점, 불변 특징 검출
- 6.1 서론
- 6.2 템플릿 매칭
- 6.3 2차 도함수 방식
- 6.4 메디안 필터 기반 모서리 검출
- 6.4.1 메디안 검출 연산 분석
- 6.4.2 실제 예제
- 6.5 해리스 특징점 연산자
- 6.5.1 여러 형태의 모서리 신호 및 전이
- 6.5.2 교차점과 삼중 분기
- 6.5.3 해리스 연산자의 다른 형식
- 6.6 모서리 방향
- 6.7 로컬 불변 특징 검출자 및 설명자
- 6.7.1 기하 변환과 특징 정규화
- 6.7.2 해리스 스케일 및 아핀 불변 검출자와 설명자
- 6.7.3 헤시안 스케일 및 아핀 불변 검출자와 설명자
- 6.7.4 스케일 불변 특징 변환 연산자
- 6.7.5 고속 강건 특징 연산자
- 6.7.6 최대 안정 극값 영역
- 6.7.7 불변 특징 검출자 간의 비교
- 6.7.8 그레이디언트 지향 히스토그램
- 6.8 결론
- 6.9 문헌과 연보
- 6.9.1 최근 연구
- 6.10 연습문제
- 7장. 텍스처 분석
- 7.1 서론
- 7.2 기본 텍스처 분석 접근법
- 7.3 그레이 레벨 동시출현 행렬
- 7.4 로스의 텍스처 에너지 접근법
- 7.5 에이드의 고유필터 접근법
- 7.6 로스 및 에이드 접근법의 비교
- 7.7 결론
- 7.8 문헌과 연보
- 7.8.1 최근 연구
- 2부. 중간 수준 비전
- 8장. 바이너리 형태 분석
- 8.1 서론
- 8.2 바이너리 이미지의 연결성
- 8.3 물체 레이블링과 카운팅
- 8.3.1 복잡한 레이블링 문제
- 8.4 사이즈 필터링
- 8.5 거리 함수와 그 응용
- 8.5.1 로컬 극댓값과 데이터 압축
- 8.6 스켈레톤과 세선화
- 8.6.1 교차수
- 8.6.2 병렬 및 순차 세선화 구현
- 8.6.3 유도 세선화
- 8.6.4 스켈레톤의 특징에 대한 주석
- 8.6.5 스켈레톤 노드 분석
- 8.6.6 형태 분석을 위한 스켈레톤
- 8.7 기타 형태 인식 기준
- 8.8 경계 추적 방식
- 8.9 결론
- 8.10 문헌과 연보
- 8.10.1 최근 연구
- 8.11 연습문제
- 9장. 경계 패턴 분석
- 9.1 서론
- 9.2 경계 추적 과정
- 9.3 무게중심 프로파일
- 9.4 무게중심 접근법의 문제점
- 9.4.1 해결책
- 9.5 (s , ψ ) 플롯
- 9.6 오클루전 문제
- 9.7 경계 길이 측정값의 정확도
- 9.8 결론
- 9.9 문헌과 연보
- 9.9.1 최근 연구
- 9.10 연습문제
- 10장. 선, 원, 타원 검출
- 10.1 서론
- 10.2 허프 변환을 통한 선분 검출
- 10.2.1 길이 방향 선분 로컬화
- 10.3 법선 방식
- 10.3.1 법선 방식의 응용
- 10.4 RANSAC 기반 직선 검출
- 10.5 복강경 도구의 위치
- 10.6 허프 변환 기반 원형 물체 인식
- 10.7 반지름 찾기 문제
- 10.7.1 예제
- 10.8 속도 문제 해결
- 10.8.1 예제
- 10.9 타원 검출
- 10.9.1 지름 이등분 방식
- 10.9.2 현-탄젠트 방식
- 10.9.3 나머지 타원 매개변수 찾기
- 10.10 홍채 위치 인식
- 10.11 결론
- 10.12 문헌과 연보
- 10.12.1 최근 연구
- 10.13 연습문제
- 11장. 일반 허프 변환
- 11.1 서론
- 11.2 일반 허프 변환
- 11.3 공간 매칭 필터링의 타당성
- 11.4 그레이디언트 가중치와 균일 가중치
- 11.4.1 민감도 계산 및 계산량
- 11.4.2 요약
- 11.5 GHT를 이용한 타원 검출
- 11.5.1 예시
- 11.6 다른 타원 검출 방식과의 비교
- 11.7 그래프 이론 기반 물체 위치 검출
- 11.7.1 예제: 크림 비스킷
- 11.8 계산량 감소 가능성
- 11.9 GHT를 사용한 특징 비교
- 11.9.1 계산량
- 11.10 최대 클릭 및 다른 접근법의 일반화
- 11.11 탐색
- 11.12 결론
- 11.13 문헌과 연보
- 11.13.1 최근 연구
- 11.14 연습문제
- 12장. 물체 분할과 형태 모델
- 12.1 서론
- 12.2 능동 등고선
- 12.3 능동 등고선 예시
- 12.4 물체 분할을 위한 레벨 세트 접근법
- 12.5 형태 모델
- 12.5.1 형태 모델을 사용한 물체 위치 찾기
- 12.6 결론
- 12.7 문헌과 연보
- 3부. 머신러닝과 딥러닝 네트워크
- 13장. 분류: 기본 개념
- 13.1 서론
- 13.2 최근접 알고리듬
- 13.3 베이즈 결정 이론
- 13.3.1 나이브 베이즈 분류자
- 13.4 최근접 접근법과 베이즈 접근법의 관계
- 13.4.1 수학적 표현
- 13.4.2 최근접 알고리듬의 중요성
- 13.5 최적 특징 숫자
- 13.6 비용 함수와 에러-탈락 트레이드오프
- 13.7 지도 학습과 비지도 학습
- 13.8 군집 분석
- 13.9 서포트 벡터 머신
- 13.10 인공신경망
- 13.11 역전파 알고리듬
- 13.12 다중 레이어 퍼셉트론 구조
- 13.13 학습 데이터의 오버피팅
- 13.14 결론
- 13.15 문헌과 연보
- 13.15.1 최근 연구
- 13.16 연습문제
- 14장. 머신러닝: 확률론적 방식
- 14.1 서론
- 14.2 가우시안 혼합과 EM 알고리듬
- 14.2.1 기댓값 최대화 알고리듬 상세
- 14.3 EM 알고리듬에 대한 일반론적 관점
- 14.4 예제
- 14.5 주성분 분석
- 14.6 다중 분류자
- 14.7 부스팅 접근법
- 14.8 에이다부스트 모델링
- 14.8.1 실수형 에이다부스트
- 14.9 부스팅 손실 함수
- 14.10 로짓부스트 알고리듬
- 14.11 부스팅의 효용성
- 14.12 다중 클래스 부스팅
- 14.13 수신자 조작 특성
- 14.13.1 에러율 기반 성능 평가
- 14.14 결론
- 14.15 문헌과 연보
- 14.16 연습문제
- 15장. 딥러닝 네트워크
- 15.1 서론
- 15.2 합성곱 신경망
- 15.3 CNN 구조 정의 매개변수
- 15.4 LeCun et al(1998)의 LeNet 구조
- 15.5 Krizhevsky et al(2012)의 AlexNet 구조
- 15.6 Zeiler and Fergus(2014)의 CNN 구조 연구
- 15.7 Zeiler and Fergus(2014)의 시각화 실험
- 15.8 Simonyan and Zisserman(2015)의 VGGNet 구조
- 15.9 Noh et al(2015)의 DeconvNet 구조
- 15.10 Badrinarayanan et al(2015)의 SegNet 구조
- 15.11 순환 신경망
- 15.12 결론
- 15.13 문헌과 연보
- 4부. 3D 비전과 모션
- 16장. 3차원 세계
- 16.1 서론
- 16.2 3차원 비전: 방식의 다양성
- 16.3 3차원 비전 투영 기법
- 16.3.1 양안 이미지
- 16.3.2 유사성 문제
- 16.4 셰이딩 기반 형태 추정
- 16.5 광도 양안법
- 16.6 매끄러운 표면 가정
- 16.7 텍스처 기반 형태 추정
- 16.8 구조화 조명
- 16.9 3차원 물체 인식 방식
- 16.10 호라우드 연결점 방향 기법
- 16.11 예제: 산업용 부품 위치 찾기
- 16.12 결론
- 16.13 문헌과 연보
- 16.13.1 최근 연구
- 16.14 연습문제
- 17장. n지점 원근 문제
- 17.1 서론
- 17.2 원근 역전 현상
- 17.3 약한 원근 투영에 대한 자세의 불확실성
- 17.4 자세 문제의 고유 해답
- 17.4.1 3지점 문제의 해답
- 17.4.2 등변사다리꼴을 통한 자세 추정
- 17.5 결론
- 17.6 문헌과 연보
- 17.6.1 최근 연구
- 17.7 연습문제
- 18장. 불변성과 원근
- 18.1 서론
- 18.2 교차 비율: ‘비율의 비율’ 개념
- 18.3 비동일 선상의 지점에 대한 불변성
- 18.3.1 5지점 구성
- 18.4 원뿔 곡선상 지점의 불변성
- 18.5 미분 및 반미분 불변성
- 18.6 대칭 교차 비율 함수
- 18.7 소실점 검출
- 18.8 소실점 심화
- 18.9 원형 및 타원형의 중심점
- 18.10 예술과 사진에서의 원근 효과
- 18.11 결론
- 18.12 문헌과 연보
- 18.12.1 최신 연구
- 18.13 연습문제
- 19장. 이미지 변환과 카메라 조정
- 19.1 서론
- 19.2 이미지 변환
- 19.3 카메라 보정
- 19.4 내부 매개변수와 외부 매개변수
- 19.5 방사 왜곡 보정
- 19.6 다중 뷰 비전
- 19.7 일반 등극선 기하
- 19.8 필수 행렬
- 19.9 기초 행렬
- 19.10 필수 행렬과 기초 행렬의 특성
- 19.11 기초 행렬 추정
- 19.12 8지점 알고리듬 업데이트
- 19.13 이미지 정류법
- 19.14 3차원 복원
- 19.15 결론
- 19.16 문헌과 연보
- 19.16.1 최근 연구
- 19.17 연습문제
- 20장. 모션
- 20.1 서론
- 20.2 광학 플로우
- 20.3 광학 플로우 장 해석
- 20.4 확장 중심을 통한 충돌 방지
- 20.5 인접 시간 분석
- 20.6 광학 플로우 모델의 난제
- 20.7 스테레오 모션
- 20.8 칼만 필터
- 20.9 광간격 매칭
- 20.10 결론
- 20.11 문헌과 연보
- 20.12 연습문제
- 5부. 컴퓨터 비전의 응용
- 21장. 얼굴 검출과 인식: 딥러닝
- 21.1 서론
- 21.2 간단한 얼굴 검출 접근법
- 21.3 얼굴 특징 검출
- 21.4 VJ 고속 얼굴 검출
- 21.5 고유얼굴을 통한 얼굴 인식
- 21.6 얼굴 인식의 어려움
- 21.7 전면화
- 21.8 DeepID 얼굴 표현 시스템
- 21.9 고속 얼굴 검출 재검토
- 21.9.1 더 강력한 물체 검출 방식
- 21.10 3차원 물체로서의 얼굴
- 21.11 결론
- 21.12 문헌과 연보
- 22장. 감시
- 22.1 서론
- 22.2 감시: 기본 기하
- 22.3 전경-배경 분리
- 22.3.1 배경 모델링
- 22.3.2 배경 모델링 예시
- 22.3.3 직접적 전경 검출
- 22.4 파티클 필터
- 22.5 색상 히스토그램을 통한 추적
- 22.6 파티클 필터 구현
- 22.7 챔퍼 매칭, 추적, 오클루전
- 22.8 다중 카메라 뷰 결합
- 22.8.1 겹치지 않는 시야의 경우
- 22.9 교통 흐름 모니터링 응용
- 22.9.1 Bascle et al
- 22.9.2 Koller et al
- 22.10 번호판의 위치
- 22.11 추적을 위한 오클루전 분류
- 22.12 걸음걸이를 통한 보행자 구별
- 22.13 인간 걸음걸이 분석
- 22.14 모델 기반 동물 추적
- 22.15 결론
- 22.16 문헌과 연보
- 22.16.1 최근 연구
- 22.17 연습문제
- 23장. 차량 내 비전 시스템
- 23.1 서론
- 23.2 도로 위치 탐색
- 23.3 도로 표시 위치 탐색
- 23.4 도로 표지판 위치 탐색
- 23.5 차량 위치 탐색
- 23.6 번호판 및 다른 구조적 특징 관측을 통한 정보 취득
- 23.7 보행자 위치 탐색
- 23.8 안내와 에고모션
- 23.8.1 단순 경로 탐색 알고리듬
- 23.9 농업용 차량 안내
- 23.9.1 3차원 관점
- 23.9.2 실시간 구현
- 23.10 결론
- 23.11 첨단 운전자 보조 시스템 관련 연구 및 문헌
- 23.11.1 차량 검출 연구
- 23.11.2 보행자 검출 연구
- 23.11.3 도로 및 차선 검출 연구
- 23.11.4 도로 표지판 검출 연구
- 23.11.5 경로 탐색, 내비게이션, 에고모션 연구
- 23.12 연습문제
- 24장. 결론: 비전에 대한 전망
- 24.1 서론
- 24.2 머신 비전에서의 중요도 매개변수
- 24.3 트레이드오프
- 24.3.1 주요 트레이드오프
- 24.3.2 2단계 템플릿 매칭 트레이드오프
- 24.4 무어의 법칙
- 24.5 하드웨어, 알고리듬, 처리
- 24.6 표현 방식 선택의 중요성
- 24.7 과거, 현재, 미래
- 24.8 딥러닝 열풍
- 24.9 문헌과 연보