![](/tb/detail/book/xp/ef/1586219161AsnBeSF0.jpg)
책 소개
요약
권위 있는 음성 사용자 인터페이스(VUI) 디자인 가이드로 포괄적인 내용을 다룬다. VUI는 사용자 경험이 불만이나 만족감을 결정하는 자동 음성 인식(ASR) 시스템의 성공에 가장 중요한 요소다. 이 책은 효과적인 VUI 디자인을 만드는 실용적인 방법론을 설명한다. 이 방법론은 언어학, 심리학, 언어 기술의 원리를 과학적으로 접근한다. ASR 개발 시장 선두주자인 뉘앙스 커뮤니케이션즈의 저자들이 금융 중개업 서비스 디자인 사례를 중심으로 VUI의 디자인 원칙과 사용자의 지속적인 사용 의도를 향상시킬 수 있는 음성 에이전트 의인화 및 페르소나 전략 등을 설명한다.
이 책에 쏟아진 찬사
마이크 코헨은 음성 기술 분야의 거물이다. 저자들은 수년간 쌓아온 VUI 디자인의 소중한 경험을 이 책에 담았다. 사용자 인터페이스를 디자인한다면 반드시 읽어야 할 책이다.
- 존 켈리(John Kelly)/ 「Speech Technology Magazine」 편집장
VUI 디자인은 예술, 과학, 프로세스의 도전적인 조합이다. 저자들은 VUI 디자인에 관한 깊은 견해로 광범위한 실제 경험을 늘려 나가며, 효과적인 음성 인터페이스에 필요한 사항을 알려준다. 이 책은 새롭고도 중요한 학문 뒤에 숨겨진 많은 미스터리를 풀었다.
- 빌 마이젤(Bill Meisel)/ 「Speech Recognition Update」 발행인이자 편집자
이 책이 갖는 강점은 연구 문헌의 깊이와 기반이다. VUI 디자인에 관해 상세한 설명서를 제공하는 시늉만 내는 게 아니라, 정보에 입각해 일련의 디자인 원칙을 제공하고 이 원칙을 특정 문제에 적용하도록 신뢰성 있는 정보를 제공한다.
- 크리스 슈만드(Chris Schmandt)/ MIT 미디어랩 수석 과학자
현재의 음성 인식 시스템은 인간보다 나은 것은 아니지만 한 단어를 인식할 수 있다. 효과적인 음성 시스템을 구축하는 것은 여전히 중요한 도전 과제다. 이 책은 효과적인 VUI를 생성하는 데 필요한 배경과 단계를 제공해 문제를 해결한다. 금융 중개업 디자인 사례를 중심으로 구성된 이 책은 성공적인 음성 애플리케이션을 구축하는 데 필요한 모든 접근 방식을 다룬다. 문어와 구어 간의 차이를 분석하는 것에서부터 프롬프트 디자인과 운율 체계 계획까지 이 책은 음성 애플리케이션 디자인에 관련해 연구하는 모든 사람의 표준이 돼야 한다.
- 해리 M. 허쉬(Harry M. Hersh)/ Users Voice
이 책의 대상 독자
■ 실무자: 주요 독자는 현직 실무자나 미래의 실무자가 될 사람들이다. 초보자가 봐도 모든 자료를 이해할 수 있도록 토대를 마련하려고 노력했다. 이 책은 경험이 풍부한 디자이너와 경험이 없는 디자이너 모두에게 가치를 제공한다. 실무자들은 모든 장의 내용을 읽고 필요한 도움을 얻을 수 있을 것이다.
■ HCI(Human–Computer Interfaces) 학생: 학생들은 VUI가 다른 유형의 사용자 인터페이스와 많은 공통점이 있음을 알게 될 것이다. 반면, 다수의 문제와 디자인 접근 방식은 음성 사용자 인터페이스에서만 발견할 수 있는 고유한 것이다. 전반적으로 유용하지만 특히 1~4장, 6장, 8~13장, 15~16장에서 많은 도움을 얻을 수 있다.
■ 비즈니스 관리자: 음성 기술로 조직의 니즈를 충족할 수 있는 방법을 결정하는 이들로 1~4장과 6장에서 많은 도움을 얻을 수 있다.
■ 프로젝트 관리자: 애플리케이션을 디자인하고 배포하는 단계를 알아야 하는 이들은 1~4장, 6~8장, 14~15장, 18장에서 많은 도움을 얻을 수 있다.
이 책의 구성
1부, 소개: 1장부터 3장에서는 음성 사용자 인터페이스 및 디자인 문제의 개요, 기술 설명과 책 전반에 걸쳐 자세히 설명할 디자인 방법론에 대한 고차원적 관점을 포함한 입문 자료를 제공한다.
2부, 정의 단계: 4장부터 7장에서는 요구 사항을 파악하고, 상세 디자인을 하기 전에 상위 수준의 디자인 결정과 같은 프로젝트의 정의 단계를 다룬다.
3부, 디자인 단계: 8장부터 14장에서는 상세 디자인 단계를 다룬다. 디자인 원리는 실제 애플리케이션에 적용하는 방법을 많은 예제를 들어 자세히 설명한다.
4부, 실현 단계: 15장부터 18장에서는 실현 단계인 개발, 테스트, 조정을 다룬다. 문법 개발과 같은 음성 사용자 인터페이스 디자인만의 고유한 여러 가지 문제를 설명한다.
각 부는 해당 디자인 단계의 방법론적 세부 사항을 다루는 장으로 시작한다. 그다음에는 해당 단계와 관련된 디자인 원칙과 접근법을 설명하며, 각 절의 마지막 장에서는 디자인 예제를 제시한다.
목차
목차
- 1부. 소개
- 1장. 음성 사용자 인터페이스 소개
- 1.1 음성 사용자 인터페이스란?
- 1.1.1 청각 인터페이스
- 1.1.2 대화 인터페이스
- 1.2 왜 음성인가?
- 1.3 앞으로 어떻게 해야 하는가?
- 2장. 음성 언어 기술 개요
- 2.1 음성 언어 시스템의 구조
- 2.1.1 음성 언어 시스템의 요소
- 2.1.2 인식
- 2.1.3 다른 음성 기술
- 2.2 음성 기술이 디자인 결정에 미치는 영향
- 2.2.1 성능 문제
- 2.2.2 문제 해결
- 2.2.3 정의 파일
- 2.3 결론
- 3장. 방법론 개요
- 3.1 방법론적 원칙
- 3.1.1 최종 사용자 입력
- 3.1.2 통합 비즈니스와 사용자 니즈
- 3.1.3 철저한 초기 작업
- 3.1.4 대화 디자인
- 3.1.5 맥락
- 3.2 방법론의 단계
- 3.2.1 요구 사항 정의
- 3.2.2 상위 디자인
- 3.2.3 상세 디자인
- 3.2.4 개발
- 3.2.5 테스트
- 3.2.6 튜닝
- 3.3 실제 애플리케이션에 방법론 적용
- 3.3.1 단계 조정
- 3.3.2 실제 예산과 시간 제약 처리
- 3.4 결론
- 2부. 정의 단계: 요구 사항 수집과 상위 디자인
- 4장. 요구 사항과 상위 디자인 방법론
- 4.1 요구 사항 정의
- 4.1.1 비즈니스 이해
- 4.1.2 사용자 이해
- 4.1.3 애플리케이션 이해
- 4.2 상위 디자인
- 4.2.1 주요 디자인 기준
- 4.2.2 다이얼로그 전략과 문법 유형
- 4.2.3 보편적인 다이얼로그 요소
- 4.2.4 반복 용어
- 4.2.5 메타포
- 4.2.6 페르소나
- 4.2.7 비언어 오디오
- 4.3 결론
- 5장. 상위 디자인 요소
- 5.1 다이얼로그 전략과 문법 유형
- 5.2 보편적인 다이얼로그 요소
- 5.2.1 오류 복구 전략
- 5.2.2 보편성
- 5.2.3 로그인
- 5.3 결론
- 6장. 계획적으로 페르소나 만들기
- 6.1 페르소나란 무엇인가?
- 6.2 페르소나는 어디에서 오는가?
- 6.3 페르소나 디자인 체크리스트
- 6.3.1 메타포와 역할
- 6.3.2 브랜드와 이미지
- 6.3.3 최종 사용자
- 6.3.4 애플리케이션
- 6.4 페르소나 정의
- 6.5 결론
- 7장. 샘플 애플리케이션: 요구 사항과 상위 디자인
- 7.1 렉싱턴 증권사
- 7.2 요구 사항 정의
- 7.2.1 비즈니스 목표와 맥락 이해
- 7.2.2 호출자 이해
- 7.2.3 애플리케이션 이해
- 7.3 상위 디자인
- 7.3.1 주요 디자인 기준
- 7.3.2 다이얼로그 전략과 문법 형식
- 7.3.3 보편적인 다이얼로그 요소
- 7.3.4 반복 용어
- 7.3.5 메타포
- 7.3.6 페르소나
- 7.3.7 비언어적인 오디오
- 7.4 결론
- 3부. 디자인 단계: 상세 디자인
- 8장. 상세 디자인 방법론
- 8.1 다이얼로그 상태 분석
- 8.2 호출 흐름 디자인
- 8.3 프롬프트 디자인
- 8.3.1 대화형 디자인
- 8.3.2 청각 디자인
- 8.4 사용자 테스트
- 8.4.1 형식적인 사용성 테스트
- 8.4.2 카드 분류
- 8.5 디자인 원칙
- 8.6 결론
- 9장. 인지 부하 최소화
- 9.1 개념의 복잡성
- 9.1.1 불변성
- 9.1.2 일관성
- 9.1.3 맥락 설정
- 9.2 기억 부하
- 9.2.1 메뉴 크기
- 9.2.2 최신
- 9.2.3 지시 사항
- 9.3 주의
- 9.4 결론
- 10장. 계획적인 프롬프트
- 10.1 담화로서의 대화
- 10.2 응집력
- 10.2.1 대명사와 시간 부사
- 10.2.2 담화 표지
- 10.3 정보 구조
- 10.4 구어체 영어 대 문어체 영어
- 10.4.1 포인터 단어
- 10.4.2 축약
- 10.4.3 ‘must’와 ‘may’
- 10.4.4 ‘Will’과 ‘Going To’
- 10.4.5 “Romans Perspire, Anglo-Saxons Sweat”(로마인은 땀을 흘리고,
- 앵글로색슨족은 땀을 흘린다)
- 10.5 용어 및 일관성
- 10.6 은어
- 10.7 공동 원칙
- 10.8 결론
- 11장. 운율 체계 계획하기
- 11.1 운율이란?
- 11.2 운율의 기능
- 11.3 강세
- 11.4 억양
- 11.4.1 기본 억양 음조 곡선
- 11.4.2 맥락의 음조 곡선
- 11.5 전화번호 연결
- 11.5.1 전화번호의 운율 구조
- 11.5.2 숫자별 연결
- 11.6 연결 접합 최소화
- 11.7 멈춤
- 11.8 TTS 가이드라인
- 11.8.1 애플리케이션 사용 분석
- 11.8.2 적절한 음성 선택
- 11.8.3 가능하면 오디오 녹음 사용
- 11.8.4 이해하기 쉬운 콘텐츠 만들기
- 11.8.5 적절한 형식 사용
- 11.8.6 자연스러움을 위한 문자 마크업
- 11.9 결론
- 12장. 효율성과 명확성의 극대화
- 12.1 효율성
- 12.1.1 작업 손실 방지
- 12.1.2 빈번한 작업을 효율적으로 수행
- 12.1.3 바로가기 제공
- 12.1.4 호출자 모델링을 사용해 단계 저장
- 12.2 명확성
- 12.2.1 자연 언어 이해를 위한 멘탈 모델
- 12.2.2 표식을 통한 탐색 명확성
- 12.3 효율성 및 명확성 균형 조정
- 12.3.1 개별 프롬프트에서 강세 명확성
- 12.3.2 단계적인 프롬프트
- 12.3.3 끼어들기 사용
- 12.4 결론
- 13장. 정확성 최적화와 오류 복구
- 13.1 정확성 측정
- 13.2 정확성 극대화를 위한 다이얼로그 디자인 가이드라인
- 13.3 오류 복구
- 13.3.1 확인 전략
- 13.3.2 거부 및 시간 초과로부터 복구
- 13.4 결론
- 14장. 샘플 애플리케이션: 상세 디자인
- 14.1 호출 흐름 디자인
- 14.1.1 로그인 서브 다이얼로그
- 14.1.2 견적 서브 다이얼로그
- 14.1.3 거래 서브 다이얼로그
- 14.2 프롬프트 디자인
- 14.3 사용자 테스트
- 14.4 결론
- 4부. 구현 단계: 개발, 테스트, 튜닝
- 15장. 개발, 테스트, 튜닝 방법론
- 15.1 개발
- 15.1.1 애플리케이션 개발
- 15.1.2 문법 개발
- 15.1.3 오디오 제작
- 15.2 테스트
- 15.2.1 애플리케이션 테스트
- 15.2.2 인식 테스트
- 15.2.3 평가용 사용성 테스트
- 15.3 튜닝
- 15.3.1 다이얼로그 튜닝
- 15.3.2 인식 튜닝
- 15.4 결론
- 16장. 문법 작성
- 16.1 문법 개발
- 16.1.1 규칙 기반 문법 개발
- 16.1.2 통계 언어 모델을 위한 문법 개발
- 16.1.3 탄탄한 자연어 문법 개발
- 16.1.4 통계적 자연어 문법 개발
- 16.2 문법 테스트
- 16.2.1 규칙 기반 문법 테스트
- 16.2.2 통계 언어 모델 테스트
- 16.2.3 탄탄한 자연어 문법 테스트
- 16.2.4 통계적 자연어 문법 테스트
- 16.3 문법 튜닝
- 16.3.1 튜닝 규칙 기반 문법
- 16.3.2 통계 언어 모델 튜닝
- 16.3.3 탄탄한 자연어 문법 튜닝
- 16.3.4 통계적 자연어 문법 튜닝
- 16.4 결론
- 17장. 성우와 함께 작업하기
- 17.1 성공을 위한 스크립트
- 17.1.1 도입 사례 연구
- 17.1.2 스크립트 팁
- 17.2 성우 선택
- 17.2.1 전문성 및 경험
- 17.2.2 코치 능력
- 17.2.3 페르소나에 맞추기
- 17.2.4 데모 테이프(또는 CD)와 오디션
- 17.3 녹음 세션 실행
- 17.3.1 절차상 고려 사항
- 17.3.2 음성 코치하기
- 17.4 결론
- 18장. 샘플 애플리케이션: 개발, 테스트, 튜닝
- 18.1 개발
- 18.1.1 애플리케이션 개발
- 18.1.2 문법 개발
- 18.1.3 오디오 제작
- 18.2 테스트
- 18.2.1 평가용 사용성 테스트
- 18.3 튜닝
- 18.3.1 다이얼로그 튜닝
- 18.3.2 인식 튜닝
- 18.3.3 문법 튜닝
- 18.3.4 사용자 설문 조사
- 19장. 결론
- 부록
관련 블로그 글
효과적인 음성 인식 시스템을 만드는 VUI 디자인 원칙
![](/image/blog/kg/pk/1589142235C7sLH4mR.jpeg)
사용자 경험이 불만인지, 만족하는지를 결정하는 자동 음성 인식(ASR) 시스템의 성공에 가장 중요한 요소다.
대화를 하면서 이어질 내용에 대해 기대를 하게 되는데,
![](http://115.68.20.197/image/blog/te/bl/15891421998p3lnwP2.jpeg)
과학적으로 접근한다.
사용자의 지속적인 사용 의도를 향상시킬 수 있는
음성 에이전트 의인화 및 페르소나 전략 등을 설명한다.
![](/image/blog/te/fc/15891422581XLVZjiy.jpeg)
![](http://115.68.20.197/image/blog/km/qu/1589142245XWtFMEeT.jpeg)
VUI 디자인은 예술, 과학, 프로세스의 도전적인 조합이다.
저자들은 VUI 디자인에 관한
깊은 견해와 실제 경험을 바탕으로,
효과적인 음성 인터페이스에 필요한 사항을 알려준다.
이 책은 새롭고도 중요한 학문 뒤에
숨겨진 많은 미스터리를 풀었다.
- 빌 마이젤(Bill Meisel)/ 「Speech Recognition Update」 발행인이자 편집자
크리에이티브 커먼즈 라이센스 이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.