책 소개
요약
권위 있는 음성 사용자 인터페이스(VUI) 디자인 가이드로 포괄적인 내용을 다룬다. VUI는 사용자 경험이 불만이나 만족감을 결정하는 자동 음성 인식(ASR) 시스템의 성공에 가장 중요한 요소다. 이 책은 효과적인 VUI 디자인을 만드는 실용적인 방법론을 설명한다. 이 방법론은 언어학, 심리학, 언어 기술의 원리를 과학적으로 접근한다. ASR 개발 시장 선두주자인 뉘앙스 커뮤니케이션즈의 저자들이 금융 중개업 서비스 디자인 사례를 중심으로 VUI의 디자인 원칙과 사용자의 지속적인 사용 의도를 향상시킬 수 있는 음성 에이전트 의인화 및 페르소나 전략 등을 설명한다.
이 책에 쏟아진 찬사
마이크 코헨은 음성 기술 분야의 거물이다. 저자들은 수년간 쌓아온 VUI 디자인의 소중한 경험을 이 책에 담았다. 사용자 인터페이스를 디자인한다면 반드시 읽어야 할 책이다.
- 존 켈리(John Kelly)/ 「Speech Technology Magazine」 편집장
VUI 디자인은 예술, 과학, 프로세스의 도전적인 조합이다. 저자들은 VUI 디자인에 관한 깊은 견해로 광범위한 실제 경험을 늘려 나가며, 효과적인 음성 인터페이스에 필요한 사항을 알려준다. 이 책은 새롭고도 중요한 학문 뒤에 숨겨진 많은 미스터리를 풀었다.
- 빌 마이젤(Bill Meisel)/ 「Speech Recognition Update」 발행인이자 편집자
이 책이 갖는 강점은 연구 문헌의 깊이와 기반이다. VUI 디자인에 관해 상세한 설명서를 제공하는 시늉만 내는 게 아니라, 정보에 입각해 일련의 디자인 원칙을 제공하고 이 원칙을 특정 문제에 적용하도록 신뢰성 있는 정보를 제공한다.
- 크리스 슈만드(Chris Schmandt)/ MIT 미디어랩 수석 과학자
현재의 음성 인식 시스템은 인간보다 나은 것은 아니지만 한 단어를 인식할 수 있다. 효과적인 음성 시스템을 구축하는 것은 여전히 중요한 도전 과제다. 이 책은 효과적인 VUI를 생성하는 데 필요한 배경과 단계를 제공해 문제를 해결한다. 금융 중개업 디자인 사례를 중심으로 구성된 이 책은 성공적인 음성 애플리케이션을 구축하는 데 필요한 모든 접근 방식을 다룬다. 문어와 구어 간의 차이를 분석하는 것에서부터 프롬프트 디자인과 운율 체계 계획까지 이 책은 음성 애플리케이션 디자인에 관련해 연구하는 모든 사람의 표준이 돼야 한다.
- 해리 M. 허쉬(Harry M. Hersh)/ Users Voice
이 책의 대상 독자
■ 실무자: 주요 독자는 현직 실무자나 미래의 실무자가 될 사람들이다. 초보자가 봐도 모든 자료를 이해할 수 있도록 토대를 마련하려고 노력했다. 이 책은 경험이 풍부한 디자이너와 경험이 없는 디자이너 모두에게 가치를 제공한다. 실무자들은 모든 장의 내용을 읽고 필요한 도움을 얻을 수 있을 것이다.
■ HCI(Human–Computer Interfaces) 학생: 학생들은 VUI가 다른 유형의 사용자 인터페이스와 많은 공통점이 있음을 알게 될 것이다. 반면, 다수의 문제와 디자인 접근 방식은 음성 사용자 인터페이스에서만 발견할 수 있는 고유한 것이다. 전반적으로 유용하지만 특히 1~4장, 6장, 8~13장, 15~16장에서 많은 도움을 얻을 수 있다.
■ 비즈니스 관리자: 음성 기술로 조직의 니즈를 충족할 수 있는 방법을 결정하는 이들로 1~4장과 6장에서 많은 도움을 얻을 수 있다.
■ 프로젝트 관리자: 애플리케이션을 디자인하고 배포하는 단계를 알아야 하는 이들은 1~4장, 6~8장, 14~15장, 18장에서 많은 도움을 얻을 수 있다.
이 책의 구성
1부, 소개: 1장부터 3장에서는 음성 사용자 인터페이스 및 디자인 문제의 개요, 기술 설명과 책 전반에 걸쳐 자세히 설명할 디자인 방법론에 대한 고차원적 관점을 포함한 입문 자료를 제공한다.
2부, 정의 단계: 4장부터 7장에서는 요구 사항을 파악하고, 상세 디자인을 하기 전에 상위 수준의 디자인 결정과 같은 프로젝트의 정의 단계를 다룬다.
3부, 디자인 단계: 8장부터 14장에서는 상세 디자인 단계를 다룬다. 디자인 원리는 실제 애플리케이션에 적용하는 방법을 많은 예제를 들어 자세히 설명한다.
4부, 실현 단계: 15장부터 18장에서는 실현 단계인 개발, 테스트, 조정을 다룬다. 문법 개발과 같은 음성 사용자 인터페이스 디자인만의 고유한 여러 가지 문제를 설명한다.
각 부는 해당 디자인 단계의 방법론적 세부 사항을 다루는 장으로 시작한다. 그다음에는 해당 단계와 관련된 디자인 원칙과 접근법을 설명하며, 각 절의 마지막 장에서는 디자인 예제를 제시한다.
목차
목차
- 1부. 소개
- 1장. 음성 사용자 인터페이스 소개
- 1.1 음성 사용자 인터페이스란?
- 1.1.1 청각 인터페이스
- 1.1.2 대화 인터페이스
- 1.2 왜 음성인가?
- 1.3 앞으로 어떻게 해야 하는가?
- 2장. 음성 언어 기술 개요
- 2.1 음성 언어 시스템의 구조
- 2.1.1 음성 언어 시스템의 요소
- 2.1.2 인식
- 2.1.3 다른 음성 기술
- 2.2 음성 기술이 디자인 결정에 미치는 영향
- 2.2.1 성능 문제
- 2.2.2 문제 해결
- 2.2.3 정의 파일
- 2.3 결론
- 3장. 방법론 개요
- 3.1 방법론적 원칙
- 3.1.1 최종 사용자 입력
- 3.1.2 통합 비즈니스와 사용자 니즈
- 3.1.3 철저한 초기 작업
- 3.1.4 대화 디자인
- 3.1.5 맥락
- 3.2 방법론의 단계
- 3.2.1 요구 사항 정의
- 3.2.2 상위 디자인
- 3.2.3 상세 디자인
- 3.2.4 개발
- 3.2.5 테스트
- 3.2.6 튜닝
- 3.3 실제 애플리케이션에 방법론 적용
- 3.3.1 단계 조정
- 3.3.2 실제 예산과 시간 제약 처리
- 3.4 결론
- 2부. 정의 단계: 요구 사항 수집과 상위 디자인
- 4장. 요구 사항과 상위 디자인 방법론
- 4.1 요구 사항 정의
- 4.1.1 비즈니스 이해
- 4.1.2 사용자 이해
- 4.1.3 애플리케이션 이해
- 4.2 상위 디자인
- 4.2.1 주요 디자인 기준
- 4.2.2 다이얼로그 전략과 문법 유형
- 4.2.3 보편적인 다이얼로그 요소
- 4.2.4 반복 용어
- 4.2.5 메타포
- 4.2.6 페르소나
- 4.2.7 비언어 오디오
- 4.3 결론
- 5장. 상위 디자인 요소
- 5.1 다이얼로그 전략과 문법 유형
- 5.2 보편적인 다이얼로그 요소
- 5.2.1 오류 복구 전략
- 5.2.2 보편성
- 5.2.3 로그인
- 5.3 결론
- 6장. 계획적으로 페르소나 만들기
- 6.1 페르소나란 무엇인가?
- 6.2 페르소나는 어디에서 오는가?
- 6.3 페르소나 디자인 체크리스트
- 6.3.1 메타포와 역할
- 6.3.2 브랜드와 이미지
- 6.3.3 최종 사용자
- 6.3.4 애플리케이션
- 6.4 페르소나 정의
- 6.5 결론
- 7장. 샘플 애플리케이션: 요구 사항과 상위 디자인
- 7.1 렉싱턴 증권사
- 7.2 요구 사항 정의
- 7.2.1 비즈니스 목표와 맥락 이해
- 7.2.2 호출자 이해
- 7.2.3 애플리케이션 이해
- 7.3 상위 디자인
- 7.3.1 주요 디자인 기준
- 7.3.2 다이얼로그 전략과 문법 형식
- 7.3.3 보편적인 다이얼로그 요소
- 7.3.4 반복 용어
- 7.3.5 메타포
- 7.3.6 페르소나
- 7.3.7 비언어적인 오디오
- 7.4 결론
- 3부. 디자인 단계: 상세 디자인
- 8장. 상세 디자인 방법론
- 8.1 다이얼로그 상태 분석
- 8.2 호출 흐름 디자인
- 8.3 프롬프트 디자인
- 8.3.1 대화형 디자인
- 8.3.2 청각 디자인
- 8.4 사용자 테스트
- 8.4.1 형식적인 사용성 테스트
- 8.4.2 카드 분류
- 8.5 디자인 원칙
- 8.6 결론
- 9장. 인지 부하 최소화
- 9.1 개념의 복잡성
- 9.1.1 불변성
- 9.1.2 일관성
- 9.1.3 맥락 설정
- 9.2 기억 부하
- 9.2.1 메뉴 크기
- 9.2.2 최신
- 9.2.3 지시 사항
- 9.3 주의
- 9.4 결론
- 10장. 계획적인 프롬프트
- 10.1 담화로서의 대화
- 10.2 응집력
- 10.2.1 대명사와 시간 부사
- 10.2.2 담화 표지
- 10.3 정보 구조
- 10.4 구어체 영어 대 문어체 영어
- 10.4.1 포인터 단어
- 10.4.2 축약
- 10.4.3 ‘must’와 ‘may’
- 10.4.4 ‘Will’과 ‘Going To’
- 10.4.5 “Romans Perspire, Anglo-Saxons Sweat”(로마인은 땀을 흘리고,
- 앵글로색슨족은 땀을 흘린다)
- 10.5 용어 및 일관성
- 10.6 은어
- 10.7 공동 원칙
- 10.8 결론
- 11장. 운율 체계 계획하기
- 11.1 운율이란?
- 11.2 운율의 기능
- 11.3 강세
- 11.4 억양
- 11.4.1 기본 억양 음조 곡선
- 11.4.2 맥락의 음조 곡선
- 11.5 전화번호 연결
- 11.5.1 전화번호의 운율 구조
- 11.5.2 숫자별 연결
- 11.6 연결 접합 최소화
- 11.7 멈춤
- 11.8 TTS 가이드라인
- 11.8.1 애플리케이션 사용 분석
- 11.8.2 적절한 음성 선택
- 11.8.3 가능하면 오디오 녹음 사용
- 11.8.4 이해하기 쉬운 콘텐츠 만들기
- 11.8.5 적절한 형식 사용
- 11.8.6 자연스러움을 위한 문자 마크업
- 11.9 결론
- 12장. 효율성과 명확성의 극대화
- 12.1 효율성
- 12.1.1 작업 손실 방지
- 12.1.2 빈번한 작업을 효율적으로 수행
- 12.1.3 바로가기 제공
- 12.1.4 호출자 모델링을 사용해 단계 저장
- 12.2 명확성
- 12.2.1 자연 언어 이해를 위한 멘탈 모델
- 12.2.2 표식을 통한 탐색 명확성
- 12.3 효율성 및 명확성 균형 조정
- 12.3.1 개별 프롬프트에서 강세 명확성
- 12.3.2 단계적인 프롬프트
- 12.3.3 끼어들기 사용
- 12.4 결론
- 13장. 정확성 최적화와 오류 복구
- 13.1 정확성 측정
- 13.2 정확성 극대화를 위한 다이얼로그 디자인 가이드라인
- 13.3 오류 복구
- 13.3.1 확인 전략
- 13.3.2 거부 및 시간 초과로부터 복구
- 13.4 결론
- 14장. 샘플 애플리케이션: 상세 디자인
- 14.1 호출 흐름 디자인
- 14.1.1 로그인 서브 다이얼로그
- 14.1.2 견적 서브 다이얼로그
- 14.1.3 거래 서브 다이얼로그
- 14.2 프롬프트 디자인
- 14.3 사용자 테스트
- 14.4 결론
- 4부. 구현 단계: 개발, 테스트, 튜닝
- 15장. 개발, 테스트, 튜닝 방법론
- 15.1 개발
- 15.1.1 애플리케이션 개발
- 15.1.2 문법 개발
- 15.1.3 오디오 제작
- 15.2 테스트
- 15.2.1 애플리케이션 테스트
- 15.2.2 인식 테스트
- 15.2.3 평가용 사용성 테스트
- 15.3 튜닝
- 15.3.1 다이얼로그 튜닝
- 15.3.2 인식 튜닝
- 15.4 결론
- 16장. 문법 작성
- 16.1 문법 개발
- 16.1.1 규칙 기반 문법 개발
- 16.1.2 통계 언어 모델을 위한 문법 개발
- 16.1.3 탄탄한 자연어 문법 개발
- 16.1.4 통계적 자연어 문법 개발
- 16.2 문법 테스트
- 16.2.1 규칙 기반 문법 테스트
- 16.2.2 통계 언어 모델 테스트
- 16.2.3 탄탄한 자연어 문법 테스트
- 16.2.4 통계적 자연어 문법 테스트
- 16.3 문법 튜닝
- 16.3.1 튜닝 규칙 기반 문법
- 16.3.2 통계 언어 모델 튜닝
- 16.3.3 탄탄한 자연어 문법 튜닝
- 16.3.4 통계적 자연어 문법 튜닝
- 16.4 결론
- 17장. 성우와 함께 작업하기
- 17.1 성공을 위한 스크립트
- 17.1.1 도입 사례 연구
- 17.1.2 스크립트 팁
- 17.2 성우 선택
- 17.2.1 전문성 및 경험
- 17.2.2 코치 능력
- 17.2.3 페르소나에 맞추기
- 17.2.4 데모 테이프(또는 CD)와 오디션
- 17.3 녹음 세션 실행
- 17.3.1 절차상 고려 사항
- 17.3.2 음성 코치하기
- 17.4 결론
- 18장. 샘플 애플리케이션: 개발, 테스트, 튜닝
- 18.1 개발
- 18.1.1 애플리케이션 개발
- 18.1.2 문법 개발
- 18.1.3 오디오 제작
- 18.2 테스트
- 18.2.1 평가용 사용성 테스트
- 18.3 튜닝
- 18.3.1 다이얼로그 튜닝
- 18.3.2 인식 튜닝
- 18.3.3 문법 튜닝
- 18.3.4 사용자 설문 조사
- 19장. 결론
- 부록
관련 블로그 글
효과적인 음성 인식 시스템을 만드는 VUI 디자인 원칙
사용자 경험이 불만인지, 만족하는지를 결정하는 자동 음성 인식(ASR) 시스템의 성공에 가장 중요한 요소다.
대화를 하면서 이어질 내용에 대해 기대를 하게 되는데,
과학적으로 접근한다.
사용자의 지속적인 사용 의도를 향상시킬 수 있는
음성 에이전트 의인화 및 페르소나 전략 등을 설명한다.
VUI 디자인은 예술, 과학, 프로세스의 도전적인 조합이다.
저자들은 VUI 디자인에 관한
깊은 견해와 실제 경험을 바탕으로,
효과적인 음성 인터페이스에 필요한 사항을 알려준다.
이 책은 새롭고도 중요한 학문 뒤에
숨겨진 많은 미스터리를 풀었다.
- 빌 마이젤(Bill Meisel)/ 「Speech Recognition Update」 발행인이자 편집자
크리에이티브 커먼즈 라이센스 이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.