Top

연합학습

  • 원서명Federated Learning (ISBN 9781681736976)
  • 지은이치앙 양(Qiang Yang), 양 리우(Yang Liu), 용 청(Yong Cheng), 옌 캉(Yan Kang), 텐젠 첸(Tianjian Chen), 한 유(Han Yu)
  • 옮긴이이태휘
  • ISBN : 9791161756714
  • 35,000원
  • 2022년 08월 22일 펴냄
  • 페이퍼백 | 296쪽 | 188*235mm
  • 시리즈 : 데이터 과학

책 소개

요약

연합학습(연합 머신러닝)이란 훈련 데이터를 한데 모으지 않고 협력적으로 수행하는 머신러닝 기술이다. 기존 머신러닝 기술이 갖고 있던 한계를 넘어 컴퓨팅 자원 소모의 분산, 프라이버시 보호, 개인 맞춤형 학습 등을 실현할 수 있는 대안으로 주목받아 구글, 애플, IBM 등 많은 테크 기업에서 연구가 이뤄지고 있다. 이 책은 기존의 머신러닝 기술에 익숙한 개발자, 연구자들에게 연합학습 분야의 연구 동향을 두루 정리해서 알려준다. 우리말로는 처음으로 연합학습을 소개하는 책이다.

이 책에서 다루는 내용

여러 데이터 소유자가 모두 훈련에 사용할 각자의 로컬 데이터를 비공개로 유지하며 함께 협력해 서로 공유하는 예측 모델을 훈련시키고 이용하려면 어떻게 해야 할까? 전통적인 머신러닝 방식에서는 모든 데이터를 한곳에, 보통 데이터 센터에 모아야 한다. 그러면 자연히 사용자의 개인 정보 보호와 데이터 기밀 유지에 관한 법률을 위반할 소지가 다분하다. 오늘날 세계 곳곳에서는 테크 기업들에게 사용자 데이터를 개인 정보 보호법에 따라 신중하게 취급할 것을 요구한다. 유럽 연합의 일반 데이터 보호 규정(GDPR, General Data Protection Regulation)이 대표적인 예다. 이 책에서는 연합 머신러닝을 이용해 이러한 문제를 어떻게 해결하는지 설명한다. 분산 머신러닝, 암호화 및 보안, 경제 원리와 게임 이론에 근거한 인센티브 메커니즘 설계를 결합한 새로운 해결책을 제시한다. 여러 유형의 프라이버시 보전 머신러닝 솔루션과 각각의 기술 배경을 설명하고, 대표적인 실제 적용 사례를 살펴본다. 연합학습이 어떻게 책임 있는 AI 개발 및 응용에 대한 기술적, 사회적 요구에 부응하는 차세대 머신러닝의 밑거름이 될 수 있는지 알아본다.

이 책의 대상 독자

연합학습 입문서로, 컴퓨터 과학과 AI, ML 분야의 학생들, 그리고 빅데이터 및 AI 애플리케이션 개발자들을 대상으로 한다. 학부 고학년부터 대학원 학생들과 교수, 대학 및 연구 기관에 있는 연구자들까지 유용하게 읽을 수 있을 것이다. 법률이나 정책 담당 기관, 정부 부처에서 일하는 이들에게도 빅데이터 및 AI와 관련된 법적 문제에 대한 참고서가 될 수 있다. 강의용으로는 대학원 세미나 과정의 교재나 연합학습 문헌에 대한 참고서로 사용할 만하다.

저자/역자 소개

지은이의 말

이 책에서는 데이터가 여러 사이트에 흩어져 있고 소유하고 있는 개인이나 조직이 서로 달라서 데이터를 한데 모으기가 쉽지 않을 때, 어떻게 인공지능 애플리케이션에서 머신러닝 모델을 만들고 사용하는지 알려준다. 근래 들어 빅데이터 시대에 살고 있다는 얘기를 많이 들었을 텐데, 물론 빅데이터는 오늘날의 사회에서 AI의 발전에 불을 지피는 중요한 요소다. 하지만 진실은 이 시대가 서로 조각조각 분리돼 있는 스몰 데이터 사일로의 시대라는 것이다. 데이터는 휴대전화와 같은 에지 디바이스에서 수집되고 그곳에 저장된다. 병원 같은 조직에서는 특성상 제한된 사용자의 데이터밖에 보지 못하는 경우가 많다. 그러나 개인 프라이버시 및 보안 요구사항으로 인해 단순하게 서로 다른 조직에 있는 데이터를 합치는 것은 갈수록 더 어려워지고 있다. 이러한 상황에서, 연합 머신러닝이 실제적인 해결책으로 떠오르고 있다. 연합학습으로 사용자 프라이버시와 데이터 기밀 유지에 관한 요구사항을 준수하면서 여러 당사자가 공유하는 고성능 모델을 만들 수 있다.
연합학습 시스템을 개발하려면 ML 알고리듬, 분산 머신러닝, 암호화 및 보안, 프라이버시 보전 데이터 마이닝, 게임 이론 및 경제 원칙, 인센티브 메커니즘 설계, 법률 및 규제 요구사항 등 여러 분야의 기술이 필요하다. 이렇게 다양한 분야에 정통하기란 매우 어려운 일이며, 현재 이 분야를 연구하기 위한 자료는 여기저기 흩어져 있는 갖가지 연구 논문과 블로그 글뿐이다. 그렇기에 연합학습이라는 주제를 하나로 묶어서 종합적으로 소개하는 텍스트가 절실히 필요해 이 책을 내게 됐다.

지은이 소개

치앙 양(Qiang Yang)

위뱅크(WeBank)의 AI 부서장(AI 최고 책임자)이자 홍콩 과학기술대학교 컴퓨터공학과 석좌교수다. 그 전에 학과장을 맡은 바 있으며, 빅데이터 인스티튜트(Big Data Institute)의 설립이사(2015~2018)이기도 했다. 관심 분야는 AI, 머신러닝, 데이터 마이닝 등이며 특히 전이학습, 자동 계획 수립, 연합학습, 사례 기반 추론에 관심을 갖고 있다. ACM, AAAI, IEEE, IAPR, AAAS 등 여러 국제 협회의 회원이다. 메릴랜드대학교 칼리지 파크 캠퍼스에서 1989년에 컴퓨터공학 박사학위를, 1985년에 천체물리학 석사학위를 받았다. 학사학위는 천체물리학으로 1982년에 베이징대학교에서 받았다. 워털루대학교(1989~1995)와 사이먼프레이저대학교(1995~2001)의 교수를 역임했다. 「ACM TISTACM Transactions on Intelligent Systems and Technology」와 「IEEE TBDIEEE Transactions on Big Data」 저널의 초대 편집장을 지냈다. IJCAIInternational Joint Conference on AI의 대회장(2017~2019)과 AAAI(Association for the Advancement of AI)의 집행 이사회 멤버(2016~2020)로 봉사했다. 수상 경력으로는 ‘2004/2005 ACM KDDCUP 챔피언십’, ‘ACM SIGKDD 특별 공로상(Distinguished Service Award)’(2017), ‘AAAI 혁신적인 AI 애플리케이션 상(Innovative AI Applications Award)’(2016) 등이 있다. 화웨이(Huawei)의 ‘노아의 방주 연구소(Noah’s Ark Lab)’ 초대 연구소장(2012~2014)을 지냈으며, AI 플랫폼 회사인 포패러다임(4Paradigm)의 공동 설립자이기도 하다. 지은 책으로는 『Intelligent Planning』(Springer, 1997), 『Crafting Your Research Future』(Morgan & Claypool, 2012), 『Constraint-based Design Recovery for Software Engineering』(Springer, 1997) 등이 있다.

양 리우(Yang Liu)

위뱅크의 AI 부서 선임 연구원이다. 연구 관심 분야는 머신러닝, 연합학습, 전이학습, 다중 에이전트 시스템, 통계 역학 등이며, 이러한 기술들을 금융업에 적용하는 연구에 관심을 갖고 있다. 2012년에 프린스턴대학교에서 박사학위를 받았으며, 2007년에 칭화대학교에서 학사학위를 받았다. 다수의 특허를 보유하고 있으며, 「ACM TIST」와 「Nature」를 비롯한 최우수 과학 저널에 논문을 출간한 바 있다.

용 청(Yong Cheng)

위뱅크의 AI 부서 선임 연구원이다. 그 전에는 화웨이 테크놀로지스(Huawei Technologies Co., Ltd.)에서 선임 엔지니어, 벨 연구소(Bell Labs) 독일 지사에서 선임 연구원으로 일했다. 홍콩에 있는 화웨이-HKUST 이노베이션 연구소에서 연구원으로 일하기도 했다. 주요 연구 분야는 심층학습, 연합학습, 컴퓨터 비전 및 OCR, 수학적 최적화 및 알고리듬, 분산 컴퓨팅, 혼합 정수 프로그래밍(Mixed-Integer Programming) 등이다. 20편 이상의 저널 및 콘퍼런스 논문을 출간했으며, 40건 이상의 특허를 출원했다. 중국 항저우에 있는 저장대학교에서 2006년에 학사(최우수 졸업) 학위를, 홍콩 과학기술대학교와 독일 다름슈타트 공과대학교에서 각각 2010년과 2013년에 석사, 박사(최우수 졸업)학위를 받았다. 다름슈타트 공과대학교에서 2014년에 최우수 박사학위 논문상을, 2006년에 저장대학교에서 최우수 학사학위 논문상을 받았다. ICASSP’15에서 ‘혼합 정수 원뿔 프로그래밍(Mixed-Integer Conic Programming)’에 관한 튜토리얼을 진행했으며, (IJCAI’19와 함께 열린) FML’19의 프로그램 위원이었다.

옌 캉(Yan Kang)

위뱅크의 AI 부서 선임 연구원이다. 주로 프라이버시 보전 머신러닝과 연합 전이학습 기법들을 연구 개발하고 있다. 미국 메릴랜드대학교 볼티모어 카운티에서 석사, 박사학위를 받았다. 이종 데이터 통합(heterogeneous data integration)을 위한 머신러닝과 시맨틱 웹(semantic web)을 주제로 한 박사 연구로 박사 펠로우십을 지원받았다. 박사 과정 동안 미국 국립표준기술원(NIST, National Institute of Standards and Technology)과 미국 국립과학재단(National Science Foundation)과 협동으로 수행하는 여러 프로젝트에 참여하며 온톨로지(ontology) 통합 시스템을 설계하고 개발했다. 상용 소프트웨어 프로젝트 경험도 충분히 갖고 있다. 위뱅크에 합류하기 전에는 4년여 동안 스타독 유니언(Stardog Union Inc.)과 서너 코퍼레이션(Cerner Corporation)에 근무하며 시스템을 설계하고 개발하는 일을 했다.

텐젠 첸(Tianjian Chen)

위뱅크의 AI 부서 부(副)부서장이다. 연합학습 기술에 기반한 Banking Intelligence Ecosystem을 구축하는 책임을 맡고 있다. 위뱅크에 합류하기 전에는 바이두 파이낸스(Baidu Finance)의 최고 아키텍트, 바이두의 수석 아키텍트였다. 대규모 분산 시스템 설계 분야에 12년 이상의 경험을 보유하고 있으며, 웹 검색 엔진, P2P 스토리지, 유전체학, 추천 시스템, 디지털 뱅킹, 머신러닝 등 다양한 응용 분야에 기술 혁신을 가져왔다.

한 유(Han Yu)

싱가포르 난양기술대학교 컴퓨터공학과의 조교수다. 2015년부터 2018년까지 최고 권위의 리콴유 포스트닥 펠로우십(Lee Kuan Yew Post-Doctoral Fellowship)을 받았다. 난양기술대학교에 합류하기 전에는 휴렛팩커드(HP)에서 임베디드 소프트웨어 엔지니어로 일했다. 난양기술대학교에서 컴퓨터공학으로 박사학위를 받았다. 주로 온라인 볼록 최적화(convex optimization), 윤리적 AI, 연합학습 그리고 이러한 기술들을 크라우드소싱(crowdsourcing) 같은 복잡한 협업 시스템에 적용하는 연구를 한다. 120편 이상의 연구 논문을 최우수 국제 콘퍼런스 및 저널에 출간했으며 수상 경력도 다수 보유하고 있다

옮긴이의 말

지금 옆에 놓여 있는 스마트폰에서 연합학습이 수행 중일 수도 있겠다. 연합학습이란 훈련 데이터를 한데 모으지 않고 협력적으로 수행하는 머신러닝 기술로, 구글에서 2016년에 「Federated Learning: Strategies for Improving Communication Efficiency」라는 논문을 발표하면서 하나의 용어로 자리 잡혔다. 연합학습은 기존의 머신러닝 기술이 지닌 한계를 넘어 컴퓨팅 자원 소모의 분산, 프라이버시 보호, 개인 맞춤형 학습 등을 실현할 수 있는 대안으로 주목받으며 구글, 애플, IBM 등의 거대 기업을 비롯해 많은 테크 기업에서 연구를 진행 중이다. 이에 발맞춰 국내에서도 네이버, 카카오S, KT 등 여러 기업에서 연구 개발을 진행하고 있으며 학계에서도 연구는 물론이고 학회 강좌 등을 통해 기술 전파에 힘쓰고 있다. 이 책은 직접 연합학습 프레임워크를 개발한 저자들이 기존의 머신러닝 기술에 익숙한 개발자, 연구자에게 연합학습 분야의 연구 동향을 두루 정리해서 알려준다. 연합학습이 발전해온 전반적인 흐름이나 관련 개념을 익히는 데는 알맞으나 실습 위주의 머신러닝 실용서는 아니며 한 분야를 깊이 다루고 있지 않다. 이 책을 시작점으로 삼아 전체적인 지형도를 파악한 다음, 이를 발판으로 좀 더 구체적으로 관심 있는 분야로 나아가면 좋으리라 생각한다. 실제로 연합학습을 구현해보려면 저자들이 참여한 페드(AIFedAI) 그룹의 페이트(FATE)를 비롯해 텐서플로 페더레이티드(Tensorflow Federated), IBM 페더레이티드 러닝(Federated Learning), 인텔의 오픈(FLOpenFL), 엔비디아(NVIDIA)의 클라라(Clara), 오픈마인드(OpenMined)의 파이시프트(PySyft) 등 여러 오픈소스 연합학습 프레임워크가 나와 있으므로 개발 환경이나 성향에 따라 선택해 사용해보길 바란다. 이 책은 우리말로 연합학습을 처음 소개하는 책이라서 그만큼 책임을 느낀다. 기존의 머신러닝 개념에 더해 분산학습까지 고려해야 하는 연합학습의 특성상 일반 개발자나 사용자로서는 연합학습에 접근하기가 더 어려운 것이 사실이다. 아무쪼록 이 책이 독자분들이 연합학습에 다가가는 데 도움이 되기를 소망한다.

옮긴이 소개

이태휘

산업체와 학교, 연구기관을 거치며 여러 시스템 소프트웨어 개발 프로젝트를 수행했다. 2007년부터 2010년까지 티맥스소프트에서 근무하며 티베로 관계형 데이터베이스 개발에 참여했다. 2014년에 서울대학교 컴퓨터공학부에서 박사학위를 받았으며, 현재 한국전자통신연구원에서 선임연구원으로 재직하며 머신러닝 모델을 이용한 근사 질의 처리 엔진을 개발하는 TrainDB 프로젝트를 이끌고 있다. 에이콘출판사에서 펴낸 『퀄리티 코드』(2017), 『양자 컴퓨팅 입문』(2020), 『양자 컴퓨팅: 이론에서 응용까지』(2020)를 우리말로 옮겼다.

목차

목차
  • 1장. 서론
  • 1.1 동기
  • 1.2 해결책으로서의 연합학습
  • 1.2.1 연합학습의 정의
  • 1.2.2 연합학습의 범주
  • 1.3 연합학습의 발전 현황
  • 1.3.1 연합학습 분야의 연구 이슈
  • 1.3.2 오픈소스 프로젝트
  • 1.3.3 표준화 활동
  • 1.3.4 FedAI 생태계
  • 1.4 이 책의 구성

  • 2장. 배경지식
  • 2.1 프라이버시 보전 머신러닝
  • 2.2 프라이버시 보전 머신러닝과 보안 머신러닝
  • 2.3 프라이버시 위협 모델과 보안 모델
  • 2.3.1 프라이버시 위협 모델
  • 2.3.2 적대자 모델과 보안 모델
  • 2.4 프라이버시 보전 기법
  • 2.4.1 다자간 보안 계산
  • 2.4.2 동형 암호
  • 2.4.3 차분 프라이버시

  • 3장. 분산 머신러닝
  • 3.1 분산 머신러닝 소개
  • 3.1.1 분산 머신러닝의 정의
  • 3.1.2 분산 머신러닝 플랫폼
  • 3.2 확장성 지향 분산 머신러닝
  • 3.2.1 대규모 머신러닝
  • 3.2.2 확장성 지향 분산 머신러닝 기법
  • 3.3 프라이버시 지향 분산 머신러닝
  • 3.3.1 프라이버시 보전 의사 결정 트리
  • 3.3.2 프라이버시 보전 기법
  • 3.3.3 프라이버시 보전 분산 머신러닝 기법
  • 3.4 프라이버시 보전 경사 하강법
  • 3.4.1 순수 연합학습
  • 3.4.2 프라이버시 보전 방식
  • 3.5 요약

  • 4장. 수평 연합학습
  • 4.1 수평 연합학습의 정의
  • 4.2 수평 연합학습 아키텍처
  • 4.2.1 클라이언트-서버 아키텍처
  • 4.2.2 피어 투 피어 아키텍처
  • 4.2.3 글로벌 모델 평가
  • 4.3 연합 평균 알고리듬
  • 4.3.1 연합 최적화
  • 4.3.2 FedAvg 알고리듬
  • 4.3.3 보안 FedAvg 알고리듬
  • 4.4 FedAvg 알고리듬의 개선
  • 4.4.1 통신 효율성
  • 4.4.2 클라이언트 선택
  • 4.5 관련 연구
  • 4.6 도전 과제와 향후 전망

  • 5장. 수직 연합학습
  • 5.1 수직 연합학습의 정의
  • 5.2 수직 연합학습의 아키텍처
  • 5.3 수직 연합학습 알고리듬
  • 5.3.1 보안 연합 선형 회귀
  • 5.3.2 보안 연합 트리 부스팅
  • 5.4 도전 과제와 향후 전망

  • 6장. 연합 전이학습
  • 6.1 이종 연합학습
  • 6.2 연합 전이학습
  • 6.3 연합 전이학습 프레임워크
  • 6.3.1 덧셈 동형 암호
  • 6.3.2 연합 전이학습의 훈련 과정
  • 6.3.3 연합 전이학습의 예측 과정
  • 6.3.4 보안 분석
  • 6.3.5 비밀 공유 기반 FTL
  • 6.4 도전 과제와 향후 전망

  • 7장. 연합학습을 위한 인센티브 메커니즘 설계
  • 7.1 기여자 보상
  • 7.1.1 이익 배분 게임
  • 7.1.2 역경매
  • 7.2 공정성 인지형 이익 배분 프레임워크
  • 7.2.1 기여 모델링
  • 7.2.2 비용 모델링
  • 7.2.3 불만도 모델링
  • 7.2.4 시간적 불만도 모델링
  • 7.2.5 정책 조정자
  • 7.2.6 보상 비중 계산
  • 7.3 토의

  • 8장. 컴퓨터 비전, 자연어 처리, 추천 시스템을 위한 연합학습
  • 8.1 컴퓨터 비전을 위한 연합학습
  • 8.1.1 연합 컴퓨터 비전
  • 8.1.2 관련 연구
  • 8.1.3 도전 과제와 향후 전망
  • 8.2 자연어 처리를 위한 연합학습
  • 8.2.1 연합 자연어 처리
  • 8.2.2 관련 연구
  • 8.2.3 도전 과제와 향후 전망
  • 8.3 추천 시스템을 위한 연합학습
  • 8.3.1 추천 모델
  • 8.3.2 연합 추천 시스템
  • 8.3.3 관련 연구
  • 8.3.4 도전 과제와 향후 전망

  • 9장. 연합 강화 학습
  • 9.1 강화 학습 소개
  • 9.1.1 정책
  • 9.1.2 보상
  • 9.1.3 가치 함수
  • 9.1.4 환경 모델
  • 9.1.5 강화 학습 사례
  • 9.2 강화 학습 알고리듬
  • 9.3 분산 강화 학습
  • 9.3.1 비동기 분산 강화 학습
  • 9.3.2 동기 분산 강화 학습
  • 9.4 연합 강화 학습
  • 9.5 도전 과제와 향후 전망

  • 10장. 응용 분야
  • 10.1 금융
  • 10.2 헬스케어
  • 10.3 교육
  • 10.4 어반 컴퓨팅과 스마트 시티
  • 10.5 에지 컴퓨팅과 사물 인터넷
  • 10.6 블록체인
  • 10.7 5G 모바일 네트워크

  • 11장. 요약과 전망

  • 부록 A 데이터 보호에 관한 법률
  • A.1 유럽 연합에서의 데이터 보호
  • A.2 미국에서의 데이터 보호

도서 오류 신고

도서 오류 신고

에이콘출판사에 관심을 가져 주셔서 고맙습니다. 도서의 오탈자 정보를 알려주시면 다음 개정판 인쇄 시 반영하겠습니다.

오탈자 정보는 다음과 같이 입력해 주시면 됩니다.

(예시) p.100 아래에서 3행 : '몇일'동안 -> 며칠동안