익명화된 데이터의 위험성, <알고리즘 윤리>

많은 사람이 익명은 안전하다고 믿는다.
실제로 인터넷 사이트에서 수집하는 사용자 정보는 극히 일부다.
그래서 사람들은 안심하고 인터넷에 댓글을 쓰고, 책과 영화에 별점을 매긴다.
하지만 익명화된 데이터는 정말 안전할까?

2006년, 넷플릭스는 공공 데이터 과학 경진대회를 개최했다.
넷플릭스의 영화 추천 엔진을 개선하기 위한 최고의 ‘협업 필터링’ 알고리즘을 찾아내는 대회였다.
협업 필터링은 나와 비슷한 사용자의 평가를 근거로 추천하도록 설계된 머신러닝의 한 분야다.
대회에는 프라이버시 우려가 있었으나 넷플릭스가 가지고 있는 정보는 각 사용자와 그의 영화 평가 정보뿐이었다.
모든 사용자 식별자를 제거했고, 성별이나 우편번호 같은 인구통계학 정보도 없었다.

그러나 오스틴 텍사스 대학교 박사 과정의 아르빈드 나라야난과 그의 지도교수 비탈리 슈마티코프는
익명화된 많은 넷플릭스 데이터에서 최소한 가입자의 기록이 포함된 부분을 알아낼 수 있으며,
최대로는 실명까지 추출할 수 있다고 발표했다.
만약 사용자가 IMDB처럼 실명으로 사용하는 평점 서비스를 사용하고 있다면,
그 데이터와 상호 참조해 대규모로도 식별이 가능하다고 말했다.

자신이 본 영화에 공개 감상평을 남긴 사람들을 데이터셋에서 식별해내는 행위가
프라이버시 침해라고 할 수 있냐고 물을 수도 있다.

하지만 이건 침해가 맞다.
사람들이 작성하는 공개 감상평은 일부만을 보여주지만, 넷플릭스 데이터는 평가한 모든 영화 목록을 보여주기 때문이다.
그런 데이터에서 정치적 성향이나 성적 지향 같은 민감한 정보가 노출될 수 있다.
실제로 이 대회로 넷플릭스를 고소하는 사람들이 있었고, 합의 후 2회 대회는 취소됐다.

우리가 인지하지 못하는 순간에도 데이터는 수집되고 있다.
MMCA서울에서 2019년 3월부터 7월까지 전시됐던 <불온한 데이터> 전은 이러한 위험성을 경고하고 있다.
불온한 데이터와 불온하지 않은 데이터의 차이는 무엇일까.
알고리즘에 윤리적 원칙을 포함하려면 어떻게 해야 하는가.

이 책을 읽으면서 함께 고민해볼 수 있을 것이다.

"윤리가 알고리즘에 '인코딩'될 수 있을까?
마이클 키언스와 아론 로스는 시의적절하게 알고리즘 기반 의사결정에 내재된 다양한 문제의 알고리즘 해법을 제시한다.
체계적이면서도 재미있게, 인간이 하는 판단의 지속적 중요성을 놓치지 않고,
알고리즘에서의 프라이버시와 공정성, 해석 가능성과 관련된 문제를 해결할 수 있는 잠재적 해법을 제시한다.”

도로테아 바우어(Dorothea Baur) 박사
국제 기술 윤리 컨설턴트, 작가

"데이터 과학 혁명은 중요한 윤리적 기반을 갖고 있다.
저자들은 인공지능 윤리학이 자체적인 학문으로 발전하는 데 필요한 중요한 사례를 제공한다.
윤리 알고리즘은 알고리즘화된 사회가 꼭 종말론적일 필요는 없다는 것을 보여준다.
인공지능에 관심이 있다면 누구나 필수로 이 책을 읽어야 할 것이다."

마르코스 로페즈 데 프라도(Marcos Lopez de Prado) 박사
트루 파지티브 테크놀로지스(True Positive Technologies) CEO,
「포트폴리오 관리 저널(The Journal of Portfolio Management)」의 2019년 올해의 퀀트

"이 책은 오늘날 전례 없이 데이터를 이용할 수 있는 세상에서
알고리즘이 맞닥뜨린 구체적이고 실제적인 사례를 통해 가까운 미래의 위협을 잘 보여주고 있다.
윤리 알고리즘은 명확하고 비범한 통찰력으로 가득 찬 책이다."

캐롤 라일리(Carol E. Reiley)
Drive.ai 공동설립자, 고문 및 이사회 멤버

| 참고 기사 : 거대 데이터의 시대, 그 사이에서 포착한 틈 <불온한 데이터>

Editor. 김다예(dykim@acornpub.co.kr)
알고리즘 윤리는 아래 인터넷서점에서 만나실 수 있습니다.
- YES24, 교보문고, 알라딘, 인터파크, 반디앤루니스

크리에이티브 커먼즈 라이센스 에이콘출판사에 의해 창작된 이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.