[기사] 페이스북 인공지능 ‘머신러닝’ ‘딥러닝’의 현재와 미래

기타/참고자료

[기사] 페이스북 인공지능 ‘머신러닝’ ‘딥러닝’의 현재와 미래

꾸준희

|2017. 7. 5. 17:05

728x90

출처 : IT 뉴스

인공지능, 머신러닝, 딥러닝에 대해서 잘 정리된 기사를 발췌했다. 2015년 기사라서, 기술이 다소 옛것으로 느껴질 수 있다. 텐서플로우가 공개되었다는 기사를 보니 새삼 새롭게 느껴지니 말이다....

페이스북 인공지능 ‘머신러닝’ ‘딥러닝’의 현재와 미래

2015년 12월 3일

페이스북의 최고기술경영자(CTO)인 마이크 슈뢰퍼(Mike Schroepfer)는 그간 오랫동안 연구해온 인공지능(AI) 리서치에 대한 그간의 성과를 2015년 11월에 발표했다. 이 성과는 페이스북의 인공지능리서치(FAIR, Facebook’s AI Research) 팀으로부터 나온 것이다. 인공지능의 컴퓨터와 소프트웨어를 훈련시키고 학습시켜 사진들 속에서 사물들과 인물들을 구별해 내고 여기에 자연언어를 융합하고 있다. 더 나아가 예측(predict)과 계획(plan)을 할 수 있는 능력들이 포함되어 있으며 또한 개인 음성 비서인 ‘M’도 포함되어 있다.

AI-머신 러닝-딥 러닝의 관계, 지도학습과 비지도학습, 그리고 GPU와 CPU에서의 학습과 구동, ML-DL 대가들의 영입과 인수합병, 경쟁사들의 최근 행보, 그리고 페이스북의 그간 연구결과를 살펴봄으로써, AI-ML-DL이 메신저 플랫폼으로 업그레이드되고 타 서비스들과 융합되었을 때, 페이스북의 미래 경쟁력과 그에 따른 인사이트를 제공하고자 한다.

1. 인공지능(AI)-기계학습(ML)-딥 러닝(DL)

2. 지도(감독/교사) 학습과 비지도 학습

3. GPU냐 CPU냐?

4. ML-DL 대가들의 영입과 인수합병

5. 경쟁사들의 ML 오픈 소스 공개

5-1. 페이스북 – 오픈 소스 토치(Torch) DL 모듈 제일 먼저 공개

5-2. 구글 – 텐서플로우 오픈 소스 프로젝트 공개

5-3. MS – 프로젝트 옥스포드와 툴킷 DMTK 공개

6 페이스북의 그간 연구 결과

6-1. 사물감지(Object detection)

6-2. 자연언어 이해가 이미지 인식을 만나다

6-3. 사진 속의 사람 얼굴인식 기술

6-4. 예측 학습(Predictive Learning)

6-5. 바둑을 둘 수 있는 계획(Planning)

6-6. 지도학습으로 인간과 같은 음성 비서 ‘M’

7. 결론 및 인사이트

참고기사/문헌

1. 인공지능(AI)-기계학습(ML)-딥 러닝(DL)

인공지능은 최고 높은 상위개념이다. 우리 인간의 뇌와 뉴런 신경망을 모방해 언젠가는 컴퓨터나 로봇들이 인간처럼 사고하고 행동하게 하는 것이다. 우리는 사진만으로 개와 고양이를 아주 쉽게 구분할 수 있지만 컴퓨터는 구분하지 못한다. 이를 위해 기계학습(Machine Learning)이라는 방법이 고안됐다. 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 기술이다. 저장된 개 사진과 비슷한 사진이 입력되면, 이를 개 사진이라고 컴퓨터가 분류하도록 하는 것이다.

데이터를 어떻게 분류할 것인가를 놓고 이미 많은 기계학습 알고리즘이 등장했다. 의사결정나무(Decision Tree)나 베이지안망(Bayesian network), 서포트벡터머신(support vector machine, SVM), 그리고 인공신경망(Artificial neural network, ANN) 등이 대표적이다. 의사결정나무는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 베이지안망은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 베이지안망은 비지도(감독/교사) 학습(unsupervised learning)을 통한 데이터 마이닝(data mining)에 적합하다. 서포트벡터머신은 패턴 인식과 자료 분석을 위한 지도(감독/교사) 학습(supervised learning)의 모델이며, 주로 분류와 회귀 분석을 위해 사용한다.

이 중 딥 러닝(Deep Learning, https://en.wikipedia.org/wiki/Deep_learning)은 인공신경망의 후예다. 인공신경망을 이용하여 데이터를 군집화하거나 분류하는 데 사용하는 기술이 바로 딥 러닝이다. 기계학습과 인지과학에서의 인공신경망은 생물학의 신경망(동물의 중추신경계, 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 인공신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다.

2. 지도(감독/교사) 학습과 비지도 학습

인공신경망을 이용하는 딥 러닝의 핵심은 분류를 통한 예측이다. 수많은 데이터 속에서 패턴을 발견해 인간이 사물을 구분하듯 컴퓨터가 데이터를 나눈다. 이 같은 분별 방식은 두 가지로 나뉜다. 지도자(감독자/교사)의 신호(정답) 입력에 의해서 문제에 최적화되어 가는 지도(감독/교사) 학습과 지도자의 교사 신호를 필요로 하지 않는 비지도(감독/교사) 학습이 있다.

기존의 기계학습 알고리즘은 대부분 지도 학습에 기초한다. 지도 학습 방식은 컴퓨터에 먼저 정보를 가르치는 방법이다. 예를 들어 사진을 주고 ‘이 사진은 고양이’라고 알려주는 식이다. 컴퓨터는 미리 학습된 결과를 바탕으로 고양이 사진을 구분하게 된다. 비지도 학습은 이 배움의 과정이 없다. ‘이 사진이 고양이’라는 배움의 과정 없이 ‘이 사진이 고양이군’이라고 컴퓨터가 스스로 학습하게 된다. 따라서 비지도 학습은 컴퓨터의 높은 연산 능력이 요구된다. 구글이 현재 비지도 학습 방식으로 유투브에 등록된 동영상 중 고양이 동영상을 식별하는 딥 러닝 기술을 개발한 상태다.

일반적으로 명확한 해답이 있는 경우에는 지도 학습이, 데이터 클러스터링과 마이닝에는 비지도 학습이 이용된다. 인공신경망은 많은 입력들에 의존하면서 일반적으로 베일에 쌓은 함수를 추측하고 근사치를 낼 경우 사용한다. 일반적으로 입력으로부터 값을 계산하는 뉴런 시스템의 상호연결로 표현되고 적응성이 있어 패턴인식과 같은 기계학습을 수행할 수 있다. 데이터로부터 학습하는 다른 기계학습과 같이, 신경망은 일반적으로 규칙기반 프로그래밍으로 풀기 어려운 컴퓨터 비전(시각, vision) 또는 음성 인식과 같은 다양한 범위의 문제를 푸는데 이용된다.

3. GPU냐 CPU냐?

딥 러닝에서 학습(훈련)을 위해서는 많은 데이터를 이용하여 학습 시키는 것이 매우 중요하다. 많은 학습 데이터를 반복하여 학습시키는 데에는 많은 시간이 걸리게 되는데, 이러한 이유로 컴퓨팅 파워가 약한 과거의 중앙처리장치(CPU)로는 많은 학습 데이터를 처리하는데 너무 많은 시간이 걸려서 실용적이지 못했다. 요즘의 CPU는 과거에 비해서 비교적 빠른 처리를 할 수는 있으나 획기적으로 빠른 학습을 위해 그래픽카드에 사용되는 그래픽처리장치(GPU)를 이용하면서 딥 러닝의 성능이 크게 향상되었다. 요즘 PC에 꽂을 수 있는 GPU는 3000개 이상의 처리 코어를 가지고 있어서 동시에 병렬적(parallel)으로 딥 러닝에 사용되는 수치 계산을 할 수 있다.

일반적으로 이미지(얼굴/사물) 인식부터 음성인식 등 다양한 머신 러닝 작업을 실제 수행할 때는 GPU나 CPU를 장착한 고객의 스마트 기기에서 구동된다. 특히 구글은 인공지능 서비스를 훈련(학습)시킬 때뿐만 아니라 구동할 때에도 GPU 기반 스마트 기기를 활용하고 있다. GPU는 엄청나게 많은 작은 데이터들을 병렬처리 할 수 있다는 장점이 있으나, 데이터가 계속 데이터 센터에 제공될 때에만 효율적이라는 단점이 있다. 이런 이유로 구글은 2015년 11월에, 일본 도쿄에서 자체 개발한 머신 러닝 기술인 텐서플로우(TensorFlow)를 오픈 소스 프로젝트로 공개하고 외부에서도 무료로 쓸 수 있도록 했는데, 스마트 기기의 CPU에서도 바로 구동되도록 하기 위함이다.

반면 페이스북은 시스템 상에서 음성인식 서비스를 훈련시킬 때는 GPU를 활용하지만, 이용자들에게 얼굴 인식 기능 등을 구현해줄 때는 스마트 기기의 CPU를 이용한다. 그 이유는 머신 러닝과 딥 러닝에서는 고객의 경험 데이터가 중요하기 때문인데, 이미 페이스북은 월별 고객 15억명을 확보하고 있으며, 15억명의 풍부한 감성(좋아요…등) 및 다양한 포스팅의 데이터를 확보하고 있다. 이 경우 고객 접점의 딥 러닝을 통해 고객에게 최적화된 맞춤식 서비스를 할 수 있다.

4. ML-DL 대가들의 영입과 인수합병

뉴욕대의 얀 레쿤(Yann LeCun) 교수, 캐나다 토론토대의 제프리 힌튼(Geoffrey Hinton) 교수, 그리고 스탠포드대의 앤드류 응(Andrew Ng) 교수가 인공지능-기계학습-딥 러닝의 선구자로 불리는 3인방이다. 여기에 레이 커즈와일(Ray Kurzweil)이라는 천재 과학자가 있다. 이들 4명은 인공지능에 관한 세계 4대 천왕이라 불려도 손색이 없다.

페이스북의 AI 연구를 지휘하는 인공지능연구소장은 딥 러닝의 제 1인자인 얀 레쿤이며, 구글과 애플에 대항하기 위해 페이스북은 야니브 타이그만(Yaniv Taigman)이 개발한 얼굴인식의 소프트웨어인 딥페이스(DeepFace)를 개발한 스타트업 기업인 페이스(Face.com)를 2007년에 인수했으며, 2015년 1월에는 8명의 머신 러닝 팀으로 시작한 팔로 알토(Palo Alto)의 스타트업 기업인 윗.에이아이(Wit.ai)를 인수했는데, 이들은 음성 비서인 M을 연구관리하고 있다(Recode, 5 Jan 2015)1.

4인 방 중 레이 커즈와일은 2012년에, 그리고 제프리 힌튼이 2013년부터 구글에 합류했다. 레이 커즈와일은 2012년 12월부터 구글 엔지니어링 이사로 인공지능과 양자컴퓨팅을 진두지휘하고 있다. 구글은 2014년에 기계학습과 신경망을 이용하여 스스로 학습하는 알고리즘인 DQN(Deep Q-Network)을 개발한 벤처기업인 영국 런던 소재의 딥마인드(DeepMind)를 인수했다. 딥마인드 개발자 데미스 하사비스(Demis Hassabis) 또한 알려진 실력자다. 머신 러닝에 관한 한 구글은 엄청난 인재를 끌어 모은 셈이다. 구글이 머신 러닝에서 조금씩 성과를 내는 이유다.

중국의 바이두는 2014년 5월에 구글의 인공지능 연구를 이끌었던 앤드류 응(Andrew Ng)을 영입 한데 이어, 향후 5년간 3억달러(약 3600억원)를 투입해 AI 연구소와 개발부서 인원을 확충한다는 계획을 밝혔다.

5. 경쟁사들의 ML 오픈 소스 공개

5-1. 페이스북 – 오픈 소스 토치(Torch) DL 모듈 제일 먼저 공개

페이스북은 2015년 1월 16일에 토치(Torch, http://torch.ch/)를 위한 오픈 소스의 딥 러닝(Deep learning) 모듈을 다른 경쟁사들 보다 제일먼저 공개했다(Venturebeat, Techcrunch, Facebook Blog, 16 Jan 2015)2. 페이스북의 FAIR에서 많은 연구 프로젝트들이 토치를 사용한다. 토치는 오픈 소스 개발 환경으로 계산, 머신 러닝, 컴퓨터 비전을 다룰 때 딥 러닝과 뇌 회로망(convolutional neural network, CNN, ConvNet)(Wikipedia)을3 특별히 강조할 때 사용한다. 따라서 토치는 대학 연구소, 구글/딥마인드, 트위터, 인텔, NVIDA, AMD 등 많은 기업들이 사용한다.

이번에 공개한 오픈 소스 모듈은 대용량 ConvNets 뿐만 아니라 자연언어처리(NLP) 어플리케이션에서 주로 많이 사용되는 산재된 활동들을 다루는 네트워크를 위한 그래픽처리장치(GPU)에 최적화된 모듈들이다. 이에 대한 자세한 내용은 다음 사이트의 페이퍼를 참조하면 된다(http://arxiv.org/abs/1412.7580)

5-2. 구글 – 텐서플로우 오픈 소스 프로젝트 공개

구글은 2015년 11월 10일, 일본 도쿄의 ‘더 매직 인 더 머신(The Magic in the Machine)’ 행사에서, 최근 자체 개발한 머신 러닝 기술인 '텐서플로우(TensorFlow, http://tensorflow.org/)'를 오픈 소스 프로젝트로 공개하고 외부에서도 무료로 쓸 수 있도록 했다. 이에 따라 외부 개발자들은 텐서플로우를 무료로 쓰는 것은 물론 프로젝트에 참여해 수정도 할 수 있게 됐다.

이 달 초에 선보인 지메일의 스마트 리플라이(Smart Reply)를 비롯해 50여 개에 이르는 구글 서비스에는 텐서플로우 기술이 적용되고 있다. DNN(Deep neural network)을 활용한 머신 러닝 기술을 적용하는 데는 텐서플로우가 필수적이기 때문이다. 이를테면 유투브 동영상에서 고양이를 인식하는 등의 연산을 수행할 수 있는 것도 텐서플로우 덕분이다. 이 기술 덕분에 구글은 지메일에서 스팸 메일을 99.9%나 걸러내고 있다. 구글 번역 역시 머신 러닝 기술을 적용한 뒤 오류가 23%에서 8%로 떨어졌다.

구글의 컴퓨터 비전 기술은 사진의 이정표를 인식해 사진을 정리해 주는 역할을 한다. GPS나 지리 정보가 없이도 중요 지점을 뽑아 다른 사진과 연결시켜주는 역할을 한다. 특히 구글 포토는 많은 사진 속에서 사물, 장소, 사람을 자동으로 인식하고 카테고리로 분류해주는 기능도 갖추고 있다. 또한 인셉셔니즘(Inceptionism) 기능을 통해 이미지의 사물을 구별해내고, 옷 차림새를 통해 이벤트까지 예측하는 것도 가능하다. 구글은 2015년 6월 18일에 "인셉셔니즘은 신경망이 어떻게 작동하는지 이해하고 시각화하는데 도움을 준다"며 "인공신경망이 예술가를 위한 도구가 될 수 있지 않을까 생각한다"고 밝힌바 있다(Google, 18 Jun 2015)4.

5-3. MS – 머신 러닝 프로젝트 옥스포드와 툴킷 DMTK 공개

MS는 2015년 4월~5월에 열린 ‘Build 2015’에서 머신 러닝, 자연어 번역 등에 대한 전문 지식 없이 개발자가 쉽게 스마트한 앱을 개발할 수 있는 프로젝트 옥스포드(Oxford, http://www.projectoxford.ai/)의 API를 공개했다. 비전(Vision) 영역에는 이미지를 분석하고 썸네일(thumbnails)을 만들 수 있는 컴퓨터 비전 API, 얼굴 인식(Face) API, 친구들의 얼굴에서 감정을 인식하는 감정(Emotion) API가 포함되어 있고, 스피치 영역에는 음성 인식(Speech) API가 포함되어 있는데, 이는 검색 서비스인 빙(Bing)과 음성 서비스인 코타나(Cortana)가 결합되어 있으며, 언어(Language) 영역에는 타이핑 칠 때 스펠(Spell)의 에러를 잡아주는 스펠 API와 자연언어이해지능서비스(Language Understanding Intelligent Service, LUIS) API가 포함되어 있다.

얼굴인식 API는 사진에서 사람의 얼굴을 찾아내주는데, 두 장의 사진 속 인물이 동일 인물인지를 판별해주고 얼굴인식 인증에 사용 가능하다. 음성인식 API는 사람의 말을 인식해 실시간으로 변역도 해준다. 컴퓨터 비전 API는 이미지의 내용을 이해하는 기술인데, 예를 들어 빌딩 숲을 촬영한 사진이라면, 건물, 거리, 풍경 등의 정보를 추출해내 문자화 해준다. 자연언어이해지능서비스 API는 모든 자연어의 의미를 이해하게 만들 수 있고 머신 러닝을 활용해 시스템의 언어 이해도를 높이게 된다. 사용자가 단어의 용례를 계속 집어넣으면, 훈련을 거듭하면서 문장 속 정확한 맥락을 이해하게 된다. 또한 개발자는 LUIS의 간단한 인터페이스를 통해 쉽게 기계학습을 실행할 수 있다.

2015년 11월 11일에는 사진에 담긴 사람의 8가지 감정을 수치로 나타내는 서비스를 개발해 공개했다(https://www.projectoxford.ai/emotion).분노(Anger), 경멸(Contempt), 불쾌(Disgust), 공포(Fear), 행복(Happiness), 중립/무관심(Neutral), 슬픔(Sadness), 놀라움(Surprise) 등 8가지 감정들이 수치화돼 표시된다.

서비스를 이용하기 위해서는 해당 홈페이지에 접속한 뒤 사진을 업로드 한다. 사람 얼굴에 파란색 테두리가 나타나면 테두리 안에 마우스를 올린다. 이 도구는 아직 베타 버전이지만 앞으로 데이터가 모이면 기계학습을 통해 정밀도를 높이게 된다. MS는 맞춤법 검사와 영화 분석이나 화자 인식 등 새로운 도구를 계속 공개할 예정이다. MS는 이 프로젝트를 모두 오픈 소스로 제공하고 있다.

2015년 11월 12일, MS는 머신 러닝 툴킷 DMTK(Distributed Machine Learning Toolkit, https://github.com/Microsoft/DMTK,http://www.dmtk.io/)를 오픈 소스 프로젝트 공유 사이트 기트허브(github)에 올렸다고 발표했다. MS 아시아 리서치 랩에서 만든 DMTK는 개발자들이 쉽게 머신 러닝 프로그램을 조절할 수 있게 해주는 서버 기반 프레임워크에 기반한다. 다양한 업무용으로 컴퓨터를 쉽게 훈련시키기 위해 MS가 개발한 알고리즘 2개도 포함됐다.

6. 페이스북의 그간 성과

페이스북의 최고기술경영자(CTO)인 마이크 슈뢰퍼(Mike Schroepfer)는 그간 오랫동안 연구해온 인공지능(AI) 리서치(https://research.facebook.com/)에 대한 그간의 성과를 2015년 11월에 발표했다(Facebook, 3 Nov 2015; Recode, 9 Nov 2015)5. 이 성과는 페이스북의 인공지능리서치(FAIR, Facebook’s AI Research, https://research.facebook.com/ai)팀으로부터 나온 것이다. 인공지능의 컴퓨터와 소프트웨어를 훈련시키고 학습시켜 사진들 속에서 사물들과 인물들을 구별해 내고 여기에 자연언어를 융합한다. 더 나아가 예측(predict)과 계획(plan)을 할 수 있는 능력들이 포함되어 있으며 또한 개인 비서인 ‘M’도 포함되어 있다.

6-1. 사물감지(Object detection)

2015년 12월 12일에 FAIR 팀은 NIPS(Neural Information Processing Systems) 컨퍼런스에서 추론(Reasoning), 집중(Attention), 기억(Memory)이라는 주제(RAM)로 논문을 발표할 예정이다(RAM, NIPS Workshop 2015)(Facebook Research, 2015)6.

팀원들은 사진에서 사물을 구별해내는 방법과 세그먼트로 나누어 카테고리화하는 새로운 최첨단 시스템을 발표할 예정이다. 이 새로운 시스템은 사진의 이미지들을 구별해 세그먼트와 카테고리로 나눌 때 10배나 적은 빅 데이터를 사용하지만 기존의 방식보다 30%나 빠르다. 이는 비지도 학습의 ML-DL이다.

6-2. 자연언어 이해가 이미지 인식을 만나다(Natural language understanding meets image recognition)

2015년 3월에 페이스북은 ‘F8 2015’ 개발자 컨퍼런스에서 자연언어 이해라는 몇 연구를 발표했었는데(Facebook – F8 2015, 26 Mar 2015)7, 그게 바로 메모리 네트워크(MemNets, Memory Networks)라 불리는 시스템이었다. 그 당시 이 시스템은 짧은 텍스트를 읽고 질문에 답을 해주었었다.

그런데 업그레이드된 새로운 시스템은 VQA(visual Q&A)라 불리는데, 메모리 네트워크에 이미지 인식 기술이 융합되어, 사람들이 VQA에 ‘사진 속에 무엇이 있는가’라고 물으면 사진 속의 이미지들이 무엇이며 무엇을 하고 있는지를 알려주는 것이다. 하나의 사진이 있다. 엄마가 아기를 욕조 안에 세우고 아기의 이를 닦아주고 있는 사진이다. 이도 비지도 학습의 ML-DL이다.

질문자 – 사진 속에 아기가 있는가?

VQA – 네

질문자 – 아기가 어디에 서 있는가?

VQA – 욕조입니다.

질문자 – 아기가 무엇을 하고 있는가?

VQA – 이를 닦고 있습니다.

Facebook Demo – Visual Question and Answering Demo(3 Nov 2015)

https://www.facebook.com/Engineering/videos/10153621574817200/

6-3. 사진 속의 사람 얼굴인식 기술

그 동안 인공지능 기술에 많은 투자를 해온 페이스북은 이제는 실제 제품에 통합하는 작업에 박차를 가하고 있다. 2015년 11월 외신들은 페이스북이 메신저 앱에 사람 얼굴 인식 기능을 추가할 계획이라고 보도했다(Recode, 9 Nov 2015)8. 이미 지금도 사진을 찍어 페북에 올리면 사진에 찍힌 사람들이 친구로 등록되어 있을 경우, 자동으로 그 사진 속의 친구가 누구인지 인식되어, 사진에 친구의 이름을 띄워주고, 태그 할 것인지 말 것인지를 결정하라고 한다. 처음 접할 때는 섬뜩하다는 느낌이 들 정도이다. 또한 사진 저장 앱인 모먼트(Moments)에도 얼굴인식 기능을 이미 적용했다.

페이스북은 더 나아가 사용자가 촬영한 사진을 메신저로 보낼 경우 메신저 앱이 살펴본 뒤 사진 속 인물의 얼굴을 인식한 후 친구들과 해당 사진을 공유하라고 추천까지 해 준다는 것이다. 이도 비지도 학습의 ML-DL이다.

페이스북이 인공지능 기술을 제품에 접목시키는 것은 사용도와 참여도, 관심도 등을 높이기 위한 것이다. 페이스북 메신저가 친구에게 공유할 사진을 자동으로 골라서 추천해준다면 다른 메시징 앱보다 사용자가 더 많이 사용할 가능성이 높아지기 때문이다.

그러나 사람들이 스마트하다고 느끼도록 제품을 만들 필요는 있으나 지나치게 똑똑해서 무섭게 느껴지지 않도록 해야 한다. 얼굴 인식 기술이 메신저에 통합됐을 때 이런 느낌을 받는다면 설정에서 얼굴인식 기능을 꺼버릴 수도 있기 때문이다. 얼굴 인식 기능이 추가된 메신저 업데이트는 아직 호주에서만 실시되고 있으나, 소비자들의 반응을 보아 곧 확대할 전망이다.

6-4. 예측 학습(Predictive Learning)

관리자나 감독이나 교사의 지도 없이 예측 학습(비지도 예측 학습, Unsupervised Predicting Learning)을 한다는 것은 경험적인 지식이나 관찰에 의한 학습을 바탕으로 미래에 무엇이 일어날 수 있는지를 이해할 수 있는 능력이 있다는 것이다.

컴퓨터에게 이러한 능력을 주기 위해 FAIR 팀은 일련의 비주얼(시각적) 테스트를 볼 수 있는 하나의 시스템을 개발해왔는데, 예를 들어 불안정하게 쌓아 놓은 블록들로, 이 블록들은 쌓는 구조에 따라 떨어질 수도 안 떨어질 수도 있는 상황이다. 그리고 그 결과를 컴퓨터가 예측하게 하는 것이다.

몇 달의 연구 끝에 FAIR팀은 인간보다 훨씬 나은, 시간이 경과함에 따라 떨어지거나 안 떨어질 확률을 90%까지 정확하게 예측하는 시스템을 개발했다.

그림 처음에는 안 떨어질 확률 1%(왼쪽), 나중에는 떨어질 확률 99%(가운데), 처음에 안 떨어질 확률 14%(오른쪽).

처음에는 안 떨어질 확률 1%(왼쪽), 나중에는 떨어질 확률 99%(가운데), 처음에 안 떨어질 확률 14%(오른쪽).

Facebook Demo – Unsupervised Learning: Predicting Falling Blocks(3 Nov 2015)

https://www.facebook.com/Engineering/videos/10153621509062200/

6-5. 바둑을 둘 수 있는 계획(Planning)

현재까지 인공지능 컴퓨터가 체스게임에서 인간을 상대로 승리했지만, 그 동안 어떤 과학자들도 뛰어난 바둑기사를 이길 수 있는 인공지능은 만들어 내지 못했다. 그런데 최근 페이스북이 이 오래된 과제에 도전하고 있어 관심을 끌고 있다. 인공지능 훈련에 각종 게임을 활용하는 것은 이제 상당히 보편화된 접근방법 중 하나다. 그 중에서도 바둑의 높은 난이도는 인공지능에게 복잡한 패턴 인식 기능을 훈련시키는데 제격이라는 것이다.

바둑은 전 세계에 존재하는 말판놀이 중 가장 어려운 게임 중 하나로 잘 알려져 있다. 다른 경기들에 비해 상대방의 다음 수를 예측하기가 월등히 어렵기 때문이다. 단적인 예로 체스의 경우 양쪽 선수가 처음 한 수씩을 둔 다음 수를 둘 때 발생 가능한 패턴은 400여 가지에 불과한 반면, 바둑에서는 이론적으로 약 13만 가지 패턴이 나타날 수 있다. 페이스북은 이런 어려움을 공략하기 위해 인공지능에게 시각적 정보로부터 다양한 패턴을 읽어내는 능력을 부여하고 있다. 이 또한 비지도 학습 방법이다.

마이크 슈뢰퍼는 “인간 바둑기사들도 바둑판 위에 펼쳐진 시각 정보로부터 패턴을 분석해 직관적으로 좋은 수를 찾아내는 능력을 가지고 있을 것이라 생각한다”며 “이와 유사하게 우리도 인공지능에 시각적 인식 기능을 더해 다음 수를 생각해낼 수 있도록 만들고 있다”고 말했다.

따라서 FAIR팀은 컴퓨터 시스템에게 어떻게 계획하는지 그 방책을 가르쳐주기 위해 보드 게임인 바둑(Go)을 둘 수 있는 AI 봇(bot)을 개발했다. 몇 달 훈련 시킨 뒤, 이 AI 봇은 시중에 출시된 대부분의 바둑 프로그램을 이길 수 있게 되었고, 일부 뛰어난 인간 기사들만큼의 역량을 보여주고 있다. 게임의 진행 과정에서 움직일 수 있는 모든 가능한 이동 경로들을 모델링하는 전통적인 검색 방법에 FAIR팀이 개발한 패턴(pattern)을 매칭하는 시스템을 융합해서 AI 봇을 만들었다.

maxresdefault

Facebook Demo – Watch an AI bot play Go(3 Nov 2015)

https://www.facebook.com/Engineering/videos/10153621562717200/

6-6. 지도학습으로 인간과 같은 음성 비서 ‘M’

이러한 일련의 ML-DL 소프트웨어들은 페이스북의 음성 비서인 ‘M’으로 융합될 것이다. 현재 M은 엄청나게 똑똑한데 주문한 제품을 배달해 줄 수 있고, 오늘 비가 온다고 여러분에게 주의를 줄 수 있으며, 귀가 길에 세탁물을 픽업하라고 말해 줄 수 있다(Recode, 3 Nov 2015)9. “이러한 M 서비스가 가능한 것은 고객의 데이터입니다. 모든 것이 데이터의 문제입니다. 만약 고객이 꽃을 사는 것과 관련된 대화 정보를 보유하고 있지 않다면, 유일한 방법은 고객의 다른 데이터를 이용해 고객이 좋아하는 꽃에 대한 정보를 만드는 것입니다”라고 페이스북의 AI 플랫폼 '윗에이아이'(wit.ai)의 책임자인 알렉산더 르브런(Alexandre Lebrun)은 말한다(FT, 17 Nov 2015)10.

르브런은 애플과 MS가 음성인식 개인 비서 서비스인 '시리'와 '코타나'의 수준을 높이는 데 어려움을 겪는 것도 데이터 부족에 따른 것이라고 지적했다. 이 때문에 이용자들은 시리나 코타나가 할 수 있는 일과 할 수 없는 일을 구분해 날씨 묻기 등 제한적인 용도로 서비스를 활용할 수밖에 없다고 덧붙였다.

그러나 페이스북의 M은 날씨 말하기 등 특정 서비스를 하도록 프로그램 되지는 않았다. 대신 페이스북 이용자들의 방대한 대화 자료를 학습한다. 애플과 MS와 구글도 ML-DL에 집중하고 있지만 페이스북만큼 방대한 사회적 데이터를 갖지 못해 고전하고 있다는 지적이다. 르브런은 2015년 3월부터 내부에서 시험 가동 중인 M은 사회적 데이터를 통한 학습으로 농담까지 할 수 있는 수준이 됐다고 설명했다. 다만 그는 문화, 언어 등과 관련한 지역차 등 장기 프로젝트인 M이 직면한 도전도 만만치 않다고 지적했다.

페이스북은 매달 계정으로 접속하는 15억명의 고객의 경험 데이터를 이용하여 스마트 기기의 CPU로 하여금 어떠한 고객의 원하는 작업을 실행하도록 학습시키는, 실제 인간의 역할을 하는 M을 AI 제품에 융합시키려고 하고 있다. 그러면 페이스북에게는 엄청난 기회를 포착할 것인데, 사람들로 하여금 메신저를 사용하면서 메신저 안에서 쇼핑과 모바일 상거래를 할 수 있게 해주기 때문이다. 알렉산더 르브런은 "페이스북은 실명의 15억의 이용자들에게서 얻은 방대한 사회적 데이터로 독보적인 자리(unique situation)에 있다"고 말한다. 구글, MS, 애플이 음성 비서에게 훈련시키는 방법인 비지도학습 대신에, 페이스북은 지도학습으로 M에게 훈련시키는 교사/감독자들로 이루어진 팀을 구성하고 있다.

M은 사실 소프트웨어라기 보다는 사람을 많이 닮았다. 아직 질문에 대한 기본적인 답을 해주는 것을 학습하는 초기 단계이지만, 마이크 슈뢰퍼에 따르면 실제 사용자들과의 상호작용을 조절할 수 있는 단계라고 한다. “M은 사람들에 의해 학습(지도 학습)하고 지능을 터득하고 있습니다. 사람들은 우리의 AIs를 위해 아주 효과적으로 백업하고 있습니다. 사용자들은 그들이 실제 원하는 어떤 질문도 할 수 있습니다”라고 그는 말한다.

지금 페이스북은 M에게 지도 학습으로 훈련시키고 있다. 예를 들어 사용자가 A를 물으면 B라고 대답하는 과정을 학습 중이다. 그리고궁극적으로는감독자의지도없이스스로고객들로부터학습하고대답하는것이다. 사실 사물-사람-동물의 이미지나 영상 데이터를 분석하는 데에는 비지도 학습이 적격일 것이다. 그러나스마트기기의 CPU에서 구동되는 M은 최전방의 고객접점에 있는 고객들을 지원하기 위해, 처음 단계에서는 트레이너에 의한 지도 학습을, 궁극적으로는 고객들로부터의 지도 학습을 시키는 것이 가장 바람직할 것이다.

페이스북은 앞서 소개한 메모리 네트워크 외에 신경망 네트워크(neural networks)를 구축했는데, 이는 기계가 사람처럼 생각하고 행동하게 하는 어플리케이션이다. 마이크 슈뢰퍼에 따르면 이미 M 속에 이러한 많은 어플리케이션들이 살아 움직인다고 한다. 곧 M은 사람(감독) 의존적인 것을 탈피하고 베타 테스트 모드로 들어간다. “이것은 그만큼 확장성이 있다는 것으로 매우 흥분되고 있습니다. 우리는 전 세계 70억명을 대상으로 개인 비서 서비스를 할 것인데, 이를 위해 수 많은 감독자나 교사를 고용할 수는 없는 것이죠”라고 마이크 슈뢰퍼는 말한다.

페이스북은 이를 위해 사용자들의 빅 데이터를 백업 저장한다. 사진이나 동영상의 유지 기간은 사용자가 허락할 때까지 존속하지만, 2015년 11월에 페이스북은 스냅챗(Snapchat)처럼, 프랑스에서 사람들이 메신저로 메시지를 보낸 뒤 1시간 뒤에 사라지는 기능을 테스트한다고 공식 발표했다(BuzzFeed, 13 Nov 2015)11. 이 경우 고객의 프라이버시를 중시하는 애플처럼 빅 데이터를 저장하지 않기 때문에, 리얼타임 스트리밍 상에서 인구/지역/성별 등 세그먼트로 나누어 패턴을 찾아 서비스하는 머신 러닝을 적용할 가능성이 높다.

사실 페이스북은 몇 명이 M에 매달려 연구 관리하고 있는지 말을 꺼려하지만, 버지피드(BuzzFeed)는 페이스북이 태스크래빗(TaskRabbit, https://www.taskrabbit.com/)이라는 외부 업체와 협력하고 있다고 보도했다(BuzzFeed, 3 Nov 2015)12.

물론 애플과 구글 또한 iOS와 안드로이드 디바이스에 각각의 똑똑한 시리와 나우의 개인 비서를 만들기 위해 경쟁을 하고 있다. 이들 개인 비서들은 앱으로 다운 받는 것이 아니라 아예 탑재되어 출시되고 있으며, 최근 애플 페이와 안드로이드 페이와 융합하고자 한다. 이런 점에서 애플과 구글은 메신저 시장을 타켓으로 하고 있는 페이스북 보다는 한 수 앞서 있다. 그러나 지금 딥 러닝 전문가들이 그리 많지 않다는 점에서, DL의 1인자인 얀 레컨(Yann LeCun)을 영입한 페이스북은 구글과 애플보다 한 수 위에 있기 위해 지금 피치를 올리고 있다.

페이스북은 매출액의 30%를 연구개발에 투자하고 있는데, 지난 분기에만 13억 달러에 이른다. 이 금액 중 자세한 내용은 알 수 없지만 음성 비서인 M과 ML-DL에 장기적으로 투자하고 있다.

7. 결론 및 인사이트

페이스북의 AI-ML-DL 연구는 상기에 서술한 분야로만 국한하여 보면 안될 것이다. 인프라가 구축이 안되어 인터넷을 사용하지 못하는 전세계 40억 인구를 하나의 네트워크로 연결하겠다는 커넥티비티랩(Connectivity Lab)과 연동되어 있다. 성층권(stratosphere)에 무인항공기를 띄우는 프로젝트인 아퀼라(Aquila)를 추진하고 있는데(Facebook, 31 Jul 2015)13, 만약 40억 인구가 저렴한 인터넷에 연결된다면 AI-ML-DL 연구에 필요한 빅 데이터를 바탕으로 그 활용분야는 무궁무진할 것이다.

또한 페이스북이 인수한 Oculus Rift를 중심으로 추진하고 있는 증강/가상현실(AR/VR)과도 밀접한 관계가 있다(Facebook, 24 Sep 2015)14. 증강/가상현실을 추진하고 있는 이유는 사회적 트렌드가 저 출산에 따른 1인가구의 솔로 경제(Solo Economy)가 등장하기 때문이다. 2030년 솔로 경제의 특징은 솔로들은 고령자보다 무려 5배 이상의 생산성을 올려야 사회를 먹여 살릴 수 있다는 것이다. 이를 지원하자는 것이 바로 협업할 수 있는 증강/가상 현실이다. 원격지에 떨어져 있어도 클라우드 베이스로 프로젝트를 여러 개 할 수 있으므로 차세대 통신, 차세대 경험 공유, 차세대 협업으로 적격이다. 여기에 인공지능이 가세한다고 생각해보라. 그것은 차세대 우리 생활의 방식을 바꾸게 될 것이다.

이는 또한 솔로 경제의 1인 개인방송과도 밀접한 관계가 있다. 페이스북이 도입한 멘션(https://www.facebook.com/about/mentions/)에 AI-ML-DL이 융합된다고 생각해보라. 2014년 말 서비스를 시작한 멘션은 페이스북 내 유명인만을 위한 공간이었다. 연예인, 스포츠 스타, 정치인들이 자신을 좋아하는 팬들과 소통하는 공간으로 마련됐다. 최근 페이스북은 이용자 층을 확대한다고 발표했다.

이러한 관점에서 한국의 기업들은 나락에 빠지는 느낌이다. 특히 스마트 기기 제조사들은 스마트 디바이스(깡통, D)가 중요한 것이 아니라 고객의 데이터가 중요하다는 사실을 알았어야 하는데, 사실 솔직히 말하자면 고객의 데이터를 끌어 모을 아무런 툴도 소프트웨어도 플랫폼도 가지고 있지 않다. 몇몇 국내 인터넷사업자와 통신사업자는 AI-ML-DL을 도입해 추진한다고 한다. 내 핵심역량의 비즈니스와 경쟁사들을 잘 분석해서 나름대로의 차별화로 추진해야 할 것이다.

역시 가장 중요한 인사이트는 AI-ML-DL의 최고 전문가를 영입해야 한다는 것이다. 세계의 4인 방은 구글-페이스북-바이두로 향했다. 5인자가 있다면 5인자라도 영입해야 할 것이다. 그렇다면 5인자~10인자들이 있다면 과연 한국 기업에 올까?

마지막으로 알고리즘만 잘 설계했다고 해서 ML-DL이 자동으로 구현되는 것이 아니라는 것이다. 지도학습이든 비지도학습이든 무수히 많은 훈련을 시켜야 한다는 사실이다. 구글이 자사의 ML-DL 시스템이 고양이를 제대로 구분할 수 있도록 하기 위해 수 백 만장의 사진과 유튜브 동영상 1천만 개를 올려 비지도학습 훈련을 시켰다는 것만 보아도 쉽게 짐작할 수 있다. 앞서 설명한대로 페이스북도 여러 가지 테스트 장비나 AI 봇을 만들어 비지도학습으로 훈련시키고 있음도 확인했다. 이런 훈련 작업을 하는 데는 수 백 만개 이상의 매개 변수가 영향을 미치게 된다. 따라서 이런 매개 변수를 잘 처리할 수 있는 엔지니어가 있어야만 ML-DL 노하우를 제대로 축적할 수 있다. 다시 말해 구글과 페이스북의 알고리즘을 손에 넣었다고 해서 금방 ML-DL 작업을 잘 할 수 있는 건 아니란 얘기다. 수많은 실험을 통해 여러 가지 시행착오를 거쳐야만 ML-DL의 수준을 높일 수 있다는 것이다.

참고기사/문헌

1) Recode – Facebook Acquires Wit.ai, a Startup That Helps People Talk to Robots(5 Jan 2015)

http://recode.net/2015/01/05/facebook-acquires-wit-ai-a-startup-that-helps-people-talk-to-robots/

2) Venturebeat – Facebook open sources its cutting-edge deep learning tools(16 Jan 2015)

http://venturebeat.com/2015/01/16/facebook-opens-up-about-more-of-its-cutting-edge-deep-learning-tools/

Techcrunch – Facebook Open-Sources Some Of Its Deep-Learning Tools(16 Jan 2015)

http://techcrunch.com/2015/01/16/facebook-open-sources-some-of-its-deep-learning-tools/

Facebook Blog – FAIR open sources deep-learning modules for Torch(Jan 2015)

https://research.facebook.com/blog/879898285375829/fair-open-sources-deep-learning-modules-for-torch/

3) Wikipedia – CNN, ConvNet – https://en.wikipedia.org/wiki/Convolutional_neural_network

4) Google – Inceptionism: Going deeper into Neural Networks(18 Jun 2015)

https://photos.google.com/share/AF1QipPX0SCl7OzWilt9LnuQliattX4OUCj_8EP65_cTVnBmS1jnYgsGQAieQUc1VQWdgQ?key=aVBxWjhwSzg2RjJWLWRuVFBBZEN1d205bUdEMnhB

5) Facebook – New Milestones in Artificial Intelligence Research By Mike Schroepfer, Chief Technology Officer(03 Nov 2015)

http://newsroom.fb.com/news/2015/11/new-milestones-in-artificial-intelligence-research/

Recode – Facebook Folds Facial Recognition Technology Into Messenger(09 Nov 2015)

http://recode.net/2015/11/09/facebook-folds-facial-recognition-technology-into-messenger/

6) Facebook Research – Reasoning, Attention, Memory(RAM), NIPS Workshop 2015

https://research.facebook.com/pages/764602597000662/reasoning-attention-memory-ram-nips-workshop-2015/

7) Facebook – F8 2015: Updates on Connectivity Lab, Facebook AI Research and Oculus(26 Mar 2015). http://newsroom.fb.com/news/2015/03/f8-day-two-2015/

8) Recode – Facebook Folds Facial Recognition Technology Into Messenger(09 Nov 2015)

http://recode.net/2015/11/09/facebook-folds-facial-recognition-technology-into-messenger/

9) Recode – Facebook's Virtual Assistant 'M' Is Super Smart. It's Also Probably a Human(3 Nov 2015)

http://recode.net/2015/11/03/facebooks-virtual-assistant-m-is-super-smart-its-also-probably-a-human/

10) FT – Facebook secret weapon for artificial intelligence: humans(17 Nov 2015)

http://www.ft.com/cms/s/0/814ca6f8-8a2b-11e5-90de-f44762bf9896.html#axzz3rozD7Az7

11) BuzzFeed – Facebook Messenger Tests Disappearing Messages In France(13 Nov 2015)

http://www.buzzfeed.com/alexkantrowitz/facebook-messenger-tests-disappearing-messages-in-france#.gf6MpZem1

12) BuzzFeed – Using Parrots To Pull The Curtain Back On Facebook's M(3 Nov 2015)

http://www.buzzfeed.com/mathonan/using-parrots-to-pull-the-curtain-back-on-facebooks-m#.msAqAylGo

13) Facebook – Building communications networks in the stratosphere(31 Jul 2015)

https://code.facebook.com/posts/993520160679028/building-communications-networks-in-the-stratosphere/

14) Facebook – Oculus Connect 2: Consumer Gear VR, Minecraft, and more!(24 Sep 2015)

https://www.oculus.com/en-us/blog/oculus-connect-2-consumer-gear-vr-minecraft-and-more/

차원용 소장/교수/MBA/공학박사/미래학자

아스팩기술경영연구소(주) 대표, 국과과학기술심의회 ICT융합전문위원회 전문위원, 미래창조과학부 성장동력발굴기획위원회 기획위원, 국제미래학회 과학기술위원장, (사)창조경제연구회 이사, 연세대학원/KAIST IP-CEO 미래융합기술 겸임교수

728x90

저작자표시

'기타 > 참고자료' 카테고리의 다른 글

[참고자료] 머신러닝, 딥러닝 입문에 좋은 강좌들 (4)	2017.07.05
[참고자료] Tensorflow Object Detection API (0)	2017.07.05
[참고자료] Tensorflow와 OpenCV로 실시간 사물인식 앱을 만드는 과정 (0)	2017.07.05
[참고자료] Neural Image Captioning / Keras code (0)	2017.07.05
[참고자료] Google I/O EXTENDED Seoul 행사에서 AutoML & AutoDraw (0)	2017.07.05

[기사] 페이스북 인공지능 ‘머신러닝’ ‘딥러닝’의 현재와 미래

'기타 > 참고자료' 카테고리의 다른 글

티스토리툴바