韓박사 주도 MIT연구진. 목소리로 얼굴 예상하는 AI 기술 개발

확대보기

인공지능(AI) 기술은 과연 어디까지 진화할까. 미국 매사추세츠공과대(MIT)의 한 한국인 연구원이 주도해 개발한 한 AI 기술이 여러 외신의 주목을 받았다.

13일(이하 현지시간) 스미스소니언 매거진 등에 따르면, MIT 컴퓨터과학·인공지능연구소(CSAIL)의 오태현 박사가 이끄는 연구진이 한 사람의 말소리가 녹음된 음성 파일만으로 그 사람의 얼굴 이미지를 비슷하게 재현하는 AI 기술을 개발했다.

지난해 2월 한국과학기술원(KAIST)에서 박사 학위를 취득한 오 박사는 고등학교를 자퇴한 뒤 자동차 정비공으로 일한 이력 덕분에 국내 여러 언론을 통해 소개돼 한 차례 화제가 됐던 인물이기도 하다.


오 박사는 MIT 박사후연구원으로 위촉돼 또 다른 한국인 박사후연구원 김창일 박사를 비롯한 MIT 동료 및 출신 연구진과 함께 이른바 ‘스피치2페이스’(Speech2Face)로 명명한 AI 기술을 만들었다.

지난달 23일 미국 코넬대가 운영하는 세계 최대 온라인 논문저장소 ‘아카이브’(arXiv)에 수록된 연구 논문에 따르면, 이 연구는 순수한 학문적 조사로 AI 기술을 가지고 한 사람의 말소리 만으로 그 사람의 얼굴 이미지를 얼마나 정확하게 재현할 수 있는지를 살핀 것이다.

논문에서 연구진은 사람의 뇌와 비슷하게 생각하도록 프로그램 된 기계학습 알고리즘인 AI 도구는 10만 명이 넘는 사람의 말소리가 담긴 수백만 편의 유튜브 등 온라인 영상으로 훈련을 받았다고 밝혔다.

즉 스피치2페이스 모델은 이런 방대한 자료에서 나타난 각 사람의 나이와 성별은 물론 민족성, 입 모양, 입술 크기, 뼈 구조 등 신체적 특성에 따라 말소리가 어떻게 달라지는지를 학습해 입력된 음성 파일 만으로 사람의 얼굴을 예상하는 것이다.

확대보기

논문에 실린 사진 자료를 보면 왼쪽이 실제 사람의 얼굴이며 가운데 이미지는 얼굴이 정면을 향하게 하고 안경 등 액세서리를 제거한 이미지다. 그리고 오른쪽이 바로 AI 기술로 말소리 만을 가지고 재현한 얼굴 이미지다.


물론 이를 보면 AI 기술로 예상한 얼굴 이미지는 표정도 없고 실제 얼굴과도 똑같이 생기기는 않지만, 인종과 성별 그리고 나이대 등은 어느 정도 비슷한 것을 알 수 있다. 그뿐만 아니라 입력한 말소리가 길어질수록 AI로 예상한 얼굴 이미지는 실제 얼굴과 좀 더 비슷하게 보이는 경향이 있는 것으로 나타났다.

반면 같은 사람이라고 해도 중국어로 말하거나 영어로 말하면 각 말소리에 따라 백인의 얼굴이나 아시아인의 얼굴 이미지를 생성하는 경향이 있다. 이에 대해 연구진은 “이 모델은 평범하게 생긴 얼굴 만을 만들 수 있을 뿐 구체적인 부분까지 만들어내지는 못한다”고 설명했다.

자세한 연구 성과는 오는 16일부터 20일까지 미국 캘리포니아 롱비치에서 열리는 컴퓨터 비전 분야 세계 최대 권위의 학술대회 ‘2019년 컴퓨터 비전·패턴 인식 콘퍼런스’(CVPR 2019)에서 발표될 예정이다.

사진=아카이브

윤태희 기자 th20022@seoul.co.kr
  • 페이스북 카카오톡 플러스 카카오스토리 유튜브

    알짜배기 뉴스만 쏙쏙!! SNS에서 바로 보는

    회사소개 로그인 PC버전 TOP으로

    이용약관개인정보취급방침청소년보호정책(책임자:박찬구)

    Copyright ⓒ 서울신문사 All rights reserved