영상 산업의 주류 기술로 등장할 인공지능

November 28, 2017

2017.11.29. [테크 트렌드] “영상 산업의 주류 기술로 등장할 인공지능”. 한경비즈니스

 

알파고 이후로 인공지능은 매우 보편적인 단어로 사용된다. 크게 유행하고 있는 ‘4차산업혁명’이라는 용어 때문인지 어느 분야건 인공지능을 얘기하지 않는 분야를 찾아보기 힘들다. 영상 분야도 인공지능 기술의 적용을 피할 수 없다. 영상 산업에서 인공지능 기술의 적용 분야는 제작 단계에서부터 시청자 분석까지 전 영역에 걸쳐 있다. 시청자 분석 데이터의 활용으로 유명한 넷플릭스의 사례로 이미 시청자 행동 데이터 분석의 중요성을 잘 알고 있다면, 인공지능 기술의 중요성은 이미 논의의 필요성이 없을 정도이다. 그러나 인공지능은 단지 사용자 분석에만 머물지 않는다.

 

먼저, 영상 제작 단계를 살펴보자. 영상을 제작하기 위해서는 기획안이 있어야 한다. 영화를 제작하기 위해서는 시나리오가 필요하고, 이에 따라 배우를 섭외하고, 촬영을 하며, 후에 편집을 한다. 편집 과정에서 다양한 후보정(post-production) 과정을 거치는데, 이 때 음악과 자막 등의 작업도 함께 진행된다. 영상 제작 과정은 오랜 기간과 많은 비용을 필요로 한다. 인공지능 기술이 영상 산업에서도 주류 기술로 활용될 것이라는 기대를 하는 이유는 바로 영상 산업이 갖고 있는 시간과 비용 면에서 비효율성을 극복할 수 있기 때문이다.

 

먼저, 인공지능 기술이 시나리오 제작에 활용된 대표적 사례를 보자. 2016년 영화감독 샤프(Oscar Sharp)와 인공지능 학자인 굿윈(Ross Goodwin)이 함께 만든 시나리오 전문 인공지능인 벤자민(‘Benjamin)’이 그 주인공이다. 2016년 온라인으로만 개봉한 영화인 ‘선스프링(Sunspring)’은 9분짜리 공상과학 영화로 인공지능인 벤자민이 쓴 시나리오를 영화화한 것이다. 벤자민은 TV 시리즈인 ‘스타트렉(Star Trek)’이나 ‘엑스파일(X-File)’ 등 수십 편의 공상과학 시나리오를 학습하며 인공지능으로서 첫 번째 시나리오를 완성했다. 비록 영화로 만들어질 정도로 시나리오가 가져야 할 기본 요소는 갖추었지만, 그 속내를 들여다보면 영화로 만들어진 것이 무리였다는 생각이 들 정도로 이야기 전개가 안 되는 장면이 곳곳에서 보인다. 시나리오의 문제를 배우의 연기력으로 극복하고자 했지만 아직까지 인공지능으로 시나리오를 완성한다고 말하기에는 요원하다. 그러나 첫 번째 작품이라는 의미가 컸었기 때문일까? 이 작품은 영국 런던에서 개최하는 48시간 만에 공상과학 영화를 만들어야 하는 영화제(SCI-FI-LONDON 48hour Film Challenge)에서 10위 안에 드는 쾌거를 이뤘다. 재미있는 것은 이 영화에 대한 평 가운데 하나인데, 이 영화가 대본이 훌륭해서 좋은 성적을 낸 것은 아니라는 뒷얘기가 있었다고 한다. 유튜브 사이트(https://www.youtube.com)에 영상이 무료로 올라와 있으니 제목으로 검색해보면 금방 찾을 수 있다.

 

시나리오 작업은 이제 막 시작 단계이지만, 후보정 작업은 이미 인공지능 기술이 상당 부분 진척된 분야이다. 대표적인 예가 컴퓨터 그래픽(computer graphic: CG) 작업이다. 최근에는 인공지능 기술을 활용해서 음성을 기반으로 한 CG 제작을 한 영상이 소개되어 큰 반향을 일으킨 적이 있다. 워싱턴 대학교의 연구팀은 인공지능 기술을 통해 음성으로부터 입모양을 동기화시키는 기술을 소개했다. 그들이 선보인 기술은 동영상을 통해 소개되어 일반인이 전율을 느낄 정도의 놀라움을 선사했는데, 오바마 전대통령의 특정한 연설을 다양한 오바바의 영상에서도 똑같은 입모습으로 연설을 하는 것이다. 가령 이런 식이다. A라는 영상에서 오바마가 B라는 내용의 말을 했는데, A가 아닌 어떤 오바마의 영상에서도 B라는 말을 아주 자연스럽게 입모습을 동기화시켜 보여준다(유튜브에서 ‘Synthesizing Obama’를 검색하면 된다). 이러한 기술의 활용 가능성은 영상 산업에서 무궁무진하다. 대표적으로 만화의 경우 입모양을 자연스럽게 맞춰주어 시간과 비용 절감이 가능하다. 실사 영상에서의 활용 사례는 무궁무진할 뿐만 아니라 그 효과 면에서도 강력하다. 예를 들어보자. 디지털 기술과 소셜미디어의 발달로 발생한 사회적 문제 중 하나가 가짜 뉴스(fake news)인데, 이러한 영상 기술의 발달로 인해 이제 가짜 영상(fake video)이 활개 칠 수도 있는 것이다. 가령 유명인 A가 10년 전에 전혀 다른 상황에서 한 말을 이 기술로 편집을 한다면, 바로 어제 엉뚱한 장소에서 얘기한 것으로 만들 수 있고, 이것이 소셜미디어로 확산된다면 그 영향력은 무시할 수 없을 정도로 클 것이다. 가짜 영상을 만들 수 있는 기술이 의도하지 않게 발생시킬 수 있는 부정적 사례이다. 

 

영상 편집의 대표 사례는 IBM의 인공지능 왓슨(Watson)을 들 수 있다. 왓슨은 2016년 9월에 공포 영화 ‘모건(Morgan)’의 예고편을 만들었는데, 기존에 상영된 100여 편의 공포 영화 예고편을 학습한 결과였다. 배우의 표정과 화면 전환 효과, 속도, 그리고 배경 음악 등의 요소를 각각 데이터화 한 뒤 그 요소들을 조합한 영상을 제작한 후, 전문가인 사람의 평가를 받으면서 완성도가 더욱 높아졌다. 또한 스포츠 하이라이트 제작 역시 이미 완성도 높은 결과를 제공한 적이 있다. 2017년에는 세계적인 테니스 대회인 유에스오픈(US Open)의 하이라이트 영상을 편집하기도 했다. 다양한 통계 데이터를 활용하기도 하고, 선수의 다이내믹한 움직임과 공이 선을 살짝 빗겨가는 순간, 그리고 청중의 응원 모습까지 다양한 영상을 편집함과 동시에 이 영상을 대회 공식 앱과 페이스북에 자동으로 게재하기도 했다. 영상 편집부터 유통까지 왓슨이 혼자서 진행한 것이다. 영상 가운데 중요한 장면을 인식하고, 특정 부분을 확대(zoom-in)하는 등 시각 정보가 갖는 의미의 중요도를 이해한다는 점에서 이러한 기술의 활용도는 매우 높다. 현재 영상편집자가 생각하는 중요한 장면의 모음인 하이라이트가 정말 시청자에게도 매력적으로 다가가는지는 순전히 편집자의 직관에 의존하고 있다. 그러나 인공지능 기술이 적용된다면 시청자가 좋아할만한 장면을 데이터에 의거하여 만들어낼 수 있기 때문에 더 만족도 높은 영상을 제작할 수 있는 것이다. 

 

인공지능을 이용한 자동 해설방송과 시각 장애자를 위한 정보 제공 방송도 개발에 박차를 가하고 있다. 일본 NHK 방송은 2018년 평창 동계올림픽에서 생중계 시연을 하고, 이어서 2020년 동경올림픽에서는 모든 경기에 인공지능을 이용한 자동 해설방송을 제공할 계획이다. 단순히 문자를 음성 데이터로 변환해서 들을 수 있는 소리가 아니라 사람의 감정을 표현할 수 있는 코드(emotion code)를 통해 마치 인간이 실제로 해설을 하는 듯한 효과를 낼 수 있어서 별도의 해설자 없이 경기를 설명할 수 있게 된다. 이와 같은 기술을 통해서 해설자를 대체할 수 있을 뿐만 아니라 시각 장애자는 기존 방식보다 더욱 풍부하면서도 실감나는 해설을 접할 수 있다. 음성과 관련된 기술은 이미 오래전부터 인공지능을 활용해왔다. 구글은 ‘웨이브넷(WaveNet)’을 출시하며 인간의 음성을 생성하는 시스템을 소개했고, 반면에 바이두는 ‘딥스피치(Deep Speech)’를 출시하며 인간의 음성을 문자로 변화시키는 시스템을 소개했다. 인간처럼 자연스러우면서도 감정이 담긴 소리를 내는 것은 쉽지 않지만, 인간의 음성을 계속 학습하며 새로운 인간의 목소리를 만들어내는 기술이 지속적으로 개발되고 있다. 이러한 기술이 어느 정도 궤도에 오르면 앞서 소개한 다양한 영상 인공지능 기술과 결부되어 영상 제작 편집 과정에서 전문가의 손길을 상당 부분 줄여줄 것이다. 

 

이외에도 기존의 음악을 바탕으로 새로운 음악을 작곡하거나, 소리가 제거된 영상에서 소리를 복원하는 기술, 유명 화가의 미술 작품을 따라서 그리거나 두 개 이상의 그림을 합성함으로써 만들어내는 유사한 그림 등 영상 분야에 적용 가능한 청각과 시각 인공지능 기술은 지속적으로 소개될 것으로 보인다.

 

마지막으로, 시청자가 시청한 영상 데이터를 분석한 후, 시청자가 원하는 영상을 추천하는 서비스는 가장 빨리 상용화가 될 서비스이다. 이미 인공지능을 활용한 시청자의 시청행태 분석은 빅데이터 분석과 더불어 기술개발이 한창 진행 중이다. 콘텐츠를 사용하는 사용자 패턴을 인식함으로써 가장 좋아할만한 영상을 찾아내는 것인데, 풍부한 아카이브를 가지고 있는 환경에서 많이 알려지지 않은 영상을 소비시킬 수 있기 때문에 전형적인 롱테일(long-tail) 법칙이 적용될 수 있는 분야이다. 시청자가 원하는 영상을 그때 그때 제공할 수만 있다면, 시청 만족도를 높일 수 있을 뿐만 아니라 시청 빈도와 시간을 늘릴 수 있고 이는 자연스럽게 수익 창출로 이어질 수 있으므로 사업자의 입장에서도 가장 기대하는 기술인 것이다. 

 

이처럼 인공지능은 영상제작에서부터 시청에 이르기까지 전 과정에 걸쳐 적용되고 있다. 영상 시장에서 인공지능 기술이 기대되는 이유는 영상제작자와 유통업자, 그리고 시청자 모두에게 이익이 되기 때문이다. 최소한의 비용과 시간으로 시청자가 원하는 작품을 만들 수 있다면, 그리고 언제 어떤 환경에서 제공될 때 시청자 만족도가 높다는 것을 알 수만 있다면, 사용자 경험은 극대화 될 것이다. 인공지능이 영상 산업의 주류 기술로 등장될 것이라 예측되는 이유이다. 

 

정동훈 광운대학교 미디어영상학부 교수

Share on Facebook
Share on Twitter
Please reload

Please reload

Archive

August 23, 2018

Please reload

Recent Posts