본문 바로가기

새소식

국내 최초 음성 합성 엔진 ‘뉴톤 톡’ API 공개!



다음커뮤니케이션이 국내 최초로 음성 합성 API를 공개했다는 소식입니다. 

다음이 자체 기술로 개발한 음성 합성 엔진 ‘뉴톤 톡(Newtone Talk)’! 음성 합성에서 가장 중요하고도 어려운 점이 기계음 같지 않은 바로 자연스러움인데요. 뉴톤 톡의 음성 합성 결과를 들어보면 마치 사람이 읽어주는 것처럼 자연스럽습니

지난 2월 공개한 음성 인식 엔진 ‘뉴톤(NewTone)’의 API에 음성 합성 기능이 더해짐으로써 앱 개발자라면 누구나 완전한 형태의 음성 API를 무료로 이용할 수 있게 되었습니다.

파이팅


뉴톤 톡은 2012년 말, 다음이 인수한 음성 인식 전문기업 ‘다이알로이드’의 기술로 제작되었는데요. 음성 합성이란 글자를 입력했을 때 이를 음성으로 변환해 들려주는 것으로, 기계나 로봇이 아닌 마치 사람이 읽는 것 처럼 자연스러운 음성으로 변환하는 것이 중요합니다.

현재 한국어 음성 합성을 누구나 사용 가능한 공개 API 형태로 제공하는 것은 뉴톤 톡이 유일한데요. 다음은 이를 위해 한국어 운율 모델을 자체 개발했으며 대용량·자동화 처리 기술에 의해 빠르게 모델을 학습할 수 있도록 했습니다. 



기존의 음성 합성 기술은 대부분 사람이 일일이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는, 말하자면 수작업에 의존하는 형태였는데요. 이에 반해 다음의 운율 모델은 과거 수작업으로 진행되었던 모든 과정을 자동으로 처리하며 다양한 운율을 예측하기 때문에 보다 효율성 측면에서 우수합니다. 

다음 검색으로 축적된 데이터를 활용해 가수 ‘2NE1’, ‘B1A4’의 이름과 같이 사전에 등록되지 않은 신조어도 ‘투애니원’, ‘비원에이포’로 정확히 읽고, ‘ㅋㅋㅋ’은 ‘크크크’로, ‘You&I’와 같이 특수문자가 포함된 경우에는 ‘유앤아이’로 읽을 수 있죠. 이는 다음 음성 처리 전문가들의 노하우와 기술력이 집약된 결과라고 할 수 있습니다.



뉴톤 톡은 한 번에 최대 30초 분량의 음성을 합성할 수 있는데요. 입력된 글자를 분석해 음성으로 합성하기까지 걸리는 시간은 불과 0.1초! 문장을 입력하고 합성 요청을 하면 실시간으로 들을 수 있습니다. 뉴톤 톡에는 현재 남성과 여성 각각 한명씩의 음색이 탑재돼 있고, 대화체나 밝은 낭독체 등 4개의 음색이 올해 안으로 추가될 예정입니다.

뉴톤 톡의 활용 범위는 한계가 없습니다. 예를 들어, 현재 ‘100미터 앞에서 우회전입니다’라는 형태로 음성 안내하는 내비게이션 앱을 ‘100미터 앞에서 다음커뮤니케이션 본사를 끼고 우회전입니다’ 수준까지 안내 가능하도록 만들 수 있습니다.  또 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있고 시각 장애인을 위한 생활형 앱 등을 개발할 때 유용하게 쓰일 수 있습니다.

다음 검색부문 이상호 부사장은 “음성 합성 기능의 추가로 입출력이 모두 가능한 음성 엔진이 완성됐다. 이를 통해 음성 기반의 새로운 감각과 메시지를 나눈다는 의미를 담아 음성 인식 엔진을 ‘뉴톤(Newtone)’으로 음성 합성 엔진을 ‘뉴톤 톡(Newtone Talk)’으로 이름 지었다”며 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고, 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 소감을 밝혔는데요.

뉴톤과 뉴톤 톡은 안드로이드와 iOS 버전 모두를 지원합니다. 다음 개발자 네트워크(http://dna.daum.net)에서 제휴 신청을 하면 발급 받을 수 있으며 하루 1만회까지 자유롭게 사용할 수 있습니다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있습니다.