티스토리 뷰

Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model

 

구글이 음성 번역기와 관련된 내용을 발표하였네요.

아래 구조도 그림과 같이 Spanish 음성이 입력되면 Spanish 를 Decoder가 Text화하여 English 로 번역을 하고, Spanish 발음 자체를 Encoding 하여 번역된 Text를 Spectrogram Decoder 가 English로 번역된 Spectrogram을 Vocoder에 전달하여 최종적으로 사람이 들을수 있는 Waveform 으로 번역하여 출력해주는 순서입니다.

 

이러한 기술이 상용화되면 영상의 더빙과 같이 성우들이 별도로 음성 녹음을 하지 않더라도 기존 성우의 말투나 억양과 유사한 톤으로 번역된 음성을 들을수 있게 될 것 같습니다.

각 나라별 언어의 억양과 톤을 상호 교차 적용하는데에는 무척 많은 음성 데이터들이 필요할것 같고 매우 복잡한 연산 방식이 들어갈것같네요. 상용화가 무척 기대됩니다.

자세한 링크는 아래 참조하세요

 

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

 

Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model

Posted by Ye Jia and Ron Weiss, Software Engineers, Google AI Speech-to-speech translation systems have been developed over the past sever...

ai.googleblog.com

 

 

 

 

댓글

파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음



Total
Today
Yesterday
최근에 달린 댓글