기사 원문 - https://www.artificialintelligence-news.com/2024/02/15/amazon-trains-980m-parameter-llm-emergent-abilities/
 
   
Amazon 연구원들은 "긴급" 능력을 보여준다고 주장하는 텍스트 음성 변환을 위한 새로운 LLM(대형 언어 모델)을 훈련했습니다. 

BASE TTS라고 불리는 9억 8천만 개의 매개변수 모델은 지금까지 생성된 최대 규모의 텍스트 음성 변환 모델입니다. 연구원들은 최대 100,000시간의 공개 도메인 음성 데이터에 대해 다양한 크기의 모델을 훈련하여 특정 규모를 초과하면 자연어 처리 모델에서 발생하는 것과 동일한 성능 도약이 관찰되는지 확인했습니다. 

그들은 10,000시간의 오디오로 훈련된 중간 크기의 4억 매개변수 모델이 까다로운 테스트 문장에서 다양성과 견고성이 크게 향상되었음을 발견했습니다.

테스트 문장에는 일반적으로 텍스트 음성 변환 시스템을 방해하는 복합 명사, 감정, 외국어 및 구두점과 같은 복잡한 어휘, 구문 및 준언어적 특징이 포함되어 있습니다. BASE TTS는 완벽하게 처리하지는 못했지만 강세, 억양, 발음 오류는 기존 모델에 비해 현저히 적었습니다.

"이 문장은 어려운 작업을 포함하도록 설계되었습니다. 그 중 어느 것도 BASE TTS가 수행하도록 명시적으로 훈련되지 않았습니다."라고 연구원은 설명했습니다. 

100,000시간의 오디오로 훈련된 모델의 가장 큰 9억 8천만 매개변수 버전은 4억 매개변수 버전 이상의 추가 기능을 보여주지 못했습니다.

실험적인 프로세스이기는 하지만 BASE TTS의 생성은 이러한 모델이 확장됨에 따라 새로운 다양성 임계값에 도달할 수 있음을 보여줍니다. 이는 대화형 AI에 대한 고무적인 신호입니다. 연구자들은 창발적 능력에 대한 최적의 모델 크기를 식별하기 위한 추가 연구를 계획하고 있습니다.

또한 이 모델은 가볍고 스트리밍이 가능하도록 설계되었으며 감정 데이터와 운율 데이터를 별도로 패키징합니다. 이를 통해 자연스러운 음성 오디오가 낮은 대역폭 연결을 통해 전송될 수 있습니다.

아래에서 arXiv에서 전체 BASE TTS 문서를 찾을 수 있습니다 .
https://arxiv.org/abs/2402.08093