본문 바로가기

AI & IT 이야기

Facebook AI Research, 생성적 화자 언어 모델(GSLM) 오픈소스 공개

AI모델로 자연어 처리(Natural Language Process)를 하려면 학습을 위한 거대한 텍스트 데이터가 필수입니다.

그래서 Google, Naver 등의 대형 포털 사이트를 통해 데이터를 수집하는 대기업, 또는 데이터 확보에 대규모의 자금을 투입할 수 있는 기관들이나 접근이 가능했습니다.

 

그런데 이번에 Facebook AI가 텍스트에 의존하지 않는 자연어 처리 모델인 '생성적 화자 언어 모델(Generative Spoken Language Model, GSLM)'을 오픈 소스로 공개했다고 합니다.

GSLM은 레이블링 데이터나 텍스트 없이 음성 데이터가 저장된 오디오 신호를 기반으로 동작한다고 하네요.

상당히 흥미로운 모델입니다.

 

자세한 내용은 인공지능신문의 '텍스트 없는 자연어처리?... 음성 인공지능 NLP 시대 열어, 페이스북 AI ‘생성적 화자 언어 모델오픈 소스로 공개(http://www.aitimes.kr/news/articleView.html?idxno=22445)'에서 확인가능합니다.

 

GSLM의 아키텍처

논문은 다음에서 읽어보실 수 있습니다.

 

Kushal Lakhotia, Evgeny Kharitonov, Wei-Ning Hsu, Yossi Adi, Adam Polyak, Benjamin Bolte, Tu-Anh Nguyen, Jade Copet, Alexei Baevski, Adelrahman Mohamed, and Emmanuel Dupoux. 2021. Generative Spoken Language Modeling from Raw Audio. arXiv preprint arXiv:2102.01192 [cs.CL].

 

Generative Spoken Language Modeling from Raw Audio

Generative spoken language modeling involves learning jointly the acoustic and linguistic characteristics of a language from raw audio only (without text or labels). We introduce metrics to automatically evaluate the generated output in terms of acoustic a

arxiv.org

 

 

 

 

728x90
반응형