메타 ‘모든 언어 인식기’ 공개…1600여개 언어 받아쓰기 가능

임주형 기자
수정 2025-11-11 17:06
입력 2025-11-11 17:06
서아프리카 국가 라이베리아와 시에라리온에는 바이족과 일부 소수민족이 쓰는 ‘바이’(Vai)라는 언어가 있다. 사하라사막 이남 아프리카 대표 언어족인 니제르콩고어족의 ‘만데어’ 계열로 분류된다. 라틴 문자나 아랍어 문자를 기반으로 하지 않는 문자 체계를 가진 몇 안 되는 아프리카 언어 중 하나로 주목받지만 사용하는 인구는 12만명에 불과하다. 이런 소수언어도 인식해 문자로 변환하는 인공지능(AI) 기술이 페이스북·인스타그램 모회사 메타에 의해 개발됐다. 사실상 전 세계의 모든 언어를 인식할 수 있는 AI가 등장한 것으로, ‘바벨탑의 저주’를 풀 획기적인 기술로 평가된다.
메타의 기초AI연구(FAIR) 팀은 10일(현지시간) 소수언어 등 전 세계 1600여개 언어를 문자로 구현할 수 있는 자동음성인식(ASR) 체계를 공개했다. 메타는 모든 언어를 인식할 수 있다는 뜻을 담아 이 기술을 ‘옴니링구얼’(Omnilingual)이라고 이름 지었다.
메타는 “현재 대부분의 ASR은 인터넷에 널리 존재하는 소수의 ‘고자원 언어’에 집중돼 있다. 널리 사용되지 않거나 자원이 부족한 ‘저자원 언어’ 사용자는 ASR을 이용할 수 없는 경우가 많아 디지털 격차가 심화된다”며 “옴니링구얼에는 AI로 이전에는 기록되지 않았던 500개의 저자원 언어가 포함된다”고 밝혔다.
현재 주요 AI는 공식적으로 수십 개 정도의 언어를 인식하고 문자 변환을 지원하고 있다. 방대한 데이터 학습을 통해 인간의 언어를 이해하고 생성하는 대규모언어모델(LLM)에 의존하고 있어 데이터가 많은 고자원 언어에서는 잘 동작하지만 그렇지 않은 저자원 언어에서는 구동이 제한적이다. 새로운 언어 지원을 추가하려면 전문가가 주도하는 미세조정을 거쳐야 하는 불편함도 있다. 하지만 옴니링구얼은 ‘LLM-ASR’로 불리는 새로운 접근법을 통해 적은 수의 음성·문자 데이터 쌍만 있어도 기본적인 수준의 음성 인식 기능이 가능하다는 게 메타의 설명이다.
다만 옴니링구얼의 저자원 언어 문자 변환 오류율은 아직 고자원 언어보다는 높다. 사용량이 절대적으로 적기 때문이다. 메타가 공개한 자료를 보면 고자원 언어 249종 중에선 236종(94.8%)이 오류율 10% 미만으로 파악됐다. 하지만 저자원 언어 546종에선 195종(35.7%)만이 고자원 언어 변환율과 비슷한 정확도를 보였다. 메타는 이날 옴니링구얼에 적용된 매개변수 70억개 규모 음성 인코더를 누구나 활용할 수 있도록 오픈소스로 풀었다. 음성 데이터를 자동으로 AI가 이해할 수 있는 벡터 데이터 형태로 정렬하는 도구다. 또 소수언어 350종의 음성자료 ‘말뭉치’도 공개했다.
메타는 “옴니링구얼은 전 세계적으로 음성 기술 접근성을 확대한 중요한 진전으로, 가장 소외된 언어권의 사람들도 고품질 음성-텍스트 변환 시스템을 이용할 수 있도록 보장한다”며 “궁극적으로 언어 장벽을 허물고 다양한 언어 및 문화적 배경을 가진 사람들 간의 소통을 가능하게 하는 것이 목표”라고 밝혔다.
워싱턴 임주형 특파원
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지

