설계도 읽고 재무제표 추론… 현장서 강한 ‘엑사원’ 떴다

곽소영 기자
수정 2026-04-10 00:46
입력 2026-04-10 00:46
텍스트·이미지 동시 추론
LG AI ‘엑사원 4.5’ 공개
과학·기술·공학·수학 평가 77.3점오픈AI·앤트로픽 경쟁 모델 앞서
차트 분석·추론 능력도 우위 보여
‘독자 AI 파운데이션 모델’도 대비
LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 인공지능(AI) 모델 ‘엑사원 4.5’를 공개했다. 설계도나 재무제표 등 서류 인식 능력을 고도화시킨 것이 특징으로 대중 서비스 보다는 산업용 활용이 확대될 전망이다.
엑사원 4.5는 LG AI연구원이 자체 개발한 ‘비전 인코더’와 거대언어모델(LLM)을 하나의 구조로 통합한 ‘비전-언어 모델’(VLM)로, 국내 최초 멀티모달 AI를 구현했던 엑사원 1.0부터 쌓아온 기술력의 집합체다. 엑사원 3.0부터 LLM에 집중해온 LG AI연구원이 다시 VLM으로 회귀한 것은 오는 8월 예정된 ‘독자 AI 파운데이션 모델’ 2단계 평가까지 대비한 것이다. LG AI연구원은 3단계 진출이 확정되면 본격적으로 모달리티 확장에 나서고, 궁극적으로 엑사원을 피지컬 AI까지 발전시킬 계획이다.
엑사원 4.5에서 가장 크게 향상된 성능은 복합 문서를 정확하게 읽고 추론하는 능력이다. 계약서, 재무제표, 전문 문헌 등 데이터와 숫자로 구성된 문서부터 기술 도면 등 그림 형태의 문서까지 이미지의 내용과 맥락을 이해해 텍스트로 출력할 수 있다. 설계도 등이 사용되는 건설업이나 제조현장, 연구원 및 학계 등 기업 간 거래(B2B)에서 활용성이 특히 높다.
소버린 AI를 목표로 하는 만큼 한국에 특화된 것도 강점이다. LG AI연구원은 지난 1월에는 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있다. 엑사원을 한국의 역사와 문화, 사회적 맥락까지 깊이 이해하는 AI로 발전시키려는 것이다.
LG AI연구원이 공개한 벤치마크 점수에 따르면 엑사원 4.5는 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록해 미국 오픈AI의 ‘GPT5-미니’(73.5점)와 앤트로픽의 ‘클로드 소넷 4.5’(74.6점), 중국 알리바바의 ‘큐웬3 VL 32B’(74.8점)를 모두 앞섰다.
복잡한 차트를 분석하고 추론하는 능력을 평가하는 ‘차트QA 프로’ 지표에서는 62.2점으로 GPT5-미니(60.9점), 클로드 소넷 4.5(62.1점)를 모두 넘어섰다. 시각 능력 평가 지표에서 높은 점수를 기록한 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 뜻이다.
이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5를 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 밝혔다.
곽소영 기자
2026-04-10 B1면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
Q.
기사를 다 읽으셨나요? AI 퀴즈로 핵심 점검!
엑사원 4.5의 STEM 성능 평가에서 GPT-미니보다 높은 점수를 기록했는가?
