오케스트로, GPU 활용률 높이는 AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개

  • 기사 소리로 듣기
    다시듣기
  • 글씨 크기 조절
  • 공유하기
  • 댓글
    0
수정 2026-05-29 10:19
입력 2026-05-29 10:18
구글에서 서울신문 먼저 보기
세줄 요약
  • 콘체르토 AI 공개, GPU 추론 운영 효율화
  • 분산 서빙·KV 캐시로 병목 완화, 응답 속도 개선
  • 국산 NPU까지 지원, 소버린 AI 선택권 확대
- 분산 서빙 기반 추론 최적화… 보유 GPU 인프라 활용 효율 높여
- 고부하 환경서 토큰 출력 속도 2.2배 향상… AI 서비스 응답 지연 완화
- 국내 유일 GPU·국산 NPU 이기종 가속기 지원… 소버린 AI 인프라 선택권 확대
이미지 확대
오케스트로 제공
오케스트로 제공


AI·클라우드 소프트웨어 전문 기업 오케스트로(대표 김범재, 김영광)는 보유 GPU 인프라의 활용 효율을 높여 기업 AI 서비스의 추론 병목을 줄이는 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 선보였다고 29일 밝혔다.

생성형 AI 도입이 확산되면서 기업 AI 인프라의 핵심 과제는 GPU 확보에서 추론 운영 효율화로 전환되고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 등 상시 운영 AI 서비스가 늘어나면서 모델 호출과 추론 연산 수요도 함께 증가하고 있다.

에이전트형 AI 환경에서는 단일 요청이 복수의 모델 호출과 반복 연산으로 이어져 추론 작업량이 단기간에 급증할 수 있다. GPU를 보유하더라도 추론 요청이 특정 자원에 집중되면 병목으로 인한 응답 지연과 자원 낭비가 동시에 발생하는 구조적 문제가 따른다.

콘체르토 AI는 분산 서빙 기반의 추론 최적화를 핵심 기술로 채택했다. 기존 단일 처리 방식은 질문 분석과 답변 생성을 동일 GPU 자원에서 처리해 요청 집중 시 전체 응답 속도가 저하된다. 콘체르토 AI는 두 작업을 분리해 각각에 적합한 자원을 배치함으로써 병목을 줄인다. 여기에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선하고, 실시간 대기열·자원 상태 기반 지능형 라우팅 기능을 결합해 고부하 환경에서도 응답 성능을 유지한다.

오케스트로가 자체 온프레미스 AI 인프라 환경에서 수행한 벤치마크 테스트에 따르면, 동시 요청이 집중되는 고부하 환경에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 높게 유지한 것으로 나타났다.

운영 자동화 기능도 탑재됐다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 LLMOps에 필요한 기능을 단일 플랫폼에서 제공한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 파드(Pod) 생성부터 엔드포인트 연결까지 배포 과정을 자동화하며, 배포 이후에는 초기 응답 시간·토큰 처리 속도·자원 사용량 등 주요 지표를 통합 모니터링 환경에서 확인할 수 있다.

인프라 호환성 측면에서는 엔비디아 GPU 외에 리벨리온·퓨리오사AI 등 국산 NPU 환경까지 지원하는 이기종 가속기 구조를 채택했다. 오케스트로 측은 GPU와 국산 NPU를 아우르는 상용화 수준의 AI 추론 운영 플랫폼은 국내에서 콘체르토 AI가 유일하다고 밝혔다. 이를 통해 기업·기관은 프라이빗 AI 및 소버린 AI 환경에서 특정 하드웨어 벤더 의존도를 낮추고 서비스 특성과 보유 인프라에 맞춰 추론 자원을 구성할 수 있다.

김범재 오케스트로 대표는 “기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 밝혔다.

양승현 리포터
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
[ 내안의 AI 본성 분석 :
UNMASK ]
기사 읽는 습관에 숨겨진 당신의 MBTI는?
기사 반응 MBTI 확인
Q.
기사를 다 읽으셨나요? AI 퀴즈로 핵심 점검!
콘체르토 AI의 분산 서빙 방식의 핵심 기술은?
에디터 추천 인기 기사
많이 본 뉴스
원본 이미지입니다.
손가락을 이용하여 이미지를 확대해 보세요.
닫기