[기고] 자율주행 E2E, 고품질 데이터 확보가 관건
수정 2026-06-03 01:16
입력 2026-06-03 00:37
구글에서 서울신문 먼저 보기
최근 자율주행에 대한 관심이 높아지면서 기업들의 시선은 자연스레 그 원천인 ‘데이터 수집’으로 향하고 있다. 하지만 기업들이 방대한 주행 데이터를 앞다퉈 모으고 있다고 해서 안심할 단계는 아니다. 자율주행 기술의 고도화를 위해서는 데이터의 양을 넘어 데이터의 질과 수집 방식 그리고 활용 생태계에 대한 근본적인 고민이 필요하다. 이를 위해 다음의 세 가지 전략이 필요하다.첫째, ‘단순 영상’을 넘어선 ‘복합 데이터’의 수집이다. 자율주행 엔드투엔드(E2E) 모델을 학습시키기 위해 단순히 차량에 달린 카메라 영상만 모으면 된다고 생각하기 쉽지만, 이는 큰 오산이다. 인간의 뇌가 시각, 청각 등을 종합해 운전하듯 자율주행 인공지능(AI) 역시 다각도의 정보가 필요하다. 카메라뿐만 아니라 라이다(LiDAR), 레이더(Radar) 등의 데이터는 물론 고정밀 지도(HD Map), 정밀 측위 정보, 주변 객체 정보 등이 동기화된 ‘복합 데이터’가 수집되어야 한다.
둘째, 데이터의 ‘양’보다 ‘질’에 집중해야 한다. 대량의 데이터를 모으는 것은 중요하지만 텅 빈 직선 도로를 수만 시간 달린 데이터는 AI 학습에 큰 도움이 되지 않는다. 자율주행의 진정한 난관은 교차로에서의 꼬리물기, 무단횡단, 악천후 등 복잡하고 예측 불가능한 상황에서 발생한다. 따라서 통제된 환경을 넘어 일상에서 마주할 수 있는 각종 예외 상황에 대한 데이터를 누적하고 분류하는 작업이 필수적이다.
셋째, 개별 기업의 한계를 극복할 산학연 데이터 연합의 구축이다. 앞서 언급한 고품질의 복합 데이터를 대량으로 수집, 저장, 가공하는 데에는 상당한 자본과 비용이 소모된다. 하나의 기업, 특히 스타트업이 독자적으로 감당하기에는 진입 장벽이 너무 높아 그동안 국내에서는 이렇다 할 대규모 데이터 축적 시도가 부족했던 것이 현실이다. 이제는 학계와 정부, 민간 기업들이 힘을 합쳐 데이터를 공동으로 수집하고 나누어 쓸 수 있는 데이터 풀을 조성해야 한다.
마지막으로 일부 도시의 인프라와 교통 환경에만 국한된 데이터로는 범용성을 갖춘 모델을 학습시키기 어렵다. 복잡한 도심 도로망과 심한 교통 체증을 겪는 도심 지역, 굴곡진 산악 지형, 혹한이나 폭설이 잦은 지역, 해변 도로 등 다양한 지리적 및 환경적 특성을 반영할 수 있도록 실증도시가 전국 곳곳으로 추가 지정되어야 한다. 다양한 환경의 주행 데이터를 규모 있게 수집해 학습시켜야만 안전하게 작동하는 완벽한 자율주행 기술을 완성할 수 있다.
정부와 기업이 원팀이 되어 고품질 복합 데이터를 대규모로 구축하고 규제의 허들을 낮춰 데이터가 막힘없이 흐르게 할 때, 우리는 글로벌 피지컬 AI 시대의 진정한 선도 국가로 자리매김할 수 있을 것이다.
김진규 카카오모빌리티 부사장
2026-06-03 25면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지

![THE NEXT : AI 운명 알고리즘 지금, 당신의 운명을 확인하세요 [운세 확인하기]](https://imgmo.seoul.co.kr/img/n24/banner/ban_ai_fortune.png)
