오진 남발하는 AI 주치의… 그대로 믿었다간 낭패

유용하 기자
수정 2026-02-19 00:46
입력 2026-02-19 00:46
의료 AI 모델의 환각 현상
학습 시 정확성보다 목표 달성 우선허위 정보 전달… “결정 도움 안 돼”
사실 검증 내장형 안전장치 갖춰야
픽사베이 제공
생성형 인공지능(AI)은 사실과 다른 정보를 진실인 것처럼 제시하는 ‘환각’ 현상을 보일 때가 많다. 최근 연구에 따르면 AI는 단순히 실수로 틀린 답을 하는 것을 넘어 자기 목표를 달성하기 위해 의도적으로 인간을 속이는 경우도 늘고 있다. 훈련 과정에서 정직함보다 목표 달성을 우선하도록 학습될 때 전략적 기만이 발생할 수 있다는 것이다.
미국 마운트 시나이 아이칸 의대 연구팀은 의료 AI 시스템에 의도치 않게 의학적 오류나 잘못된 정보가 유입될 경우, AI는 사실과 허구를 구분하지 못하고 잘못된 정보를 사실인 것처럼 전달할 가능성이 높다고 18일 밝혔다. 연구팀은 주요 대규모 언어 모델(LLM) 9개를 대상으로 100만 건 이상의 질문과 답변을 분석한 결과, 의료 AI 시스템이 소셜미디어(SNS)에 떠도는 검증되지 않은 의료 정보를 의사나 환자에게 제공할 가능성이 높다는 점을 확인했다. 이 연구는 의학 분야 국제 학술지 ‘랜싯 디지털 헬스’ 2월 9일 자에 실렸다.
연구팀은 체계적 검증을 위해 SNS에서 흔히 볼 수 있는 건강 관련 오해와 임상의들이 작성하고 검증한 300개의 짧은 임상 시나리오, 허위 권고 사항을 일부 포함한 실제 중환자 치료 의료정보 데이터베이스(MIMIC) 기반 병원 퇴원 요약문 등 세 가지 유형의 콘텐츠를 의료 AI 모델에 노출했다. 각 사례는 중립적 표현부터 SNS에서 흔히 볼 수 있는 감정적이고 과장된 표현까지 다양한 버전으로 구성됐다. 예를 들어 식도 출혈 환자에게 “증상 완화를 위해 차가운 우유를 자주 마시라”와 같은 허위 퇴원 지침을 포함했다.
분석 결과, 의료 AI 모델 대부분은 허위 사실을 위험하다고 인식하지 못하고 일반 의료 지침처럼 받아들여 환자들에게 권고하거나 의료진에게 안내하는 것으로 나타났다. 이번 연구 결과는 현재 의료 AI 시스템이 명백히 잘못된 내용이라도 의학 용어로 포장돼 있으면 ‘참’으로 간주할 수 있고, 환자를 위한 지침에 허위 권고사항이 포함되더라도 걸러내지 못할 수 있다는 것을 시사한다고 연구팀은 설명했다. 연구팀은 이런 오류가 발생하는 것은 의료 AI에서 정보 정확성보다 표현 방식에 가중치를 주기 때문이라고 지적했다.
또, 영국 옥스퍼드대 인터넷 연구소, 옥스퍼드 의대, 뱅거대, 카드왈라드대, 국민보건서비스(NHS), 버밍엄 여성·아동 병원, 미국의 AI 기업인 콘텍스추얼 AI, ML 커먼스, 팩토어드 AI 공동 연구팀도 LLM이 일반인의 건강 관련 결정에 도움이 되지 않는다는 연구 결과를 의학 분야 국제 학술지 ‘네이처 의학’ 2월 10일 자에 내놨다.
연구팀은 영국에 거주하는 성인 남녀 1298명을 4개 그룹으로 나눈 뒤, 10가지의 다른 의료 시나리오를 주고 GPT-4o, 라마 3, 커맨드 R+ 세 종류의 LLM 중 하나를 사용하거나 AI가 아닌 인터넷 검색으로 관련 증상을 진단하고 치료법을 찾도록 무작위 배정했다. 그 결과, LLM이 증상에 대해 정확한 진단을 내린 것은 34.5% 미만, 올바른 처방 및 처치를 한 것도 44.2% 미만으로 확인됐다. 인터넷 검색만을 통해 진단과 처치법을 찾은 것과 차이를 보이지 않은 결과였다.
기리시 나드카니 마운트 시나이 아이칸 의대 교수는 “AI는 더 많은 정보를 빠르게 처리함으로써 임상의와 환자에게 실질적 도움을 줄 수 있는 잠재력이 있다”면서도 “의료 AI를 실제 임상에 광범위하게 사용하기 전에 대규모 스트레스 테스트와 외부 증거 검증을 통해 AI가 내는 답이 사실인지를 검증하는 과정과 이를 보장하는 내장형 안전장치를 갖추도록 해야 한다”고 말했다.
유용하 과학전문기자
2026-02-19 18면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
Q.
기사를 다 읽으셨나요? AI 퀴즈로 핵심 점검!
의료 AI 모델이 허위 의료 정보를 어떻게 처리했나?

