KDD 2026서 웹3 AI 성능 평가 논문 채택…‘디마인드 벤치마크’ 공개
수정 2026-05-26 14:59
입력 2026-05-26 14:59
세줄 요약
- KDD 2026 데이터셋·벤치마크 트랙 논문 채택
- 웹3·블록체인 특화 LLM 평가체계 제안
- 31개 모델 비교, 전문 추론 한계 확인
이번 연구는 웹3(Web3) 및 블록체인 분야에서 대형언어모델(LLM)의 성능을 정량적으로 측정하기 위한 평가 체계를 제안한 것이 핵심이다. 연구팀은 기존의 범용 AI 평가 방식에서 벗어나 블록체인 산업 특화 과제를 중심으로 모델의 실무 활용성과 전문 추론 능력을 검증하는 데 중점을 두었다고 설명했다.
최근 글로벌 AI 업계에서는 특정 산업 분야에 최적화된 도메인 특화 AI 개발 경쟁이 확대되는 흐름이다. 특히 금융·보안 분야에서는 단순 언어 생성 능력보다 정확한 추론과 안정성이 중요해지면서 전문 벤치마크 구축 필요성도 커지고 있다.
디마인드 벤치마크는 블록체인 기초 개념, 인프라, 스마트 컨트랙트, 탈중앙화 금융(DeFi), 탈중앙화 자율조직(DAO), 대체불가토큰(NFT), 토큰 이코노믹스, 밈코인, 보안 취약점 등 총 9개 도메인을 평가 범주로 설정했다. 단순 객관식 형태를 넘어 스마트 컨트랙트 디버깅, 온체인 수치 추론 등 실제 환경 기반 문제도 포함한 점이 특징이다.
연구팀은 GPT-5 시리즈, Claude, Gemini, DeepSeek, Grok, Qwen 등 총 31개 주요 AI 모델을 대상으로 성능을 비교 평가했다. 평가 결과 GPT-5 Medium이 전체 평균 77.63점으로 가장 높은 점수를 기록했지만, 토큰 이코노믹스와 보안 취약점 분야에서는 다수 모델이 낮은 성능을 보였다고 밝혔다.
연구진은 현재 상용화된 주요 AI 모델들도 Web3 전문 추론 영역에서는 여전히 한계를 드러내고 있다고 분석했다. 특히 복잡한 토큰 구조 해석이나 스마트 컨트랙트 보안 관련 문제에서는 모델 간 성능 편차가 크게 나타났다고 설명했다.
비용 대비 성능 측면에서는 일부 오픈소스 모델의 경쟁력도 확인됐다는 평가다. 연구에 따르면 DMind의 32B 파라미터 오픈소스 모델은 Web3 특화 과제에서 제한된 비용으로도 높은 성능을 기록했다. 특히 토큰 이코노믹스와 보안 영역에서는 대규모 범용 모델 대비 10~30% 수준의 비용으로 유사하거나 더 높은 성능을 보였다고 연구팀은 밝혔다.
업계에서는 생성형 AI가 금융·디지털 자산 분야로 확대 적용되면서 스마트 컨트랙트 검증이나 온체인 데이터 분석 자동화 수요도 증가하는 추세다. 이에 따라 산업 특화 AI 모델의 신뢰성과 검증 체계 중요성도 함께 커지고 있다는 분석이 나온다.
싱가포르 경영대학교 정보시스템학과 주페이다(ZHU Feida) 교수는 “이번 연구는 Web3 AI 분야에서 측정 가능한 평가 기준을 제시했다는 점에서 의미가 있다”며 “향후 해당 분야 AI 기술의 성능과 안정성 검증 체계 구축에도 활용될 수 있을 것”이라고 말했다.
한편 DMind 모델은 현재 AI 금융 플랫폼 ‘Minara(미나라)’에 적용돼 운영 중이다. 연구팀은 개인 투자자와 디지털 자산 보유자를 위한 재무 비서 기능 등에 해당 기술이 활용되고 있다고 설명했다.
양승현 리포터
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지
[ 내안의 AI 본성 분석 :
UNMASK ]
기사 읽는 습관에 숨겨진 당신의 MBTI는?
Q.
기사를 다 읽으셨나요? AI 퀴즈로 핵심 점검!
디마인드 벤치마크의 주요 목적은 무엇인가?

![THE NEXT : AI 운명 알고리즘 지금, 당신의 운명을 확인하세요 [운세 확인하기]](https://imgmo.seoul.co.kr/img/n24/banner/ban_ai_fortune.png)
