
최근 발간된 하나금융연구소 '인공지능 데이터 품질 하락의 영향과 시사점' 보고서에 따르면, 인공지능 연구 분야에 있어 데이터 품질 관리는 결코 간과해서는 안 되며 미흡할 경우 예측 성능에 치명적 영향을 주기 때문에 각별한 주의가 요구된다.
보고서는 "금융, 의료, 안전 등과 같은 고위험 인공지능 적용 분야에서 모델 구축에 필수적인 데이터의 중요성은 증가하고 있다"며 "그러나 인공지능 모델 구축 초기 단계인 데이터 품질 관리는 인공지능 분야에서 가장 저평가 받는 영역이다"라고 지적했다.
보고서는 "데이터 분야를 과소평가하는 관행으로 인해 모델의 오류가 누적되는 데이터 캐스케이드 현상은 인공지능 업계 전반에 만연돼 있다"며 "따라서 데이터 캐스케이드 징후를 사전에 식별하고 방지하기 위해서는 인공지능 생태계의 사회적, 구조적, 기술적 고려가 필요하다"고 밝혔다.
보고서는 "데이터는 인공지능의 성능, 공정성, 견고성, 안정성, 확장성을 결정하는 필수적인 요소이지만, 인공지능 분야에서 가장 저평가되고 있는 부분"이라며 "전문가, 실무자, 현장 파트너 간의 협업과 보상 문제, 실무자의 전문성 부족, 물리적 환경 취약성 등의 요인으로 데이터 캐스케이드가 발생한다. 데이터 캐스케이드는 예산 낭비, 수혜 대상의 피해, 프로젝트 폐기 등의 부정적인 결과를 초래한다"고 경고했다.
보고서는 "인공지능 전문가의 92%는 1건 이상의 데이터 캐스케이드를 경험했다. 시스템에 미치는 부정적인 영향을 감지하고 측정하기 위한 사전 지표와 도구가 없는 경우, 데이터 캐스케이드는 복잡해지고 장기적이며 지속적으로 발생한다"며 "구글에 따르면, 활용 가능한 디지털 데이터가 없는 고위험 인공지능 적용 분야의 경우 취약한 환경적 요인으로 데이터 준비 단계에서 캐스케이드가 발생한다. 데이터를 수집하는 현장의 예측하기 힘든 상황과 복잡성은 불량 데이터를 발생시키며, 모델의 예측 성능에 치명적인 영향으로 작용하는 경우가 다수"라고 분석했다.
보고서는 "물리적 환경과의 상호작용으로 데이터를 수집하는 과정에서, 기준을 준수하지 않는 경우 모델 구축에 실패하거나 프로젝트를 포기하는 결과를 초래한다"며 "따라서 데이터 품질 향상을 위해 현장 실무자 대상 데이터 관련 교육 투자, 일관된 데이터 모니터링, 재학습된 모델 기반의 비논리 영역 탐지 기법 등이 필요하다"고 조언했다.