[ETRI 보도자료] ETRI, AI 테스팅 국제표준 최초제정 쾌거_FF.hwp
Embargo |
|
|||||
배포일자 : 2025.11.19.(수) |
배포번호 : 2025-87호 |
|||||
문의 |
ICT전략연구소 |
표준연구본부장 |
이승윤(042-860-5508) |
E-mail : syl@etri.re.kr |
||
표준연구본부 |
지능정보표준연구실장 |
이원석(042-860-6104) |
E-mail : wonsuk.lee@etri.re.kr |
|||
지능정보표준연구실 |
책임연구원 |
전종홍(042-860-5333) |
E-mail : hollobit@etri.re.kr |
|||
대외협력본부 |
홍보실장 |
정길호(042-860-0670) |
E-mail : khchong@etri.re.kr |
|||
홍보실 |
선임행정원 |
김민규(042-860-0681) |
E-mail : kakapow@etri.re.kr |
|||
매수 : 보도자료 3매(참고자료 410매, 사진자료 108매) |
배포처 : ETRI 홍보실 |
|||||
ETRI,‘AI 테스팅’국제표준 최초 제정 쾌거
- 5년 노력 결실끝 ‘AI 안전·신뢰성’ 위한 세계표준 우뚝 세워
- 'ISO/IEC TS 42119-2' 제정, 대한민국 AI 국제표준 선도
국내 연구진이 인공지능(AI) 시스템의 안전성과 신뢰성을 검증하는 핵심 국제표준을 제정하는 성과를 거뒀다. 이번 성과는 5년여에 걸친 노력 끝에 이뤄낸 결과로, 대한민국이 AI 기술뿐 아니라 AI 규범과 신뢰성 검증 기준까지 선도하게 되었다.
한국전자통신연구원(ETRI)은 AI 시스템의 테스트 절차와 방법론을 정의한 ‘AI 시스템 테스팅 개요’ 표준이 국제표준화기구(ISO/IEC JTC1)에서 지난 3일, 공식 제정되었다고 밝혔다.
이번 성과는 우리나라가 ISO/IEC 인공지능 기술위원회(SC 42)에서 주도적으로 제정한 최초의 AI 테스팅 핵심 AI 국제표준이라는 점에서 큰 의미가 있다.
이번 성과는 ETRI가 글로벌 AI 기술 패권 경쟁 속에서 ‘빠른 추격자(Fast Follower)’를 넘어 ‘선도자(First Mover)’로 자리매김했음을 보여준다.
ETRI는 이번 성과가 인공지능의 데이터 품질, 모델 성능, 편향성 등 AI 전주기 테스트 방법론을 최초로 정의한 것이라고 밝혔다. 아울러 본 기술은 향후 국제 공인시험, 국제 적합성 시험 평가 등에 활용될 최초의 국제표준 제정이라는 점에서 의미가 크다고 연구원은 설명했다. 인공지능 기본법 및 EU AI ACT 등에서 고영향, 고위험 인공지능 시스템에 대해 필수사항으로 요구되는 검인증 방법 및 적합성 시험 방법 기준을 만들었다는 의미이기도 하다.
이번 표준은 구체적으로 기존 소프트웨어 테스트 표준을 AI 시스템에 맞게 확장한 것으로, AI 특성에 맞춘 ▲데이터 품질 테스트 ▲모델 테스트 등 새로운 테스트 단계를 정의했다.
이를 통해 AI 시스템의 핵심 요소인 데이터 품질부터 모델 성능까지 종합적으로 검증할 수 있는 기반을 마련했다. 또한 AI의 잠재적 위험을 사전에 점검하기 위해 ‘위험 기반 테스트’ 개념도 도입했다.
이를 바탕으로 ▲AI 편향성 검증을 위한 편향성 테스트 ▲입력값 변화를 이용한 적대적 테스트 ▲운영 중 성능 저하를 확인하는 드리프트 테스트 등 AI 특화 테스트 절차를 구체화했다.
이 표준은 앞으로 제정될 ▲AI 레드팀 테스팅 ▲생성형 AI 테스팅 등 후속 표준의 기반이 되는 ‘총론’격 표준으로, AI 신뢰성 검증 체계의 근간을 우리나라가 설계했다는 데 큰 의미가 있다.
이번 국제표준은 ETRI 지능정보표준연구실 전종홍 책임연구원이 최초 제안했고, 소프트웨어 테스트 분야 세계적 권위자이자 STA테스팅컨설팅의 기술이사인 스튜어트 리드(Stuart Reid) 박사와 함께 공동 에디터로 활동해 완성했다. 소프트웨어 테스팅 전문기업인 STA테스팅컨설팅은 ETRI 창업기업 중 하나다.
양 기관은 ISO/IEC JTC 1 산하 AI 표준화 위원회(SC 42)와 SW 테스팅 위원회(SC 7) 간의 합동작업반(JWG 2)을 구성하여 5년간 공동으로 개발을 추진했다.
이번 성과는 정부가 추진하는 ‘소버린 AI(주권형 AI)’ 및 ‘AI G3 도약’ 전략의 핵심 목표인 ‘안전하고 신뢰할 수 있는 AI 구현’을 뒷받침하는 기술적 근거가 된다.
AI 시스템의 성능과 위험을 객관적으로 검증하는 절차를 국제표준화함으로써, 향후 글로벌 시장에서 대한민국이 AI 안전·신뢰성 분야의 규범을 선도할 기반을 마련했다.
ETRI 방승찬 원장은 “AI의 안전성과 신뢰성을 확보하는 것은 인공지능 시대의 핵심 과제이다. 이번 국제표준 제정은 대한민국이 AI 기술뿐 아니라 AI 테스팅과 평가 규범을 선도하는 분기점이 될 것이다.”고 밝혔다.
ETRI 이승윤 표준연구본부장도 “이번 표준은 전 세계 AI 시스템의 안전성과 신뢰성을 시험 평가하는 공통 기준의 ‘뼈대’를 우리 손으로 만든 것이다. 앞으로 ‘소버린 AI 테스팅 기술과 표준화’를 주도하는데 적극 노력하겠다.”고 말했다.
이번 표준 제정을 주도했고 국가AI전략위원회 위원으로도 활동 중인 전종홍 책임연구원은 “AI 공통 핵심 표준을 만드는 JTC 1/SC 42 표준화 활동이 강화되어야 한다”며 “AI 국가 표준화 전략을 만들고 AI 국제표준화에 보다 적극적이고 장기적인 투자를 해야할 시점”이라고 강조했다.
ETRI는 이번 제정 표준을 기반으로 현재 개발 중인 후속 테스팅 시리즈 표준인 레드팀 테스팅 표준(ISO/IEC 42119-7)을 비롯해, 온톨로지 표준(ISO/IEC 42119-10), AI 벤치마크(ISO/IEC 42119-11) 등의 후속 시리지를 계속 이어 개발하며 AI 테스팅 국제 표준 시리즈 개발을 선도할 계획이다.
이번 성과는 식품의약품안전처가 지원한 ‘범부처전주기의료기기연구개발사업’의 일환으로 추진된「인공지능 기반 의료기기 성능 평가 기술 국제표준 개발(2020.9.~2023.2.)」과제와 「인공지능/머신러닝 의료기기 성능평가 국제표준 개발(2023.1.~2025.12.)」 과제의 연계·확산을 통해 이뤄졌다. <보도자료 본문끝>
용어설명 |
1) AI 시스템 테스팅 개요(ISO/IEC TS 42119-2) 표준 : 기존 소프트웨어 테스팅 표준(ISO/IEC/IEEE 29119 시리즈)을 AI 시스템에 적용하기 위한 요구사항과 가이드를 제공하는 기술 표준(TS)이다. AI 시스템의 특성을 고려한 테스트 프로세스, 테스트 레벨, 테스트 유형 등을 정의한다.
2) 국제표준화기구(ISO/IEC JTC 1) :국제표준화기구(ISO)와 국제전기기술위원회(IEC)가 정보통신기술(ICT) 분야의 국제표준을 개발하기 위해 1987년에 공동으로 설립한 '제1 합동 기술위원회(Joint Technical Committee 1)'. 정보통신기술(ICT) 관련 표준화를 위한 합동 위원회로 두 기구 간의 표준 충돌을 막고 효율적인 합동 표준화를 추진하는 것이 주 목적
3) 소프트웨어 테스트 표준(ISO/IEC/IEEE 29119 시리즈) : 소프트웨어 테스팅에 관한 국제 표준 시리즈. 이 표준은 소프트웨어 개발 수명주기 전반에 걸쳐 사용될 수 있는 테스트 용어, 프로세스, 문서화, 기법 등을 정의합니다. 기존의 IEEE 829(테스트 문서화), IEEE 1008(단위 테스트) 등 여러 표준을 대체하여 통합하고 있음
4) 데이터 품질 테스트(Data quality testing) : AI 모델을 생성(훈련)하는 데 사용되는 데이터의 품질을 검증하는 테스트 레벨이다. 데이터의 정확성, 완전성, 편향성, 대표성 등을 평가하여 모델의 품질 저하 위험을 줄이는 것을 목표로 한다.
5) 모델 테스트(Model testing) : 훈련된 AI 모델 자체를 테스트 대상으로 하는 테스트 레벨이다. 의도된 사용 맥락 내에서 모델이 수용 가능한 성능을 보이는지, 기능적 정확성이나 편향성 관련 위험은 없는지 등을 확인한다.
6) ‘위험 기반 테스트(Risk-based testing, RBT) : AI 시스템과 관련된 잠재적 위험을 식별, 분석하고, 이 위험의 우선순위에 따라 테스트 접근법과 노력을 결정하는 체계적인 테스트 전략이다.
7) 편향성 테스트(Unwanted bias testing) : AI 모델이 성별, 인종, 연령 등 민감한 속성에 따라 특정 그룹에 불리하거나 불공정한 결과를 내놓지 않는지 분석하고 측정하는 테스트. 훈련 데이터 자체가 특정 집단을 과소/과대 대표(선택 편향)하거나 과거의 편견을 답습(확증 편향)할 때 편향이 발생할 수 있으며, 이 테스트는 모델 배포 전 차별적 패턴을 탐지하는 것을 목표로 함
8) 적대적 테스트(Adversarial testing) : AI 모델을 속이도록 의도적으로 설계된 입력값(적대적 예제)을 생성하여, 모델이 예상치 못하게 오작동하는 취약점을 식별하는 테스트 유형이다. 이를 통해 모델의 견고성과 보안성을 향상시킨다.
9) 드리프트 테스트(Drift testing) : 운영 환경에 배포된 AI 모델의 성능이 시간이 지남에 따라 저하되는 '컨셉 드리프트(Concept drift)' 현상을 감지하는 테스트 유형이다. 모델이 최신 데이터를 정확하게 처리하는지 지속적으로 모니터링한다.
10) AI 레드팀 테스팅(ISO/IEC 42119-7,(AI Red Team Testing): AI 시스템의 잠재적인 취약점, 유해하거나 편향된 결과, 보안 문 제 등을 식별하기 위해 의도적으로 다양한 공격을 시도하고 시스템의 한계를 시험하는 탐색적·공격적 테스팅 방법. 실제 발생 가능한 위협을 사전에 발견하고 방어 체계를 강화하는 것을 목표로 한다.
11) 생성형 AI 테스팅(ISO/IEC 42119-8) : "프롬프트 기반 텍스트-투-텍스트 생성형 AI 시스템의 품질 평가"에 관한 기술 사양(TS) 표준. 이 표준은 챗봇과 같은 생성형 AI의 품질과 안전성을 평가하기 위한 정의, 요구사항, 가이드를 제공하며, 텍스트 기반 생성형 AI 시스템에 대한 벤치마크 테스팅과 같은 평가 방법론을 포함.
12) 소버린 AI (Sovereign AI): 국가가 자체적인 AI 기술, 데이터, 인프라를 확보하고, 외부에 종속되지 않으며 자국의 가치와 규범에 따라 AI를 발전시키고 통제할 수 있는 기술 주권을 의미한다.
13) 국제표준인 ISO/IEC 42119-7 (Red teaming): AI 레드팀 테스팅에 대한 용어, 절차, 방법들을 정의한 AI 레드팀에 대한 최초의 국제 공통 표준. 2025년 4월 표준 개발을 시작하였고, 2027년 12월 제정을 목표로 개발 중 (에디터: ETRI 전종홍 책임)
참고1 |
주요 AI 규제(인공지능 기본법, EU AI Act)와의 연관성 |
'ISO/IEC TS 42119-2' 표준은 단순히 기술적 가이드라인을 넘어, 전 세계적으로 본격화되는 AI 규제 환경에서 기업과 정부가 신뢰성을 입증하는 핵심적인 '실행 도구(Implementation Tool)'로 활용될 수 있습니다.
1. 국내 '인공지능 기본법' 및 관련 고시 (고위험/고영향 AI 중심)
2026년 1월부터 시행 예정인 '인공지능 기본법(안)' 및 관련 법령들은 AI의 위험을 분류하고, 특히 국민의 생명, 안전, 기본권에 중대한 영향을 미칠 수 있는 '고위험(또는 고영향) AI 시스템'에 대한 관리·감독을 핵심으로 합니다.
1) 법적 요구사항 (Anticipated):
고위험 AI 시스템 사업자에 대해 '신뢰성 확보 조치'를 의무화합니다.
여기에는 데이터 관리, 편향성 방지, 안전성 확보, 투명성 조치 등이 포함됩니다.
일부 고위험 영역(의료, 교통 등)에서는 제3자 기관을 통한 '안전 및 신뢰성 검인증' 또는 '영향평가'가 요구될 수 있습니다.
2) ISO/IEC TS 42119-2의 역할:
'검인증'의 기술적 기준: 법안이 요구하는 '신뢰성 확보 조치'는 추상적입니다. 'ISO/IEC TS 42119-2'는 이러한 신뢰성을 객관적으로 검증할 수 있는 최초의 국제 표준 테스트 절차를 제공합니다.
'영향평가'의 실행 방법론: '편향성 테스트(Unwanted bias testing)', '데이터 품질 테스트(Data quality testing)' 등은 AI가 사회에 미칠 수 있는 차별이나 위험을 사전에 평가하는 '영향평가'의 핵심 구성 요소입니다. 본 표준은 영향평가를 수행하는 구체적인 공학적 방법론을 제시합니다.
결론: 본 표준은 국내 AI 기본법이 시행될 경우, 기업이 법적 의무를 준수했음을 증명하고, 인증기관이 '고위험 AI'를 검증하는 실질적인 기술 표준(De facto standard)으로 활용될 것입니다.
2. EU AI Act (유럽연합 인공지능법) - 고위험 AI 시험 평가
EU AI Act는 전 세계 AI 규제의 표준이 되고 있으며, 특히 '고위험 AI 시스템(High-Risk AI Systems)'에 대해 시장 출시 전 엄격한 '적합성 평가(Conformity Assessment)'를 의무화합니다.
1) 법적 요구사항 (Anticipated):
고위험 AI 시스템은 EU 시장에 출시되기 전(CE 마킹 획득), 법이 정한 여러 요구사항을 충족했음을 입증해야 합니다.
주요 요구사항에는 ▲고품질 데이터셋 사용(편향성 최소화), ▲기술적 견고성(Robustness) 및 정확성, ▲투명성 및 정보 제공, ▲인간의 감독 등이 포함됩니다.
사업자는 이러한 요구사항을 충족했음을 증명하기 위한 광범위한 '시험(Testing)' 및 '평가(Evaluation)' 기록을 기술 문서로 제출해야 합니다.
2) ISO/IEC TS 42119-2의 역할:
'적합성 평가'의 핵심 증거: EU AI Act는 '무엇을' 테스트해야 하는지(데이터 품질, 견고성, 편향성 등)는 정의하지만, '어떻게' 테스트해야 하는지에 대해서는 구체적인 방법을 명시하지 않고 '최신 기술 수준(State-of-the-art)'을 따르도록 합니다.
'최신 기술 수준'의 증명: 'ISO/IEC TS 42119-2'는 AI 테스팅 분야에서 ISO가 공인한 '최신 기술 수준' 그 자체입니다.
요구사항 직접 대응: 본 표준의 '데이터 품질 테스트', '모델 테스트', '편향성 테스트', '적대적 테스트(Adversarial testing)' 등은 EU AI Act가 요구하는 데이터 품질, 정확성, 공정성, 견고성 요구사항에 직접적으로 대응하는 검증 방법입니다.
결론: 유럽 시장에 진출하려는 AI 기업(국내 기업 포함)에게 'ISO/IEC TS 42119-2' 표준을 준수하여 테스트를 수행하는 것은, EU AI Act의 복잡한 적합성 평가를 통과하기 위한 가장 확실하고 공신력 있는 방법이 될 것입니다.
참고2 |
인공지능 기본법과 연관성 |
2025년 1월 21일 공포되고 2026년 1월 22일 시행 예정인 '인공지능 발전과 신뢰 기반 조성 등에 관한 기본법' (이하 '인공지능 기본법')은 AI 산업의 진흥과 더불어 '신뢰 기반 조성'을 법제화한 핵심 법안입니다.
이 법은 AI 시스템, 특히 '고영향 인공지능'에 대한 사업자의 책무와 신뢰성 확보 조치를 명시하고 있습니다. 'ISO/IEC TS 42119-2' 표준은 이러한 법적 요구사항을 기업이 이행하고 정부가 검증하는 데 필요한 최초의 국제 표준 '실행 방법론'을 제공합니다.
1. '인공지능 기본법'의 주요 법적 근거 (The 'What')
'인공지능 기본법'은 AI의 잠재적 위험을 관리하고 신뢰를 확보하기 위해 다음과 같은 핵심 조항을 포함하고 있습니다.
제29조 (인공지능 신뢰 기반 조성을 위한 시책의 마련)
내용: 정부가 AI의 안전한 이용을 위한 '신뢰 기반'을 조성하기 위한 시책을 마련해야 함을 명시합니다.
핵심: 특히 제3호에서 "인공지능의 안전성ㆍ신뢰성 확보를 위한 안전기술 및 인증기술의 개발 및 확산 지원"을 규정하며, 공신력 있는 테스트 및 인증 기술의 필요성을 법적으로 선언합니다.
제32조 (인공지능 안전성 확보 의무)
내용: 일정 기준(대통령령으로 정하는 누적 연산량) 이상의 AI 시스템 사업자에게 안전성 확보 의무를 부과합니다.
핵심: "인공지능 수명주기 전반에 걸친 위험의 식별ㆍ평가 및 완화" 조치를 이행하고 그 결과를 과기정통부 장관에게 제출하도록 규정합니다.
제34조 (고영향 인공지능 사업자의 조치 의무)
내용: 사람의 생명, 신체, 기본권에 중대한 영향을 미치는 '고영향 인공지능' 사업자에게 추가적인 신뢰성 확보 조치를 의무화합니다.
핵심: 시행령(대통령령)에서 정할 '위험관리방안 수립', '설명 가능성 확보', '이용자 보호' 등의 조치를 이행해야 합니다.
제30조 (인공지능 신뢰성 검·인증)
내용: 인공지능 사업자가 자사 시스템의 신뢰성을 확보하기 위해 '검·인증'을 받을 수 있도록 노력해야 한다고 규정합니다.
핵심: 정부는 검·인증을 지원할 수 있으며, 검·인증을 받은 시스템은 국가기관 등이 '우선 구매' 대상으로 고려할 수 있습니다.
2. 'ISO/IEC TS 42119-2'의 기술적 해법 (The 'How')
'ISO/IEC TS 42119-2' 표준은 위에서 언급된 법적 의무와 요구사항을 기업이 실제로 '어떻게' 준수할 수 있는지에 대한 구체적인 기술 표준과 절차를 제공합니다.
1) '위험 식별 및 평가' (법 제32조)의 실행 도구
법률 요구사항: "위험의 식별, 평가, 완화“
ISO 표준: '위험 기반 테스트 (Risk-based testing, RBT)’
연관성: 본 표준은 AI 시스템의 잠재적 위험(편향성, 안전, 보안 등)을 식별하고, 위험의 우선순위에 따라 테스트 접근법과 노력을 결정하는 체계적인 '위험 기반 테스트' 전략을 정의합니다. 이는 제32조의 법적 의무를 이행하는 핵심 방법론입니다.
2) '고영향 AI 신뢰성 확보' (법 제34조)의 검증 절차
법률 요구사항: "안전성·신뢰성 확보 조치" (데이터 품질, 공정성, 안전 등)
ISO 표준: '데이터 품질 테스트', '모델 테스트', '편향성 테스트', '적대적 테스트’
연관성: 제34조가 요구하는 신뢰성(공정성, 편향성)과 안전성(견고성)은 'ISO/IEC TS 42119-2'가 정의한 AI 특화 테스트 유형들을 통해 구체적으로 검증될 수 있습니다. 법이 '무엇을' 하라고 규정했다면, 표준은 '어떻게' 검증할지 정의합니다.
3) '신뢰성 검·인증' (법 제30조)의 공인 기준
법률 요구사항: "인증기술의 개발 및 확산", "신뢰성 검·인증“
ISO 표준: AI 테스팅 국제 표준 절차 (Standardized Test Process)
연관성: 제30조에 따른 '검·인증' 제도가 공신력을 가지려면, 모든 AI 시스템에 일관되게 적용될 수 있는 '표준화된 시험 기준'이 필요합니다. 'ISO/IEC TS 42119-2'는 이러한 공인 시험 및 인증 체계의 기술적 근간(뼈대)이 됩니다.
참고13 |
기술 개요 |
'ISO/IEC TS 42119-2: 인공지능 - AI 테스팅 - 파트 2: AI 시스템 테스팅 개요'는 AI 시스템 테스팅에 대한 요구사항과 가이드를 제공하는 국제 표준 기술 규격(TS)입니다.
이 표준은 AI 시스템이 소프트웨어 시스템의 특성을 가지므로, 기존의 범용 국제 소프트웨어 테스팅 표준(ISO/IEC/IEEE 29119 시리즈)을 AI 시스템에 맞게 적용하고 확장하기 위해 개발되었습니다. ISO/IEC 29119 소프트웨어 테스팅 시리즈 표준에서 정의하는 테스트 프로세스 , 문서화 , 테스트 설계 기법 등을 AI라는 특정 도메인에 어떻게 적용할 수 있는지 구체적인 가이드와 확장된 요구사항을 제공합니다.
이를 위해 본 표준은 ISO/IEC JTC 1(정보 기술) 산하의 AI 표준화 위원회(SC 42)와 SW 테스팅 위원회(SC 7)가 구성한 합동작업반(JWG 2)에서 개발한 최초의 AI 테스팅 표준이며, 합동작업반을 통해 개발되는 AI 테스팅 시리즈 표준인 42119 시리즈 내에서 AI 테스팅 전반을 다루는 '총론(General Overview)' 격의 위상을 가집니다. 이는 향후 동일 시리즈에서 개발될 다음과 같은 세분화된 AI 테스팅 표준들의 기반이 됩니다.
현재 ISO/IEC 42119 시리즈로 개발 중인 표준들은 다음과 같습니다.
- ISO/IEC TS 42119-3 (AI 시스템 V&V 분석): AI 시스템의 검증(Verification) 및 유효성 확인(Validation) 분석 프로세스에 대한 접근법과 가이드를 기술
- ISO/IEC TS 42119-7 (AI 레드팀 테스팅): AI 시스템의 잠재적 취약점, 유해하거나 편향된 결과, 보안 문제 등을 식별하기 위해 의도적인 공격적 테스팅 방법을 정의하는 표준
- ISO/IEC TS 42119-8 (생성형 AI 테스팅): 프롬프트 기반 텍스트 생성형 AI 시스템 평가에 대한 요구사항과 가이드를 제공할 표준
향후 추가 개발 예정인 ISO/IEC 42119 시리즈 표준 계획은 다음과 같습니다.
- ISO/IEC 42119-1: AI 테스팅 표준 시리즈 전체에 대한 소개
- ML 시스템 테스팅 (IS 42119-4, TS 42119-5): 연속 학습이 없는 ML 시스템(Part 4)과 연속 학습이 있는 ML 시스템(Part 5)의 테스팅.
- ISO/IEC 42119-10, 11, 12: AI 테스팅 도구의 역량(Part 10), 소프트웨어 테스팅 온톨로지(Part 11), 테스팅을 위한 AI 벤치마크(Part 12) 등도 장기 계획에 포함되어 있습니다.
참고24 |
기술 특징 |
'ISO/IEC TS 42119-2'는 AI 시스템의 고유한 특성을 반영하여 기존 소프트웨어 테스팅을 확장하는 새로운 테스트 레벨과 유형을 정의합니다.
1) AI 특화 신규 테스트 레벨
데이터 품질 테스팅 (Data Quality Testing): AI 모델을 생성(훈련)하는 데 사용되는 데이터의 품질을 검증하는 테스트 레벨입니다. 데이터의 정확성, 완전성, 편향성, 대표성 등을 평가하여 모델의 품질 저하 위험을 줄이는 것을 목표로 합니다.
모델 테스팅 (Model Testing): 훈련된 AI 모델 자체를 테스트 대상으로 하는 테스트 레벨입니다. 의도된 사용 맥락 내에서 모델이 수용 가능한 성능을 보이는지, 기능적 정확성이나 편향성 관련 위험은 없는지 등을 확인합니다.
2) AI 고유 위험 대응 테스트 유형
편향성 테스트 (Unwanted Bias Testing): 데이터셋이나 모델이 특정 객체, 사람 또는 그룹을 다른 그룹과 비교하여 체계적으로 다르게 처리하는지(unwanted bias) 확인하는 테스트입니다.
적대적 테스트 (Adversarial Testing): AI 모델을 속이도록 의도적으로 설계된 입력값(적대적 예제)을 생성하여 , 모델이 예상치 못하게 오작동하는 취약점을 식별하는 테스트 유형입니다. 이를 통해 모델의 견고성과 보안성을 향상시킵니다.
드리프트 테스트 (Drift Testing): 운영 환경에 배포된 AI 모델의 성능이 시간이 지남에 따라 저하되는 '컨셉 드리프트(Concept drift)' 현상을 감지하는 테스트 유형입니다.
설명가능성 테스트 (Explainability Testing): AI 모델이 특정 결과를 도출한 이유나 영향을 미친 요소를 인간이 이해할 수 있는 방식으로 표현하는지(explainability) 확인하는 테스트입니다.
데이터 대표성 테스트 (Data Representativeness Testing): 훈련, 검증, 테스트에 사용되는 데이터셋이 실제 운영 환경에서 마주칠 데이터를 공정하게 대표(fair representations)하는지 판별하는 테스트입니다.
참고35 |
기술설명전문가 평가 및 심층분석 |
ISO/IEC TS 42119-2 (AI 시스템 테스팅 개요) 표준 제정의 의미와 가치
이번 ETRI가 주도하여 제정한 'ISO/IEC TS 42119-2' 표준은 전 세계적으로 급증하는 AI 기술의 안전성과 신뢰성 요구에 부응하는 최초의 '국제적 기술 규격'이라는 점에서 그 의미가 막중하다. 본 표준은 'AI가 신뢰할 수 있는가?'라는 추상적인 질문을 '어떻게 검증할 것인가?'라는 구체적인 공학의 영역으로 이끌어낸 첫 번째 핵심 국제 표준이다.
1. 적합성 시험인증 및 공인 시험 체계의 '표준 교과서'
AI 기술의 신뢰성을 보장하기 위해서는 객관적인 테스트와 검증이 필수적이다. 'ISO/IEC TS 42119-2'는 AI 시스템의 데이터 품질, 모델 성능, 편향성, 견고성(적대적 테스트) 등을 검증하는 구체적인 프로세스와 방법론을 정의한다.
이는 향후 각국의 공인 시험 기관이 AI 제품 및 서비스를 테스트할 때 준수해야 할 '표준 교과서'가 된다. 본 표준을 기반으로 적합성 평가(Conformity Assessment) 및 시험인증 체계가 구축될 수 있으며, 기업들은 이 표준에 따라 공인 시험 성적을 확보함으로써 자사 AI 기술의 신뢰성을 국제적으로 증명할 수 있게 된다.
2. ISO/IEC 42001 (AI 경영시스템)의 기술적 실행 지침
최근 제정된 'ISO/IEC 42001'은 조직이 AI를 책임감 있게 개발하고 운영하기 위해 갖춰야 할 '경영 체계(Management System)'를 정의한다. 이 표준이 AI 거버넌스의 '무엇을(What)'을 다룬다면, 'ISO/IEC TS 42119-2'는 '어떻게(How)' 그 요구사항을 기술적으로 검증할 것인지를 다룬다.
예를 들어, 42001 표준이 "AI 시스템의 편향성 위험을 관리하라"고 요구한다면, 42119-2 표준은 그 위험을 식별하고 측정하기 위한 '편향성 테스트(Unwanted bias testing)'의 구체적인 절차와 방법을 제공한다. 즉, 두 표준은 상호 보완적이며, 42119-2는 AI 경영시스템을 성공적으로 이행하고 감사(Audit)하는 데 필수적인 기술적 실행 지침(Actionable guidance)이다.
3. '보안, 안전 및 신뢰성 테스팅'의 개념을 공학적으로 체계화
기존 소프트웨어 테스팅(ISO/IEC/IEEE 29119)은 주로 기능의 '정상 동작' 여부를 확인하는 데 초점을 맞췄다. 하지만 AI는 데이터에 기반하여 스스로 학습하고 예측하므로, 기존 방식으로는 예측 불가능한 결함(편향성, 드리프트, 적대적 공격 취약성 등)을 검증하기 어려웠다.
본 표준은 '위험 기반 테스트(Risk-based testing)' 개념을 도입하여, AI 시스템이 초래할 수 있는 잠재적 위험(안전, 보안, 공정성 등)을 사전에 식별하고, 이에 집중하여 테스트 자원을 배분하도록 명시했다. 이는 AI의 '신뢰성(Trustworthiness)'이라는 모호한 개념을 '데이터-모델-운영' 전 주기에 걸쳐 검증 가능한 공학적 항목으로 체계화하도록 하는 첫 번째 표준이다.
4. 글로벌 AI 규제 조화의 핵심 기술 기준 제공
현재 유럽연합(EU AI Act), 미국(행정명령) 등 전 세계 주요국들은 AI의 위험을 관리하기 위한 강력한 규제 법안을 도입하고 있다. 이러한 규제들은 AI 시스템의 투명성, 공정성, 견고성 등을 요구하지만, 이를 증명할 통일된 기술 표준이 부재하여 산업계의 혼란이 컸다.
'ISO/IEC TS 42119-2'와 같은 국제 표준은 이러한 문제를 해결하는 '기술적 링구아 프랑카(Lingua Franca, 공용어)' 역할을 한다. 각국의 규제 당국이 본 표준을 자국의 기술 기준으로 인용하거나 준수하도록 할 경우, 기업들은 단일화된 표준에 맞춰 제품을 개발하고 테스트함으로써 글로벌 시장 진출 장벽을 낮출 수 있다. 이는 AI 분야의 '기술 무역 장벽(TBT)'을 해소하고 글로벌 규제 조화를 촉진하는 핵심 기반이 될 것이다.
5. 결론: 'AI 선도국'을 위한 핵심 기술 주권 확보
'ISO/IEC TS 42119-2' 표준 제정은 단순한 기술 표준 1건의 확보를 넘어선다. 이는 대한민국이 AI 기술을 '잘 만드는(Fast Follower)' 국가를 넘어, '잘 쓰고 검증하는(First Mover)' 규칙을 선도하는 국가로 도약했음을 의미한다.
본 표준은 AI 산업의 '안전벨트'를 설계한 것과 같으며, 정부가 추진하는 '소버린 AI(Sovereign AI)'의 안전성을 담보하는 핵심 기술 주권이기도 하다. ETRI가 주도한 이 표준은 향후 전개될 AI 레드팀 테스팅(42119-7), 생성형 AI 테스팅(42119-8) 등 후속 표준의 '총론'으로서, 대한민국이 글로벌 AI 신뢰성 검증 체계를 주도하는 분수령이 될 것이다.
참고6 |
AI 시스템 테스팅 개요(ISO/IEC TS 42119-2) 표준 |
< AI 시스템 테스팅 개요(ISO/IEC TS 42119-2) 표준 제정 표지 >
< AI 시스템 테스팅 개요(ISO/IEC TS 42119-2) 표준 제정 추진 경과 >