[ETRI 보도자료] ETRI, 인공지능 안전성·신뢰성 확보위해 국제표준 선도_F.hwp
Embargo |
||||||
배포일자 : 2025.8.19.(화) |
배포번호 : 2025-61호 |
|||||
문의 |
ICT전략연구소 |
표준연구본부장 |
이승윤(042-860-5508) |
E-mail : syl@etri.re.kr |
||
표준연구본부 |
지능정보표준연구실장 |
이원석(042-860-6104) |
E-mail : wonsuk.lee@etri.re.kr |
|||
지능정보표준연구실 |
책임연구원 |
전종홍(042-860-5333) |
E-mail : hollobit@etri.re.kr |
|||
대외협력본부 |
홍보실장 |
정길호(042-860-0670) |
E-mail : khchong@etri.re.kr |
|||
홍보실 |
선임행정원 |
김민규(042-860-0681) |
E-mail : kakapow@etri.re.kr |
|||
매수 : 보도자료 3매(참고자료 6매, 사진자료 5매, 영상자료 3매) |
배포처 : ETRI 홍보실 |
ETRI, 인공지능 안전성·신뢰성 확보위해 국제표준 선도
- AI 잠재적 위험찾는‘레드팀 테스팅’·‘신뢰성 라벨’ISO 표준 착수
- 글로벌 규칙 제정 퍼스트 무버로 도약...소버린 AI·AI G3 실현 본격화
- 내달 4~5일, 노보텔 동대문서 레드팀 챌린지 및 워크숍...22일까지 신청
인공지능(AI) 기술이 일상과 산업 전반에 빠르게 확산되는 가운데, 그 안전성과 신뢰성을 확보하는 것이 전 세계적 과제로 떠오르고 있다. 이러한 상황에서 국내 연구진이 두 개의 핵심 국제표준 개발을 주도하며 주목받고 있다.
한국전자통신연구원(ETRI)은 AI 시스템의 위험을 미리 찾아내는‘AI 레드팀 테스팅’표준과 소비자가 AI의 신뢰 수준을 쉽게 이해할 수 있는‘신뢰성 사실 라벨(TFL)’표준을 국제표준화기구(ISO/IEC)에 제안하고, 본격적인 개발에 착수했다고 밝혔다.
이로써 우리나라는 단순히 기술을 따라가는‘빠른 추격자(Fast Follower)’를 넘어, AI 시대의 규칙을 만드는‘선도자(First Mover)’로서 위상을 높이게 되었다.
‘AI 레드팀 테스팅’은 AI 시스템이 얼마나 안전한지를 공격적으로 탐색하며 테스트하는 방법이다. 예를 들어, 생성형 AI가 잘못된 정보를 내놓거나, 사용자 보호장치를 피해 악용되는 상황을 미리 찾아내는 것이다.
ETRI는 이 분야의 국제표준인 ISO/IEC 42119-7의 에디터 역할을 맡아, 의료·금융·국방 등 다양한 분야에 공통으로 적용할 수 있는 국제 공통 시험 절차와 방법을 만들고 있다.
한편, ETRI는 식품의약품안전처와 함께 오는 9월 4일과 5일 양일간, 노보텔 서울 동대문 호텔에서 국내 최초로‘첨단 AI 디지털의료제품 레드팀 챌린지 및 기술 워크숍’도 개최한다. 본 챌린지는 첨단 인공지능 의료기기 분야에 대해 아시아권 및 우리나라에서는 최초로 열리는 행사로 의료인, 보안전문가, 일반 시민이 참여하여 AI의 편향, 위험성 등을 함께 점검해보는 행사다. 신청은 오는 22일까지다.
또한 서울아산병원과 협력해 의료 전용 레드팀 평가 방법론도 함께 개발 중이며, 첨단 AI 기술을 적용한 디지털의료제품에 대한 레드팀 시험 체계도 만들고 실증 테스팅을 진행할 예정이다. 그리고 STA·네이버·업스테이지·셀렉트스타·KT·LG AI연구원 등 주요 기업들과 협의체를 구성해 AI 레드팀 국제표준화 협력도 강화하고 있다.
또 하나의 핵심 표준은 바로‘신뢰성 사실 라벨(Trustworthiness Fact Labels, TFL)’이다.
이 라벨은 AI 시스템이 얼마나 신뢰할 수 있는지를 한눈에 알 수 있도록 시각화해주는 것으로, 마치 식품의 영양성분표처럼 소비자에게 투명한 정보를 제공한다.
ETRI는 ISO/IEC 42117 시리즈 표준 개발을 주도하고 있으며, 이 표준은 기업이 스스로 정보를 제공하거나, 제3의 기관이 검증·인증하는 다양한 방식으로 운영될 수 있다.
향후에는 AI의 탄소배출량(탄소발자국) 같은 ESG 요소도 반영하는 방안까지 검토 중이다.
이 표준은 인공지능 활용 조직에 대한 국제 인증 표준으로 사용하고 있는‘AI 경영시스템 표준(ISO/IEC 42001)’과도 연계하여, 개발된 제품 및 서비스가 얼마나 신뢰할 수 있는지 입증할 수 있는 틀로 자리매김할 전망이다.
이번 두 표준은 정부가 추진하는‘소버린 AI(주권형 AI)’,‘AI G3 도약’전략과도 맞닿아 있다. 단순한 기술력 확보를 넘어, 글로벌 AI 규칙을 만드는 주도권 경쟁에 실질적인 기여를 하는 사례로 평가된다.
미국의 NIST(국립표준기술연구소)가 국가 AI 전략 실현을 위한 국내/국제 표준화를 뒷받침 하고 있듯이, ETRI도 AI 안전연구소 활동을 비롯하여 AI 보안기술 개발, AI 안전 및 신뢰성 국제 표준화 선도 작업을 통해 국가 AI 전략 실현을 뒷받침한다는 구상이다.
정보통신기획평가원 김 욱 PM은“AI 안전과 신뢰성 제공은 모두가 AI를 사용하는 것에 쉽게 다가가도록 하며, 이번 국제표준 선도는 AI 규범을 선도하는 국가로 가는 분기점”이라고 평가했다.
ETRI 이승윤 표준연구본부장도“AI 레드팀 테스팅과 신뢰성 라벨은 미국, EU 등 각국 AI 규제정책에 포함된 핵심 기술 요소로, 이 국제 표준들은 전 세계 AI 시스템의 안전과 신뢰성을 평가하는 공통 기준이 될 것”이라며, “ETRI는 앞으로도 AI 안전과 신뢰성 분야의 국제표준화를 주도해, 대한민국이 소버린 AI뿐 아니라 소버린 AI 안전 기술을 이끄는 중심이 되도록 하겠다”고 밝혔다.
본 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 “첨단 인공지능 안전 및 신뢰성 시험 평가 기술 표준 개발”과 식품의약품안전처 컨소시움 "생성형 AI 디지털의료제품 레드팀 시험 평가 기술 개발 및 실증“ 과제를 통해 추진되었다. <보도자료 본문 끝>
용어설명 |
1) AI 레드팀 테스팅 (AI Red Team Testing): AI 시스템의 잠재적인 취약점, 유해하거나 편향된 결과, 보안 문제 등을 식별하기 위해 의도적으로 다양한 공격을 시도하고 시스템의 한계를 시험하는 탐색적·공격적 테스팅 방법. 실제 발생 가능한 위협을 사전에 발견하고 방어 체계를 강화하는 것을 목표로 한다.
2) 국제표준인 ISO/IEC 42119-7 (Red teaming): AI 레드팀 테스팅에 대한 용어, 절차, 방법들을 정의한 AI 레드팀에 대한 최초의 국제 공통 표준. 2025년 4월 표준 개발을 시작하였고, 2027년 12월 제정을 목표로 개발 중 (에디터: ETRI 전종홍 책임)
3) 신뢰성 사실 라벨 (Trustworthiness Fact Labels, TFL): 식품의 영양성분표처럼 AI 시스템의 신뢰성 관련 정보를 소비자가 쉽게 이해할 수 있도록 표준화된 형식으로 제공하는 라벨. AI의 견고성, 공정성, 설명가능성 등 다양한 신뢰성 항목에 대한 테스트 결과를 포함한다.
4) ISO/IEC 42117 (Trustworthiness Fact Labels): 신뢰성 사실 라벨의 원칙, 라벨 선언 유형(자체 선언, 3자 검증 등) 및 검증 방법 등을 정의하는 국제 표준. 2024년 4월 표준 개발을 시작하였고, 2028년까지 총4개의 표준을 묶은 시리즈 표준으로 제정 예정. (에디터: ETRI 전종홍 책임)
5) 소버린 AI (Sovereign AI): 국가가 자체적인 AI 기술, 데이터, 인프라를 확보하고, 외부에 종속되지 않으며 자국의 가치와 규범에 따라 AI를 발전시키고 통제할 수 있는 기술 주권을 의미한다.
6) 에이전틱 AI (Agentic AI) / 피지컬 AI (Physical AI): 에이전틱 AI는 주어진 목표를 달성하기 위해 스스로 계획을 세우고 도구를 사용하여 자율적으로 과업을 수행하는 AI를 말한다. 피지컬 AI는 로봇 등 물리적 실체를 가지고 현실 세계와 상호작용하며 작업을 수행하는 AI를 의미하며, 두 기술 모두 높은 수준의 안전성과 신뢰성 확보가 필수적이다.
7) 환각 (Hallucination): AI가 사실에 기반하지 않은 정보를 그럴듯하게 생성하거나, 주어진 맥락과 무관한 내용을 만들어내는 현상.
8) 탈옥 (Jailbreak): AI 모델에 설정된 안전장치나 제약 조건을 우회하여, 개발자가 의도하지 않았거나 금지한 응답(예: 유해 콘텐츠 생성)을 하도록 유도하는 기술.
9) 프롬프트 인젝션 (Prompt Injection): 공격자가 악의적인 프롬프트를 주입하여 AI가 원래의 지시를 무시하고 공격자의 의도대로 작동하도록 만드는 공격 기법.
10) ISO/IEC 42001 (AI Management System. AIMS): 세계 최초의 AI 경영 시스템 표준으로, 조직이 AI 시스템을 책임 있고 윤리적으로 설계·운영·감시할 수 있도록 구조화된 프레임워크와 요건을 정의. AI를 개발·제공하거나 사용하는 모든 조직에 적용 가능하며, 인증은 외부 감사 기관이 수행하며 3년 유효하고 매년 모니터링 이후 재인증을 수행.
참고1 |
첨단AI 디지털의료제품 레드팀 챌린지 및 기술워크숍 |
참고2 |
AI 레드팀 관련 개념도 및 연계 설명 |
참고3 |
TFL(신뢰성 사실 라벨) 관련 연계도 |
<인공지능 경영시스템 표준과 TFL 표준 연계도>
참고4 |
전문가 평가 및 심층분석 |
1. 국내외적 의미: 미·중 패권 구도 속 ‘규칙 제정자’로의 도약
이번 ETRI의 국제표준 개발 주도는 대한민국이 AI 분야에서 차지하는 위상이 근본적으로 변화하고 있음을 시사한다. 특히, 기술 혁신을 앞세운 미국과 국가 주도의 AI 굴기를 추진하는 중국 간의 패권 경쟁이 심화되고, 유럽연합(EU)이 강력한 규제 중심의 AI법(AI Act)을 통해 시장에 개입하는 현 상황에서 한국의 역할은 더욱 중요해졌다.
한 AI 정책 전문가는 “AI 기술 패권은 단순히 뛰어난 모델 개발만으로 완성되지 않는다. 기술이 통용되는 ‘운동장의 규칙’을 누가 만드느냐가 시장의 판도를 결정한다”며, “미·중 어느 한쪽에 기술적으로 종속되지 않고, EU의 규제 장벽에 갇히지 않기 위해서는 우리가 직접 규칙 제정에 참여해야 한다. 한국이 AI 안전과 신뢰성이라는 가장 핵심적인 분야의 표준을 주도한다는 것은, 향후 글로벌 AI 시장에서 우리 기업들이 유리한 고지를 선점하고, 우리의 기술 철학과 가치를 국제 규범에 반영할 수 있는 강력한 지렛대를 확보했다는 의미”라고 평가했다.
2. 산업적 부가가치: 수십조 원 규모의 ‘AI 신뢰 산업’ 신시장 선점
AI의 신뢰성과 안전에 대한 사회적 요구가 커지면서 관련 시장은 폭발적인 성장이 예상된다. 글로벌 시장조사기관 모르도르 인텔리전스(Mordor Intelligence)에 따르면, ‘보안용 AI(AI in Security)’ 시장은 2025년 300억 달러(약 41조 원)에서 2030년 717억 달러(약 98조 원) 규모로 연평균 19% 이상 성장할 전망이다. 또한 가트너가 핵심 트렌드로 선정한 ‘AI 신뢰, 리스크 및 보안 관리(AI TRiSM)’ 분야 역시 연평균 21% 이상의 높은 성장세가 예상되는 거대 시장이다.
이번 국제표준 선도는 급성장하는 ‘AI 신뢰 산업’의 주도권을 확보하고 막대한 경제적 이익을 창출하는 결정적인 기회다. 표준이 국제 규범으로 자리 잡게 되면 다음과 같은 구체적인 경제적 효과가 기대된다.
● AI 테스팅 및 검증 시장 선점: 한국이 주도한 표준이 글로벌 기준으로 채택되면, 전 세계 AI 기업들은 제품 출시를 위해 이 표준에 따른 테스트와 검증을 거쳐야 한다. 이는 수십조 원 규모로 성장할 AI 안전성 평가 및 검증 서비스 시장에서 국내 기업들이 선도적인 위치를 차지하게 함을 의미한다.
● 인증·컨설팅 산업 육성 및 수출: AI 신뢰성 라벨 획득을 위한 전문 컨설팅, 인증 심사, 사후 관리 서비스가 새로운 고부가가치 수출 산업으로 성장할 수 있다. 국내에서 축적된 노하우와 전문 인력을 바탕으로 글로벌 시장에 진출할 교두보를 마련하는 것이다.
● 국내 기업의 글로벌 경쟁력 제고: 국산 AI 솔루션이 개발 단계부터 국제표준을 내재화하면, 수출 시 신뢰성 입증에 필요한 시간과 비용을 획기적으로 절감할 수 있다. 이는 EU AI법과 같이 엄격한 규제를 적용하는 시장에 진출할 때 강력한 ‘인증 프리패스’로 작용하여 경쟁 우위를 확보하게 한다.
● 전후방 산업 생태계 확장: 레드팀 테스팅 자동화 도구, 신뢰성 측정 솔루션, AI 리스크 관리 플랫폼 등 표준을 지원하는 다양한 연관 소프트웨어와 기술 개발이 촉진되어 새로운 기술 생태계와 양질의 일자리를 창출한다.
결론적으로, 표준 선점은 국내 기업들에게는 거대한 신시장의 문을 여는 열쇠가 되고, 해외 기업들에게는 우리 표준을 따라야 하는 일종의 기술적 진입장벽을 구축하여 ‘표준 로열티’와 같은 부가적인 경제적 이익까지 기대할 수 있게 한다.
3. 국가 전략 기여: ‘소버린 AI’와 ‘AI 3강’ 실현의 핵심 열쇠
정부가 추진하는 국가 AI 전략의 성공은 독자적인 초거대 AI 모델 확보와 함께, 이를 안전하고 신뢰성 있게 운영하고 확산시킬 수 있는 ‘거버넌스 체계’ 구축에 달려있다.
● 소버린 AI(AI 주권) 확보: 진정한 의미의 AI 주권은 단순히 외산 AI 모델에 대한 의존도를 낮추는 것을 넘어, AI의 개발·활용·평가에 대한 규칙을 우리 스스로 만들고 통제할 수 있을 때 실현된다. 우리가 주도한 국제표준은 글로벌 시장에서 사실상의 ‘법’으로 기능하기에, 이는 AI 주권을 기술적 차원을 넘어 규범적 차원으로 확장하는 결정적 계기가 된다.
● AI 3강(G3) 전략 기여: ‘천하삼분지계’를 위한 핵심 지렛대: 정부가 추진하는 AI 3강 전략은 단순히 미국과 중국의 기술 패권 구도에 편승하는 ‘1등 위성국’이 되는 것이 아니라, 독자적인 영역을 구축하여 세계를 셋으로 나누는 ‘천하삼분지계(天下三分之計)’를 실현하는 것이다. 이를 위한 핵심 전략이 바로 ‘안전과 신뢰성’ 분야의 국제 표준 주도다. 압도적인 자본과 데이터로 무장한 미·중과 동일한 방식으로 경쟁하기보다, AI 시대의 새로운 질서가 될 ‘신뢰’라는 규범을 선점함으로써 독자적인 세력을 형성하는 것이다. 우리가 만든 표준이 글로벌 기준이 될 때, 전 세계 AI 기업들은 우리와 협력하지 않고는 시장에 진입할 수 없게 된다. 이는 대한민국이 단순한 기술 강국을 넘어, 글로벌 AI 거버넌스의 한 축을 담당하는 진정한 3강의 지위를 확보하게 함을 의미한다. ‘신뢰할 수 있는 AI 강국’이라는 브랜드는 기술 종속을 피하고, 전 세계 국가들에게 매력적인 제3의 파트너로서 우리의 입지를 공고히 하는 가장 강력한 무기가 될 것이다.
4. 글로벌 AI 레드팀 정책 동향과 국제 표준의 역할
AI 안전성 확보를 위한 레드팀 테스팅의 중요성은 전 세계적으로 공감대를 형성하며 각국의 주요 정책으로 구체화되고 있다.
● 미국은 2023년 바이든 행정부의 AI 행정명령을 통해 연방정부 산하 AI 모델의 레드팀 테스트 결과 제출을 의무화했으며, 최근 발표된 ‘미국의 AI 실행 계획(America’s AI Action Plan)’에서는 AI 해커톤 개최, 지속적인 적대적 테스팅(Adversarial Testing) 정례화 등 더욱 구체적인 실행 방안을 제시했다.
● 유럽연합(EU)은 2024년 통과된 세계 최초의 포괄적 AI 규제법인 ‘AI법(AI Act)’에서 고위험 AI 모델에 대해 생애주기 전반에 걸친 레드팀 테스트를 법적 의무로 명시했다.
● 영국은 AI 안전 연구소(AI Safety Institute)를 설립하고 “기업이 스스로 숙제를 채점할 수 없다”는 원칙하에 독립적인 레드팀 평가를 강조하며 미국과의 공동 안전 테스트를 선도하고 있다.
● 중국 역시 생성형 AI 관리 임시조치를 통해 사실상의 레드팀 테스트에 준하는 강력한 안전 평가를 요구하고 있으며, 인도, 호주 등 다른 국가들도 AI 안전 연구소를 설립하거나 관련 표준을 마련하는 등 글로벌 흐름에 동참하고 있다.
● UN, UNESCO 등 국제기구 또한 사회적 편향성이나 유해성을 탐지하기 위한 레드팀 플레이북을 발간하는 등 AI 리스크 관리에 레드팀 방식을 적극 권고하고 있다.
이처럼 각국과 기관들이 경쟁적으로 자체 가이드라인을 만드는 것은 레드팀의 필요성을 방증하지만, 동시에 ‘기술적 파편화(Technological Fragmentation)’라는 새로운 문제를 야기한다. 기업들이 국가마다 다른 기준에 대응해야 하는 부담이 커지고, 이는 결국 상호운용성을 저해하는 무역 기술 장벽(TBT)으로 작용할 수 있다.
따라서 한국이 주도하는 ISO/IEC 국제표준 개발은 이러한 혼란을 막고, 전 세계가 신뢰하고 통용할 수 있는 일관된 단일 기준을 제시한다는 점에서 결정적인 역할을 한다. 이는 특정 국가의 이해관계를 넘어 전문가들의 합의에 기반한 공정한 경쟁의 장을 만들고, AI 기술의 건전한 글로벌 확산을 촉진하는 핵심적인 해법이 될 것이다.
5. AI 사건사고와 레드팀 분석: 국제 표준의 시급성
최근 발생한 AI 관련 사건사고와 레드팀 분석 결과는 체계적인 안전성 평가 표준 마련이 얼마나 시급한 과제인지를 명확히 보여준다. 실제로 대규모 AI 에이전트를 대상으로 한 레드팀 경연에서는 단 10~100번의 질문만으로도 대부분의 최신 AI 모델이 취약점을 드러냈으며, 제출된 180만 개 이상의 공격 중 6만 건 이상이 데이터 무단 접근, 불법 금융 행위 등 심각한 정책 위반을 유발했다.
Anthropic사의 AI 모델 ‘클로드’가 가상 시나리오에서 임원에게 블랙메일을 시도하거나, Apollo Research 연구에서 AI가 평가받는 상황을 인지하고 자신의 능력을 숨기는(sandbagging) 기만적 행동을 보인 사례는 AI의 잠재적 위험이 단순한 오류를 넘어 예측 불가능한 수준에 이르렀음을 경고한다.
특히 프롬프트 인젝션, 탈옥과 같은 공격 기법은 GPT-4와 같은 최첨단 모델에서도 80%가 넘는 높은 공격 성공률을 기록했으며, 한 모델에서 성공한 공격이 다른 모델에도 쉽게 전이되는 교차 일반화(cross-model generalizability) 현상까지 관찰되었다. 심지어 웹페이지나 문서에 숨겨진 명령으로 AI를 조종하는 ‘간접 프롬프트 인젝션’ 공격으로 인해 xAI의 ‘Grok’ 모델이 출시 직후 유해 콘텐츠를 생성하는 등 실제 피해 사례도 속출하고 있다.
이러한 위협에 대응해 GOAT, AutoRedTeamer 등 공격을 자동화하는 AI 도구까지 등장하며 창과 방패의 경쟁은 더욱 치열해지고 있다. 이는 개별 기업 차원의 대응만으로는 한계가 명확하며, 신뢰할 수 있는 공통의 시험 절차와 평가 기준, 즉 국제 표준이 반드시 필요함을 역설한다.