2022-10-07 14:16 (금)
사이버보안 분야 특화 인공지능 학습 데이터셋 8억건 구축
상태바
사이버보안 분야 특화 인공지능 학습 데이터셋 8억건 구축
  • 길민권 기자
  • 승인 2022.07.21 15:50
이 기사를 공유합니다

정부, 인공지능 활용 사이버보안 대응체계 고도화 지원 나선다

과학기술정보통신부(장관 이종호, 이하 ‘과기정통부’)와 한국인터넷진흥원(원장 이원태, 이하 ‘KISA’)은 국내기업들이 지능화·고도화되는 사이버 공격에 인공지능을 활용하여 효율적 대응할 수 있도록 ‘사이버보안 인공지능 데이터셋 구축 성과 공유회’를 7월 21일에 개최했다.

기업 인공지능 도입률은 전 세계평균 34%. 한국 22%(하위권), △인공지능도입 검토율 전 세계평균 42%. 한국 46%, △인공지능채택 분야 정보통신 공정(IT process) 자동화(1위, 33%), 보안 및 위협탐지(2위, 29%) 등이다. 

인공지능 데이터셋이란, 인공지능기술을 활용한 보안제품·서비스 개발을 위해 필요한 정상·공격 데이터를 수집·분석·가공(비식별화, 라벨링 등)하여 모아둔 인공지능 학습용 데이터를 말한다. 

그간, 국내 보안기업들은 인공지능기술 도입 및 학습을 위한 양질의 학습용 데이터셋이 없어 어려움을 겪어 왔으며, 과기정통부와 KISA는 이와 같은 문제점을 해결하기 위해 ‘21년부터 사이버보안 분야 학습용 인공지능 데이터셋 구축사업을 추진해왔다.

이번 사업은 사이버보안 데이터 선순환 환경 조성을 통해 ‘인공지능 기반의 안전한 디지털 강국’ 도약 실현을 목표로 ①악성코드와, ②침해사고 2개 분야로 나뉘어 추진되었으며, 그간 구축된 데이터셋은 2개월간의 실증기간을 거쳐 이번에 성과를 공유하게 되었다.

이번에 ①악성코드 분야(약 4억건) 데이터셋은 △백신 진단명(Anti-virus), △속성정보(제작도구, 유포‧경유지 등), △사회적 관심사항(코로나, 랜섬웨어(금품요구악성프로그램), 비트코인 채굴 등) 핵심어(키워드)를 기반으로, ②침해사고 분야(약 4억건) 데이터셋에서는 △침해 행위(시스템, 네트워크, 장비 등), △침해사고 단계별(정보수집, 실행, 정보유출 등) △최신 침해사고 각본(시나리오) 등을 기반으로 구축 하였다.

또한, 구축한 인공지능 데이터셋은 공공, 통신, 게임, 보안기업 등 국민 생활과 밀접한 기업·기관을 대상으로 침해대응 실효성 검증을 통해 악성코드 분석율·탐지 정확도 제고 등의 개선효과도 확인 하였다.

사례를 보면 다음과 같다. 

넥슨코리아는 인공지능기반 악성코드 탐지모델 도입으로 내부 생성 데이터 악성 여부 분석율 향상(50%→100%) 및 핵툴(Hacktool) 분석‧탐지 자동화로 전문인력 투입 비용이 감소(10인→1인)했다. 

KT는 이메일 서비스 첨부파일 내 악성코드 탐지 정확도를 향상(95%→98%)시켰다. 

또 한국지역정보개발원은 침해사고 탐지 성능을 향상(100건→120건/월 탐지‧조치, 20% 탐지율 증가)시켰다. 

이번 성과공유회는 사이버보안 분야 인공지능 데이터 활용 및 관련 기술 연구 등에 관심이 있는 보안·인공지능관련 기관‧기업들에게 데이터셋 활용방안 모색 기회를 공유하고자 마련된 자리로서, △데이터셋 활용 중심 ‘인공지능기반 사이버 보안전망 발표’(고려대 김휘강 교수), △‘사이버보안 인공지능데이터셋 구축 전략과 사업 소개’(KISA 이정민 팀장), △인공지능데이터셋 우수활용 사례 발표(실증기업·기관), △인공지능데이터셋 활용 소개(실증 참여기업) 등이 진행되었다.

과기정통부 김정삼 정보보호네트워크정책관은 ”지능화‧고도화되는 사이버 위협에 대응하기 위해 사이버 보안 분야에도 인공지능기술 활용 증가가 예상되는 상황으로 이번에 구축된 데이터셋이 민간 부분의 사이버 대응능력을 한 단계 도약 시킬 수 있는 마중물이 될 것이다”라며 “앞으로도 정부는 양질의 사이버보안 분야 인공지능 데이터셋을 확대 구축할 계획이며, 타 산업분야 적용확대 및 미래 보안기술 개발 촉진으로 이어질 수 있도록 더욱 노력하겠다”라고 밝혔다.

★정보보안 대표 미디어 데일리시큐!★