2021-04-19 05:25 (월)
[데이터융합포럼 특별기고-6] 데이터의 안전한 활용을 돕는 비식별 기술
상태바
[데이터융합포럼 특별기고-6] 데이터의 안전한 활용을 돕는 비식별 기술
  • 길민권 기자
  • 승인 2021.02.09 14:27
이 기사를 공유합니다

비식별 기술별 전문가 검증 통해 기술특성에 맞는 보안 및 활용기준 수립 필요해

안전한 데이터 활용 촉진을 위해 실무적 이슈를 논의하는 ‘데이터융합포럼’은 정기적으로 회원들의 ‘데이터 보호와 활용’ 관련 기고문들을 데일리시큐 독자들과 공유해 나갈 계획이다. 이번 기고는 코리아크레딧뷰로(KCB) 이욱재 미래사업부문장의 비식별 기술 관련 글이다.
<편집자 주>

☞본 기고문의 내용은 저자의 개인적인 견해이며, 소속 기관의 공식적인 견해가 아님을 미리 밝혀둔다.


1. 큰 진전 없는 데이터 활용환경

년 8월 개정 데이터3법이 본격 시행됨에 따라 데이터산업에 많은 변화가 있을 것으로 기대했지만, 데이터의 활용과 관련한 가시적 변화는 아쉽게도 많지 않은 것 같다. 법 개정 과정에서 겪었던 어려움이나 법 개정 후 데이터산업 발전과 관련하여 기대하고 예상했던 내용들을 반추해보면 아쉬움은 더 크게만 느껴진다.

물론 코로나19 사태로 시대적 상황이 매우 어려웠던 점과 데이터산업의 특성 상 단기간에 큰 변화와 발전이 일어나기 쉽지 않은 점이 있고, 최근 크게 논란이 되고 있는 인공지능 대화 서비스 사례 등을 통해 알 수 있듯이 개인정보와 관련된 사항은 그 경중을 떠나 사회적으로 논란이 될 수밖에 없기에 기업의 입장에서 민감한 개인정보를 선뜻 적극적으로 활용하겠다고 나서는 것이 쉽지 않다는 점도 충분히 이해가 된다.

그럼에도 불구하고 당초 기대했던 데이터의 안전한 활용, 다양한 측면에서의 가치 창출, 나아가 데이터경제 활성화 등에 대해 별다른 진전 없이 시간을 보내기에는 현재 일어나고 있는 디지털로의 산업 변화와 발전 속도가 너무 빠르다.

이러한 환경 속에서 개인정보의 보호와 활용을 위한 방안을 모색하고 지혜를 모으는 것이 우리에게 주어진 책무일 것이다.


2. 개인정보보호와 데이터 활용은 상호 배타적 관계

데이터 산업에서의 비즈니스 유형은 다양하고, 이때 활용되는 데이터의 특성 및 Privacy이슈는 상황에 따라 매우 다르기 때문에 명확한 하나의 잣대로만 규제하고 통제하기는 쉽지 않다.

개인정보의 보호와 데이터의 활용이라는 상호 배타적인 가치를 한꺼번에 달성하는 것이 어렵기 때문에 그동안 사회적 논쟁이 계속 있어 왔으며, 이를 해결하기 위해 여러 부문에서 많은 연구와 기술개발이 이루어져 왔다. 더구나 지금과 같은 디지털 환경에서는 데이터의 다양성과 복잡성이 더욱 증폭되고 있어 보다 더 정교하고 심층적인 해결방안 마련이 필요한 상황이다.

이에 따라 데이터의 특성과 위험도에 따른 분류체계를 마련하고, 각 분류체계에 따라 적정수준의 보안성 확보와 적절한 활용방안이 마련될 필요가 있겠다. 이때 보안성과 활용성을 동시에 높이는 방안으로 비식별 기술이 제시되고 있는데, 예를 들면 최근 시장에서 주목받고 있는 동형암호기술과 합성데이터(Synthetic Data) 생성 기술이 그것이다.


3. 암호화된 상태로 모든 것을 처리하는 동형암호 기술

동형암호(homomorphic encryption)란 정보를 암호화한 상태에서 각종 연산을 했을 때 그 결과가 암호화 하지 않은 상태의 연산 결과와 동일하게 나오는 4세대 암호체계 기술로, 암호화된 상태로 연산이나 데이터 분석이 가능하다는 장점이 있다.

우리는 통상 데이터를 주고받을 때는 암호화를 하지만, 막상 분석을 위해서는 그 데이터를 다시 복호화 하여야 한다. 따라서 분석담당자는 해당 데이터를 확인할 수 있고, 분석 과정에서 데이터가 유출될 위험도 있다. 반면 동형암호 방법은 암호화 상태에서 데이터를 분석할 수 있으므로 데이터를 복호화 할 필요가 없고, 암호화된 데이터는 현재의 컴퓨터 기술로는 복호화할 수 없으므로 분석과정에서 데이터가 유출될 가능성이 거의 없다고 할 수 있다. 분석결과 또한 암호화된 상태로 만들어지므로 복호화키를 보유한 키관리기관 또는 부서를 통해서만 투명하게 분석결과를 확인할 수 있다.

동형암호의 이론적 기술은 이미 1970년대부터 논의 및 연구가 시작되었으나, 암호화된 상태에서의 계산의 어려움과 암호화과정에서 증가할 수밖에 없는 데이터 크기로 인해 산업에서의 활용은 쉽지 않다고 여겨졌었다.

최근 동형암호 기술은 컴퓨팅 파워의 폭발적인 증가, 데이터의 고속 처리 기술과 같은 물리적 발전 뿐만 아니라, 서울대 천정희 교수가 소프트웨어 기술을 획기적으로 개선하는 알고리즘(HEaaN)을 개발함으로써 상업적 활용이 가능한 수준에 이르게 된 것으로 평가받고 있다. 2020년 열린 iDASH의 국제 유전체 정보분석 보안경진대회에서 천정희 교수팀이 HEaaN을 활용해 우승을 하였으며, 알리바바를 포함해 우승과 준우승팀 6개 중 4개팀이 HEaaN을 활용하는 등 국제적으로 인정받고 있다.

200만건 이상의 실제 데이터를 기초로 동형암호 기반 통계분석 및 모델링 연구를 한 최근 사례에 따르면, 연산속도나 분석 결과의 정확성이 산업적으로 활용 가능한 수준이며, 기초통계분석, 상관분석, 회귀분석, ML 등의 분석이 가능한 솔루션도 국내 연구진에 의해 개발되었다고 한다.

이런 기술적 성취에 주목한 마이크로소프트, IBM 같은 글로벌 테크기업들은 빠르게 기술확보에 자원을 투입하고 있으며, 국내에서도 삼성전자, 삼성SDS, 네이버, 코리아크레딧뷰로(KCB) 등에서 각자가 속한 산업영역에서 해당 기술을 활용하는 노력을 하고 있다.

또한 동형암호에 대한 표준화 움직임도 활발한데 ‘19년 12월 동형암호 세부기술에 대한 한국정보통신기술협회 표준(TTAK KO-12.0347)이 제정되었고, ’20년 4월 국제표준화기구 ISO, ITU-T에서 HEaaN기술에 대한 표준화관련 작업이 시작되어 2~3년내 국제표준으로 제정될 전망이다.


4. 합성데이터 생성 기술

합성데이터(Synthetic data)는 어떤 산업영역에서는 영어단어 그대로 “합성데이터”로 지칭하기도, 또 현재 상황을 잘 재현을 하였다고 하여 “재현데이터”라고 부르기도 한다. 하지만 재현데이터라는 용어가 주는 그 무게감으로 인해 원본 그 자체의 데이터로 복원된 데이터로 오해하기도 하여 최근에는 이를 구별하기 위해 “가상의 데이터”(Fake data) 또는 “시뮬레이션 데이터”로 부르기도 한다.

합성데이터는 어떤 산업영역에서 연구 및 활용되는가에 따라 기술의 발전 속도가 다른데, 가장 적극적으로 이용 및 검토되고 있는 분야가 바로 이미지나 음성과 같은 비정형데이터 분야이다.

정형데이터란 데이터의 구조가 정해져 있고 우리에게 이미 익숙한 표와 같은 형태로 구조화 되어 있는 자료를 지칭하고, 이는 컴퓨터가 처리하기에 매우 용이하다. 반면 비정형데이터는 이미지, 음성과 같이 컴퓨터가 단순히 0과 1이라는 코드만으로 이해하기 어려운 형태의 자료를 일컫는다.

이런 비정형데이터를 컴퓨터가 이해할 수 있도록 모델링 하는 과정(특히 심층 신경망모형)에서 컴퓨터가 비정형 데이터를 마치 사람처럼 인식할 수 있도록 특징 등을 빠르게 잡아내는 머신러닝 기술로 구현하게 되었고, 여기에서 아이디어를 착안하여, 약간의 조작만으로 아무것도 없는 상태에서도 컴퓨터나 사람이 해당 물체로 인식할 수 있는 특징을 가진 임의의 데이터를 생성할 수 있는 모델링 기술까지 발전하게 되었다. 이를 흔히 생성모델(Generating Model)이라고 부르기도 한다.

이런 생성모델에 대해 다시 한 번 가상으로 만들어진 데이터를 사람이 판단할 수 있는 수준 (예를 들어 진짜로 인식될 수 있는 수준인지, 엉성한 가짜인지)의 기준을 가진 판별 모형(Discriminating model)을 만들어서, 이 기준을 통과하게 되면 바로 진짜와 같은, 실존할 것 같은 가상의 데이터가 만들어지게 된다.

최근 정형데이터를 대상으로 한 연구결과에서는 합성데이터가 분포비교, 집계분석, Data 성질 확인, 통계모형 등에 활용될 수 있는 것으로 판단되었고, 특히 원본과 비교했을 때 분포 및 기초통계량, 변수 간 상관관계, 모형개발 시 성능 등이 유사한 것으로 분석되었다. 이는 합성데이터가 개인정보, Privacy위험을 최소화 한 상태에서 빅데이터 분석에 활용될 수 있음을 보여준다.


5. 폭넓은 응용 가능성

동형암호기술은 공공정보, 의료정보 등과 같은 민감한 개인정보를 융합 분석하여 새로운 데이터 가치를 발굴하고자 할 때 특히 유용할 것으로 기대된다. 기업간 데이터 결합을 통한 분석을 위해 상대기관에 자사의 결합용 가명정보를 제공하는 경우, 비즈니스 이해관계에 따라 상대기관이 어떠한 분석결과를 어떤 목적으로 언제 이용했는지를 안전하게 통제할 수 있는 환경을 제공할 수도 있다.

또한 데이터3법의 개정과 함께 데이터를 기반으로 새로운 비즈니스 창출의 기회를 삼고자 하지만, 가명정보 재식별시 형사처벌, 전체 매출액의 3% 과징금 등 기업들이 부담해야할 리스크에 망설이고 있는 기업들에게 좋은 대안이 될 것이다.

동형암호와 마찬가지로 컴퓨팅 파워의 폭발적 발전과 선구적인 연구자들의 알고리즘 공개(오픈소스) 등으로 많은 기업들이 합성데이터를 활용한 새로운 사업을 기획하고 있다. 디지털트윈과 같은 스마트시티, 초상권 문제를 해결하기 위한 영상정보 생성, 아바타 모델 생성 등의 아이템이 이런 합성데이터 생성기술을 기초하여 만들어진다.

국내의 경우, 이 기술을 조금 더 응용하여 정형데이터에 대해서도 적용하는 방안을 연구하고 있는데, 정부, 학계, 연구소, 민간기업 등에서 정형데이터의 통계적 특성과 유사한 가상의 데이터를 생성하는 기술연구를 진행하고 있다.


6. 개인정보 비식별 기술 이용 전제조건

현재 동형암호화된 개인정보를 활용하여 분석을 할 경우 프라이버시 관점에서 명확한 활용기준이 없다. 암복호화 키가 신뢰성 있는 제3자로부터 안전하게 관리된다는 전제하에서는 보다 완전한 형태의 개인정보 보안이 확보될 수 있지만, 암호화된 데이터에 대하여 분석을 수행하는 여러 어려움을 극복하고 그 활용성을 높일 수 있는 기준은 마련되어 있지 않은 것이다. 예컨대 안전한 동형암호 데이터 결합 분석의 경우, 복잡한 결합절차를 획기적으로 간소화 하는 것도 가능할 것으로 보여 활용성을 높이는 대안으로 고려될 수 있을 것이다.

정형 개인정보를 기반으로 생성된 합성데이터 역시 활용기준이 명확하지 않은데, 원본 자료 특성과의 유사도에 따라 데이터의 취급 기준이 다르게 설정될 필요가 있다. 예를 들어 빅데이터 분석 경진대회를 위하여 합성데이터를 활용할 경우, 또는 학교, 연구소, 지자체 등에서 데이터의 분포와 트렌드 분석 등을 통하여 정책설정, 동향연구 등에 합성데이터를 활용할 경우, 원본 데이터와의 유사도를 측정하고 데이터 분석환경에 따라 불특정 다수에게 합성데이터가 제공될 수 있는 등 다양한 기준 마련이 필요하다.

이러한 점에서 볼 때, 개인정보 비식별 기술이 가진 장점이 충분히 있음에도 불구하고 그 활용에 있어 여전히 일반 개인정보 또는 가명정보와 유사한 수준으로 관리되고 활용되는 것은, 기술의 발전을 저해하고 결국 개인정보의 안전한 활용에도 도움이 되지 못한다.

현재 개인정보보호위원회, 금융위원회 등 정부에서 산업별로 발표하고 있는 가명정보 활용 가이드라인에서는 기술 중립적인 측면에서 각 비식별 기술별 보안 및 활용기준을 언급하고 있지 않다. 하지만, 빠른시간 내에 각 비식별 기술별로 전문가 검증 등을 통하여 기술특성에 맞는 보안 및 활용기준을 수립해 나가는 것이 필요할 것이다. 이때 개인정보를 위험도 등에 따라 등급화하고 그 분류체계에 맞는 비식별 기술을 적용하는 방식이 효율적일 것으로 판단된다.

코리아크레딧뷰로 이욱재 미래사업부문장
코리아크레딧뷰로 이욱재 미래사업부문장

이를 통해 비식별 기술의 산업적 발전과 더불어 보다 안전하면서도 데이터의 활용성을 높이는 기반을 만들어 나갈 수 있을 것이다.

올해가 데이터 3법 통과에 따른 데이터의 실질적인 활용이 활성화되는 원년이 되길 기원한다.

[글. 코리아크레딧뷰로(KCB) 이욱재 미래사업부문장]

# ’데이터융합포럼’은 2016년 6월 개인정보 비식별조치 가이드라인 발간에 맞춰 금융회사, 핀테크회사, 금융분야 유관기관 등의 실무자와 해당분야 전문가 중심 ‘비식별 연구반’이라는 이름으로 시작. 가이드라인 해석 및 실무적 해결방안에 대해 주제를 선정해 발제자가 발제하고 토론하는 학습 모임으로 발전. 인공지능(AI)기술로 대표되는 4차산업혁명시대를 맞아 핵심 자원인 안전한 데이터 활용을 촉진하기 위해 실무적 이슈에 대해 논의하는 포럼이다.

★정보보안 대표 미디어 데일리시큐!★


관련기사