
최근 보안 연구진이 거대 언어 모델(LLM) 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견했다. 이 조사 결과는 AI 학습 과정에서 보안이 제대로 관리되지 않을 경우, 심각한 보안 취약점으로 이어질 수 있음을 다시 한번 경고하고 있다.
이번 연구는 보안 기업 트러플 시큐리티(Truffle Security)가 2024년 12월 공개된 Common Crawl의 웹 데이터 아카이브를 분석하면서 이루어졌다. Common Crawl은 지난 18년간 축적된 400TB 규모의 웹 데이터를 제공하는 공공 웹 크롤링 저장소다. 연구진은 이 데이터에서 219가지 유형의 민감한 정보가 포함된 것을 확인했으며, 여기에는 아마존웹서비스(AWS) 루트 키, 슬랙(Slack) 웹훅, 메일침프(Mailchimp) API 키 등이 포함됐다.
특히 연구진이 확인한 11,908개의 API 키 및 비밀번호 중 상당수는 여러 웹사이트에 중복적으로 노출되어 있었으며, 특정 WalkScore API 키는 1,871개 서브도메인에서 57,029회 반복되어 발견됐다. 이는 보안 관행이 미흡할 경우, 단일 키가 다수의 웹사이트에서 무분별하게 재사용될 수 있음을 보여준다.
■LLM 학습 데이터의 보안 문제 심각
이러한 노출된 API 키와 비밀번호가 AI 학습 데이터에 포함될 경우, 보안상 심각한 위험을 초래할 수 있다. 첫 번째 문제는 안전하지 않은 코딩 방식이 AI를 통해 강화될 가능성이다. LLM이 하드코딩된 인증 정보를 포함한 데이터를 학습하면, 이후 개발자들에게 보안이 취약한 코드 패턴을 제안할 위험이 커진다.
또한, AI가 민감한 정보를 그대로 재현할 가능성도 우려된다. 만약 AI 모델이 특정 API 키나 비밀번호를 학습한 경우, 사용자가 특정 프롬프트를 입력했을 때 해당 정보를 그대로 반환할 가능성이 있다. 이는 악의적인 공격자가 AI를 활용해 기밀 정보를 추출하는 새로운 보안 위협을 초래할 수 있다.
보안 전문가들은 이러한 문제를 방지하기 위해 철저한 보안 관리가 필요하다고 강조했다. 우선, 비밀번호와 API 키를 소스코드에 직접 포함하는 대신, 전용 보안 관리 시스템을 활용해야 한다고 조언했다. 기업들은 시크릿 관리 솔루션을 도입해 민감한 데이터를 안전하게 저장하고, 접근 권한을 체계적으로 관리할 필요가 있다.
또한, 코드 리뷰 및 자동화된 보안 점검을 강화해야 한다고 말했다. 배포 전에 정기적으로 소스 코드 검사를 수행하고, 자동화된 스캐닝 도구를 활용해 하드코딩된 인증 정보를 사전에 제거하는 것이 중요하다.
마지막으로, AI 학습 데이터를 사전에 철저히 검토하고, 민감한 정보가 포함되지 않도록 필터링하는 절차를 강화해야 한다는 점도 강조됐다. 이를 통해 AI 모델이 불필요한 보안 리스크를 학습하는 것을 방지할 수 있다.
이번 연구 결과는 AI 기술이 발전함에 따라 데이터 보안이 더욱 중요해지고 있음을 보여준다. LLM을 학습시키는 과정에서 보안 조치가 철저히 이루어지지 않으면, AI가 보안 취약점을 학습하고 확산시키는 새로운 위협 요소로 작용할 수 있다. 따라서 AI 개발자와 기업들은 보안 강화를 위한 체계적인 접근 방식을 도입해야 한다.
★정보보안 대표 미디어 데일리시큐 /Dailysecu, Korea's leading security media!★