2024-04-24 15:20 (수)
[박나룡 보안칼럼] IT 장애는 극복 가능한가?
상태바
[박나룡 보안칼럼] IT 장애는 극복 가능한가?
  • 길민권 기자
  • 승인 2024.01.26 14:16
이 기사를 공유합니다

장애의 다양한 원인 식별하고 적절한 대응 기준 수립해야

2023년 말에 발생한 행정 전산망을 시작으로, 크고 작은 장애가 지속적으로 발생하면서 많은 이용자들이 불안감과 불편함을 겪는 일이 있었다.

짧은 기간 동안 공무원 행정 전산망 '새올'과 온라인 민원서비스 '정부 24', 주민등록시스템과 모바일 신분증, 지방재정관리와 조달청 '나라장터' 시스템까지 정부 전산망에서 줄줄이 장애가 발생했다.

정부의 공식적인 조사 결과에서 시스템 장애의 원인은 해킹이 아니었고, 대부분 장비 장애나 관리 미흡 때문이라는 발표가 있었다.

일반적으로 장애는, 여러 가지 요인으로 인해 서비스를 구성하는 정보시스템의 일부 또는 전부가 정상적으로 가동되지 못해 조직의 업무수행에 지장을 초래하는 모든 상황으로 정의할 수 있다.

장애의 다양한 원인을 식별하고 적절한 대응 기준을 수립해야 한다.

장애는 원인에 따라 장비 자체의 하드웨어 문제나 어플리케이션 에러, 관리자나 개발자의 휴먼 에러에서도 발생할 수 있다.

또한, 해킹 등의 공격으로 인해 정보시스템과 정보자산이 침해되어 가용성에 부정적 영향을 미치거나, 지진, 낙뢰, 수해 등의 천재지변이나 화재, 정전 등으로 인해 정보시스템 기능의 일부 또는 전부를 사용할 수 없게 되는 상황이 발생할 수도 있다.

서버 등 인프라 장비 등에 대한 실시간 장애 인지 모니터링이나 어플리케이션 개발부터 배포까지 검증 프로세스, 관리자와 개발자의 휴먼에러를 최소화 할 수 있는 계층적 검증 절차 등을 조직의 특성에 따라 고민하고 적용하는 것이 필요하다.

천재지변이나 화재 등의 대규모 장애 시나리오에 대응하기 위해서는 BCP 관점에서 접근할 수 있어야 한다.

장애관리에 적절하게 대응할 수 있는 인력을 확보해야 한다.

조직의 규모가 클수록 다양한 시스템과 어플리케이션이 운영되면서 대규모의 인프라를 보유하게 되고, 정보시스템에 대한 의존도가 높은 편이면서, 컴플라이언스 대응 등으로 인해 구성이 복잡해지는 특징을 가지고 있다.

업무 담당자 또한 세부적으로 구분되어 있다 보니 전체 인프라 구성이나 본인이 담당하지 않는 개별 시스템의 구조적 특징을 이해하고, 대응할 수 있는 인력을 충분하게 확보하기 어려운 환경이 될 수밖에 없다.

특히, 직무 순환 등의 사유로 업무 담당자가 바뀌거나 전문성이 부족한 담당자가 갑자기 배정되는 경우, 긴급한 장애 상황에서 적절하게 통제하기란 쉽지 않다.

정보시스템의 규모가 크고 복잡도가 높을수록, 전반적인 아키텍처를 이해하고 대응할 수 있는 담당자가 필요하다는 관점에서 인력관리가 이루어져야 한다.

장애관리에서 가장 기본은 중요도를 판단하는 것이다.

중요도는 장애관리에 핵심적인 판단기준으로, 장애가 발생했을 때 해당 아이템(장애 포인트)이 어떤 서비스 이용자에게 어느 정도의 영향을 미칠 수 있는지를 구체적으로 식별할 수 있어야 한다.

장애가 발생해도 비교적 중요도가 덜한 내부 업무용 서비스에 대해 회선 이중화를 통한 물리적 이중화를 구축하고, 복구가 필요 없는 DATA에 대해 삼중 백업을 수행하는 것이 조직의 리소스 대비 적절한 대응인지 판단할 필요가 있다.

반대로 365일 대국민 서비스를 제공해야 하고, 장애가 발생하면 이용자들에게 큰 영향을 미칠 수 있는 중요도가 높은 서비스에 대해 장애 요인이 될 수 있는 아이템(백본S/W, DNS, 게이트웨이 장비 등)을 소홀하게 판단하고 있는 것은 아닌지 살펴봐야 한다.

중요도가 높은 아이템으로 식별된 곳에 대해서는 필요한 만큼 구체적인 대응 방법이 마련되어야 하고, 그에 따른 리소스를 투입해야 한다.

모든 조직은 정보시스템에서 장애가 발생하지 않기를 바란다.

하지만, 장애가 발생하지 않도록 필요한 리소스를 투입하면서 실질적 노력을 기울이기에는 여러 어려움이 존재한다.

서비스 우선주의라는 정서적 관점이나 인력과 예산의 부족이라는 실체적 결핍이 항상 따라다닌다.

그럼에도 불구하고, 중요도에 따라 우선순위를 정하고 차근차근 정립해 나가야 네트워크로 연결된 세상에서 지속가능성을 확보할 수 있다.

또한, 예방적 관점으로 접근하는 것이 최우선 고려사항이지만, 장애 발생 시 빠른 복구(Resilience)를 위한 개념도 함께 고려되어야 한다.

박나룡 소장
박나룡 소장

IT 장애는 극복 가능한 분야다.

다만, 의지를 반영할 만큼의 투자와 노력이 뒷받침되어야 가능한 얘기다. [글. 박나룡 보안전략연구소 소장]

★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★

■ 보안 사건사고 제보 하기

▷ 이메일 : mkgil@dailysecu.com

▷ 제보 내용 : 보안 관련 어떤 내용이든 제보를 기다립니다!

▷ 광고문의 : jywoo@dailysecu.com

★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★