챌린저호는 왜 폭발했나?   

2010. 5. 24. 09:00
반응형

우주왕복선 챌린저호 폭발 사고를 기억하십니까? 1986년 1월 28일, 챌린저호는 발사된지 73초만에 공중에서 폭발하고 맙니다. 교사 신분으로 우주인으로 선정된 민간인 여성을 포함한 7명의 승무원들은 안타깝게 사망하고 말았습니다.

직접적인 원인은 로켓 부스터 내에서 누출을 막아주는 고무 오링(O-ring)이 추운 날씨로 인해 갈라져서 제대로 기능하지 못했기 때문으로 밝혀졌습니다. 유명한 물리학자인 리처드 파인만이 진상규명위원회의 위원으로 참여해서 얼음물 속에 클림프로 꽉 조여진 고무 오링의 샘플을 넣으면 어떻게 되는지 생생하게 보여주기도 했지요.

(챌린저호 폭발 모습)


사고가 터지면 왜 그것이 발생했는지를 따지는 일련의 진상규명 작업이 뒤따르기 마련이지만, 챌린저호 사건은 미국의 우주개발 노력에 치명타를 가한 중대한 사건이었기에 각계의 전문가가 NASA의 잘못을 집중적으로 캤습니다.

그들 대부분은 NASA가 방만하게 조직을 운영한다느니, 느슨하게 직원들을 관리한다느니, 추운 날씨라서 오링이 갈라질 것을 알면서도 묵인했다느니, 모두다 비난 일색의 보고서를 썼습니다.

그런데 사회학자인 다이앤 본(Diane Vaughan)은 색다른 주장을 폈습니다. 그녀는 챌린저호 폭발을 일으킨 원인을 명확하게 꼬집어 말할 수 없다고 말했습니다. NASA라는 거대한 조직의 시스템 내에 사고의 원인이 잠재되어 있다는 의미였죠. 그녀는 더 나아가 NASA가 규칙을 준수하면서 일했기 때문에 사고가 발생했다는, 알듯 모를듯한 주장을 했습니다.

그녀의 주장을 풀어서 말하면 이렇습니다. 우주 왕복선은 수많은 모듈과 부품으로 이루어져 있습니다. 그런데 각 부품이 100% 완벽하게 동작하리란 보장은 없습니다. 자동차는 양산에 들어가기 전에 여러 번 테스트를 거치면서 오류를 수정해 갑니다. 하지만 우주 왕복선은 특성상 시험 비행이 제한적이기 때문에 각 부품에 오류가 발생할 가능성을 어느 정도 수용하는 문화가 있었습니다. 

그렇지 않으면, 오류를 없애기 위해 치러야 할 비용이 막대해지기 때문이었죠. 그래서 일정한 크기의 오류 가능성을 인정하고 수용하는 규칙으로 NASA 내부에 자리잡았습니다. 폭발을 일으킨 오링의 문제도 사전에 여러 차례 지적되긴 했으나 '수용 가능한 위험'의 목록에 있었기에 넘어가고 말았죠. 

하나의 부품으로 이뤄진 기계는 그 부품의 신뢰도를 0.5%P 향상하면 시스템 전체의 신뢰도도 그만큼 향상됩니다. 반면, 100개의 부품으로 이뤄진 기계는 한 부품의 신뢰도를 0.5%P 향상했다고 해서 시스템의 신뢰도가 동일한 크기만큼 상승하지는 않습니다. 

다음의 풀이를 보면 어떤 의미인지 알 겁니다.

모든 부품의 신뢰도는 각각 99.0%
100 개의 부품으로 이뤄진 시스템의 신뢰도 =  (99.0%)의 100제곱 = 36.60%

특정 부품 A의 향상된 신뢰도 = 99.5%
나머지 부품의 신뢰되는 각각 99.0%
100 개의 부품으로 이뤄진 시스템의 신뢰도 = 99.5% * (99.0%)의 99제곱 = 36.79%

특정 부품 A의 0.5%P 신뢰도 향상으로 인한 기여도 = 36.79 - 36.60 = 0.19%P

수만 수십만 개의 부품으로 이뤄진 우주 왕복선 시스템 전체의 신뢰도를 끌어올리려면, 해야할 일이 엄청나게 늘어납니다. 따라서 NASA가 '수용 가능한 위험'을 허용했다는 것은 당연히 그럴 수밖에 없었고 어떻게 보면 현명한 행동규칙이었습니다. 

NASA의 구성원들이 특별하게 태만하게 근무했거나 뻔한 실수나 비리를 저지르지 않아도 사고가 발생할 수밖에 없었던 이유가 여기에 있습니다. "규칙을 준수한 탓에 사고가 초래됐다?" 언뜻 생각하면 이상한 말이지만, 다이앤 본의 주장은 충분히 설득력이 있습니다. 

(챌린저호 승무원들)


챌린저호 폭발 사건으로부터 조직의 운영이나 전략을 실행하는 데에 어떤 시사점을 얻을 수 있을까요? 

첫째, 고의성이 없고 무해한(효율을 높이기 위한) 개별적인 의사결정이 조직 전체를 와해시키는 파국으로 치닫게 만들 가능성이 충분하다는 것입니다. 조직 내 시스템이 복잡하게 얽혀있을 때 더욱 그러합니다.

둘째, 개별 부품이나 프로세스를 미시적으로 개선한다고 해서 시스템 전체의 안정을 기하는 데엔 한계가 있다는 점입니다. 역시 시스템이 복잡하게 얽혀있을 때 더 그렇지요. 시스템 전체의 신뢰도가 떨어질 때엔 시스템의 아키텍쳐 전체를 뒤집어 엎는 혁신이 필요할지도 모릅니다.

셋째, 문제가 터지고나서 그 발생원인을 따지는 과정은 책임 소재를 찾아 '응징'하는 데에는 의미가 있을지 몰라도, 문제의 근본원인을 제거하는 데엔 그다지 소용이 없을지 모른다는 것입니다. 시스템과 제도를 아무리 정교하게 수정한다 해도 언제나 그 안에 시스템을 붕괴시킬 위험요소가새롭게 창출되기 마련입니다. 완벽을 기하기 어려워 조금씩은 허용 가능한 오류를 인정할 수밖에 없기 때문입니다.

이 세 번째 시사점이 가장 중요하고 가장 '우울한' 일면입니다. 시스템 안에는 스스로를 붕괴시킬 위험요소가 상존한다는 사실은 인간이라는 시스템이 서서히 '스러져 가는' 현상인 노화와 죽음에 비유할 수 있지 않을까요? 그만큼 피하기 어렵다는 뜻입니다.

그렇다면 이러한 위험으로부터 시스템을 보호하려면 어떻게 해야 할까요? 살펴봤듯이 개별 요소의 신뢰도를 끌어올려서 시스템 안정도의 완벽을 기하겠다는 생각은 무모하고 그 이익도 노력에 비해 미미합니다. 그렇다고 시스템 전체를 뒤집어 엎는 일도 꽤나 지난하고 매몰비용(sunk cost) 때문에 섣불리 결정을 못 내리는 심리적 장벽이 존재합니다.

그러므로, 개별 요소의 오류 가능성을 인정하되 하나의 요소에서 발생한 오류가 시스템 전체로 연쇄되지 않도록 해서 피해를 최소화하는 것이 현명한 조치입니다. 오류가 전염되지 못하도록 이중 삼중의 방어벽을 설치하는 것입니다. 인간의 면역계가 생명이라는 시스템을 그런 방식으로 수호하듯 말입니다.

여러분의 시스템, 여러분의 조직, 여러분의 전략은 얼마나 안정적입니까? 어떤 상태이든 너무 신뢰하진 마십시오.

(언뜻 든 생각 : 천안함 사건을 챌런저호 폭발과 대비해 보면 어떨까요? 잘 모르겠으나, 사건을 바라보는 시각을 넗힐 필요는 있지 않을까요?)

* 참고도서 : '그 개는 무엇을 보았나'(말콤 글래드웰). '호모 파베르의 불행한 진화'(킴 비센티)



inFuture 아이폰 앱 다운로드       inFuture 안드로이드 앱 다운로드 

반응형

  
,