[펌] 10살도 이해할 수 있는 "통계적 유의성" 설명!!
안녕 나는 미국에서 데이터과학자로 일하고있는 펨창이야 빅데이터, 인공지능, 기계학습이런것도 물론 간지나지만 기본적인 통계지식이 삶을 살아가는데 큰 도움을 준다고 생각해 그래서 어린아이도 이해할수있게 통계를 말로 풀어 설명해주는 시리즈를 시작할까해 아주 간단하고 쉬운 이해를 위해 영어, 수학, 어려운 용어는 일체 첫주제는 통계적 유의성이야 학교나 기사등을 통해 뭔가가 “통계적 유의”하다 라는말을 한번쯤은 들어봤을거야 좀 더 자세하게 읽어본사람들이라면 “p값이 유의수준 보다 작으므로 통계적으로 유의하다” 라고까지 봤을수있어 근데 이게 정확히 무슨뜻일까? 아마 보통 “아~ 과학자님들이 뭔갈 인증해주셨구나” 정도로 두루뭉술하게 이해하고있을텐데 이는 큰 오해를 만들수있기때문에 유의하다는게 무슨말인지 그리고 그 결론을 어떻게 도출하는지 요약해줄게 이 말을 일상언어로 간단하게 풀어 말하자면 “내 측정값은 그저 우연일 확률이 굉장히 적기때문에, 아마도 그 측정값이 옳을것이다” 정도로 해석하면돼 근데 아마도 맞을것이라고 결론을 일단 냈을뿐인거지 절대 결과가 100% 확정적이란게 아니야 역시 아직 정확히 머릿속에 잘 안그려지지? 자 예를 들어줄게 어느날 지나가던 키큰 남자가 갑자기 외쳐 “야, 요즘애들은 다 크지. 20대 남성 평균키가 180은 될거야” 하지만 난 인정할수가 없지 그래서 난 저 사람의 주장을 통계적으로 패야만 하겠어 저 남자는 “대한민국 20대 남성의 평균키가 180이다” 라는 가설을 세웠고 나는 “대한민국 20대남성의 평균키는 180에 미치지 않는다” 라는 그에 반박하는 가설을 세워 키큰남의 가설을 깨는 최고의 방법은 대한민국 20대 남성 수백만을 모두 모아서 평균이 180이 안된다는걸 확인하는거겠지만 현실적으로 불가능하겠지? 그래서 표본이란걸 추출하는거야 대한민국 20대남성을 무작위로 500명정도만 뽑아서 일단 통계를 함 내 보는거지 무작위 500명을 뽑아 키를 재서 평균을 내봤더니 평균이 172cm?!! 그 남자에게 자랑스럽게 말해 "500명씩이나 재봤는데 172밖에 안되자너~" 하지만 그 남자가 곧바로 그럴듯한 반박을해 “대한민국 20대남자가 얼마나 많은데 고작 500명 평균을 가져와서 그러냐?” “우연찮게 작은사람들만 골랐을수 있잖아?” 당황스럽지만 틀린말이 아니야 하지만 그래서 등장하는게 바로 p값! “크크큭... 내 통계값에 의하면 p값이 0.05 도 안되기때문에 너의 가설은 기각되었어” 여기서의 p값이란, 저 남자의 말대로 만약 대한민국 전체인구의 평균키가 정말 180이라고 가정해봤을때, 내가 표본을 뽑아서 측정한 값이 170이하일 확률 “p값이 0.05 도 안되기때문에…” 라는건 그 확률을 계산해보니 너무나도 작아서, 그저 우연만으로 170이하가 나왔을리가 없다라는 거지 (p값을 구하는방법. '너무나도 작은'게 얼마나 작은건지, 왜 0.05를 기준으로 삼은건지 등은 다음글에) 생각해봐 정말 대한민국 평균이 180이라고 가정했을때 500명씩이나 뽑았는데 평균이 170이하로 나오기가 굉장히 어려워 근데 그럼에도 불구하고 170이 나왔다는 이야기는 뭐겠어? 애초에 평균이 180이 아닐거라는 이야기지 고로 저남자의 가설은 기각 자연스레 나의 가설은 채택 요약하자면 - 가설을 100% 증명하는 유일한 방법은 전인구를 측정하는것뿐 - 그게 불가능하기때문에 필요한게 '통계적 유의성' - 무작위로 구한 표본을 통해 간접적으로 확인해봄 - 그 표본의 통계수치로써 가설을 검증가능 - 그치만 어쨌든 100% 확실하지 않기때문에 "통계적으로 유의하다"라고 표현하는것 [출처 - 에펨코리아 '구슬맛캔디']