유동환's Home: 2013-21: 통계는 왜 쓰는 걸까?

들어가는 글: BB 구술시험에 나왔던 첫번째 질문이 '통계는 왜 쓰는 걸까요?' 였다. 버벅버벅 어떻게 넘어가기는 했는데 다시 생각을 해보니 꽤 중요한 얘기인 것 같아서 몇자 적어보려고 한다.

0. 통계란 무엇일까?

통계를 대표하는 단어에는 '모집단' , '평균' , '대표성' 이런 단어가 있다.
맨처음 이 학문이 만들어진 것은 국가에서 세금을 걷을 때 얼마나 세수가 나오려나? 하고 고민한데서 시작되었다고 한다. 세금을 걷으려면 몇명이 얼마나 낼 수 있는지 알아야 했는데 평균을 구해놓으면 나중에 인구가 추가되더라도 평균 * 명수만 해놓으면 간편하게 다음에 걷을 세수 총합을 구할 수 있는 것이다.

> 통계란 전체를 숫자로 대표하는 것이다. (유동환)

어떻게 대표할 수 있을까?

젤 쉬운 거는 평균(average)이다.

여기까지는 누구나 알고 있는 상식이다.

1. 평균을 넘어서

사람수가 100명이라면 그래.. 일일이 다 구하면 평균을 알아낼 수 있다. 하지만 인구가 10억명인 중국에서 평균을 구하고 싶다면 어떻게 하지?

전체를 다 셀수 없을때.. 통계학자의 새로운 고민이 시작된다.

일부를 가지고 전체의 평균을 크게 틀리지 않고 어림하고 싶다.

이러면 새로운 개념들이 등장한다.

모집단, 모평균, 표본추출(sampling)

시간적 경제적 한계로 인해서 우리는 10만명만 조사할 수 있다. 그래 힘들지만 10만명을 조사해보았더니 평균 수입을 5000$이라고 조사할 수 있었다.

모집단: 10억
모평균: 몰라
표본수: 10만명
표본평균: 5,000$

우리가 알고 시픈 것은 모평균이다. 실제 중국의 인구당 GDP는 얼마일까?

2. 표본 추출이 중요하다 <표본>

성급하게 답으로 가지 말자. 그런 것은 '통계학'에 관한 수많은 책들에서 이미 자세히 설명을 해놓았다.

표본추출에는 여러가지 방법이 있다.

1) 랜덤 추출: 무작위로 조사하는 법
2) 층화 랜덤 추출: 어떤 group을 나누어 그 그룹별로 무작위 조사을 시행
3) 계통적 추출: 3명에 한번씩, 100명에 한번씩 이런 식으로 체계적으로 조사한다.
4) 집락 추출: 모집단이 여러 cluster로 이루어진 경우 해당 cluster를 전수 조사한다던지 하여 표본을 조사한다.

솔직히 자세히는 모르지만, 통계에서 표본 추출이 매우 중요하다는 것을 기억하자.
통계의 대표적인 약점은

1) 전체의 수를 다 조사할 수 없다.
2) 내가 뽑은 표본이 100% 전체를 대표한다고 보장할 수 없다.
3) 뽑는 방법이 매우 다양하다.

라는 것이다. 통계가 가진 근본적인 강점이자 약점이다. 강점은 소수를 가지고 전체를 대표할 수 있다는 것이고, 약점은 그 소수가 얼마나 젠체를 대표하는지 보장하기 어렵다는 것이다.

경제성!! 그것때문에 우리는 통계를 배워야 한다.
대표성(설득력)!! 이것때문에 회사에서 통계는 매우 강력한 도구로 쓰일 수 있다.

3. 조사하는 것은 쉬운가? <측정>

식스시그마 BB 구술시험을 준비하면서 몇 번이고 다시본 chapter는 측정(measure)에 관한 내용이 었다.

측정.. 그냥 갯수를 세나 길이를 제거나 하는 것은 누구나 크게 틀리지 않고 할 수 있을 것이다. 하지만 조금만 수준을 높여보면

"Facebook app의 메모리 소모량"

이것을 측정하는 것이 얼마나 어려운 것인지 프로그래머는 잘 알것이다. 된장.. 시시각각 변하기 때문이다.

1) 초기 진입할때의 메모리 소모량?
2) 한참 서버와 동기화하고 있을 때 메모리 소모량?
3) 데이터를 위아래로 flicking 하고 있을 때 소모량?
4) 친구가 0명인 사람의 app 메모리 소모량?
5) 친구가 5000명인 사람의 app 메모리 소모량?
6) 구닥다리 피처폰에서 메모리 소모량?
7) LG G2에서 메모리 소모량?

내가 알고 싶은 것은 단순 '메모리 소모량'인데.. 이게 상황에 따라 측정값이 무쟈게 변하는 것이다. 측정하는 것이 쉬운일이 아니다.

통계학에서는 아래와 같은 tool을 제시한다.

1) Type I gauge study: 측정기의 정확성, 편의(bias)를 조사한다.
2) Gauge R&R: 측정자, 측정자 표준의 반복성, 재현성을 조사한다.

즉, 측정기는 문제가 없는지.. 측정자에 따라 달라지지 않는지, 측정절차에 의해 측정값이 영향을 받지는 않는지 검사하는 도구를 제공하는 것이다.

머리가 뱅뱅돈다.

하지만 '통계학은 전체를 숫자로 대표한다'라는 초기의 문장에서 하나하나씩 내려오다 보면 측정이라는 것도 만만치 않음을 알 수 있다.

통계학은 여러모로 회계학과 비슷하다. 회계는 숫자로 회사의 전체 모습을 그려주는 것이다. 측정은 오직 금액으로만 측정한다는 단순함이 있지만 , 각 계정 항목이라는 것이 고정 불변이 아니라 법이 바뀌면서 , 상황이 바뀌면서 그에 맞춰야 하는 어려움이 있다. 계정 항목을 고정시켜 놓으면 그 항목의 금액을 측정하기가 매우 어려운 것이다. (궤변인가요? ㅎ)

4. 중국의 GDP를 구해보자 <모평균>

표본 추출, 측정에 문제가 없다면 모평균을 구할 수 있다. 여기에도 모집단이 정규분포를 갖는다는 가정이 필요하다. 중국의 GDP 구하는데 뭐 이리 복잡한가? 표본도 있고 측정도 잘했고 했는데..

소수를 가지고 전체의 값을 구하기 위해서는 전체가 어떻게 생겼다는 기본적인 청사진이 필요한데 그중 대표적인 것이 정규분포(normal distribution)이다.

그래.. 중국인의 소득이 정규분포를 따른다고 믿어주자.

그러면 단일검정 t검정(1 sample t-test)를 해보자

> 주장: 중국인의 GDP는 5000$이다.

이것으로 t검정을 돌리면 p-value가 나온다. 간단히 생각해서 p-value < 0.05 이면 통계적으로 나의 주장이 옳다고 할 수 있다.

> p-value = 0.001

아!! 이제 중국인의 올해 GDP는 5,000$로 밝혀졌다.

5. 결국 통계는 의사결정이다 <통계적 추론>

모평균을 구해서 뭐하나? 결국 어떤 의사결정, 판단을 내리고 행동을 하기 위한 학문이 통계학이다. 회사에서는 내년 실적을 예측하여 그에 맞는 효율적인 resource 분배를 하기 위함이다. 군대에서는 적국의 국력을 예측하여 공격을 하던 수비를 하던 계량적인 전략을 세우는 학문이다. 학교에서는 어떤 결과의 원인을 알아내기 위한 통계적 추론을 실시한다.

"최근 유행하는 당질제한 다이어트는 효과적인가?"

라는 주제가 있다면

1) 당질제한 수행 -> 다이어트 효과가 있는가?

2) 당질제한 안함 -> 다이어트 효과가 있는가?

이것을 가지고 통계적 추론을 실시한다. 두가지 변수에는 상관관계가 있는지, 혹은 인과관계(원인-결과의 선후관계)가 있는지 살펴본다.

또한 당질제한외에 다른 요인은 없는지 확인한다. 최대한 다른 변인은 통제(control)해야 하는 것은 물론이다.

결론: 직장인은 이것도 공부해야 하나?

한가지만 잘하기도 힘든데 '자기계발'이니 '역량강화'니 해서 회사에서는 자꾸 무엇을 시킨다. 매일 발생하는 이슈들도 바로바로 처리하기 힘든데

외국어 공부, 시사상식, 회사법규, 회계학, 통계 ㄷㄷㄷ

책도 읽으라고 하고..

인증시험도 취득하라고 하고..

결론적인 내 생각은 공부를 해야 한다. 왜?

사회가 점점 고도화되고 사람의 평균 지적인 수준이 올라가면서 비즈니스 환경도 더욱 복잡해질 것이기 때문이다. 정글에서 살아남기 위해서는 다양한 지적인 훈련이 병행되어야 한다. 그래야 효율적으로 일할 수 있고 , 효율적으로 일을 적게 할 수 있다.

점점 '회사의 시대'가 가속화될 것이다. 이직율은 계속 높아질 수 있겠지만 회사에서 근무하는 전체 연수가 점점 늘어나게 될 것이다.

고령화 조직.. 생존 법칙은 공부다.

감사합니다.

2013.11.2 오전10시반 @Home

유동환's Home

2013년 11월 1일 금요일

2013-21: 통계는 왜 쓰는 걸까?

댓글 없음:

댓글 쓰기