ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ML왕초보] 데이터분석을 위한 완전 기초 통계용어 - 이것만 알고 시작하자
    머신러닝(ML) 2020. 8. 17. 16:37
    반응형

    머신 러닝 공부를 시작해 보려고 마음 먹고 나서 처음 부딪히는 좌절이 바로, 수학, 통계 일 것입니다.

    그렇다고 데이터 분석과 머신러닝 공부해 보겠다고 다시 고등학교 수학책을 펼치고 통계 공부할 수는 없잖아요.

    또, 완전히 무시할 수도 없는 것이, 아는 만큼 보인다고 하잖아요.

    정말 필요한 기초 개념, 이것만이라도 우선 알고자 하는 마음에 정리해 봅니다.

     

    모집단, 표본, 샘플링

    모집단(population) : 원래 알고 싶은 데이터 전체, 그러나 현실적으로 이 데이터는 존재하지 않습니다.

    표본(sample) : 모집단에서 일부만 뽑아낸 데이터

    샘플링(sampling) : 모집단에서 표본을 뽑는 과정

    표집수(N) : 샘플링한 데이터 개수

     

     

     

    예를 들어, 우리나라 10대의 평균 키를 알아본다고 합시다. 

    그럼, 모집단우리나라의 모든 10대가 됩니다.

    그런데, 우리나라 모든 10대의 키 정보는 구할 수가 없어요. 그래서 1000명을 무작위로 뽑아서 키를 재기로 했습니다.

    이렇께 뽑힌 1000명이 바로 표본입니다. 그리고, 표집수가 바로 1000 입니다.

     

    모집단 : 우리나라의 모든 10대

    표본 : 1000명

    샘플링 : 1000명을 뽑는 과정

    표집수(N) : 1000

     

    랜덤 샘플링과 편향

    샘플링에서 중요한 것이 바로 랜덤하게 뽑아야 된다는 것입니다.

    이를 랜덤 샘플링이라고 합니다. 

     

    편향(bias) : 데이터 수집 시 특정한 기준을 적용해서 데이터가 한쪽으로 치우치는 현상

    불편향(unbias) : 편향의 반대. 우리는 이렇게 데이터를 추출해야 합니다.

    랜덤 샘플링(random sampling) : 표본을 뽑을 때 어떤 기준도 두지 않고 무작위로 뽑는 것. 편향을 막을 수 있는 가장 대표적인 방법입니다.

     

    앞서 1000명의 10대를 뽑을 때 코엑스에 가서 아무 10대나 붙잡고 키를 재는 것으로 결정했다고 합시다. 아무 10대나 붙잡았으니 랜덤하게 뽑았다고 할 수 있을까요?

    아닙니다. 이미 코엑스라는 기준이 적용되어 버린 것입니다. 어떻게 하면 랜덤하게 샘플링을 할 수 있을까요?

    데이터 수집을 어떻게 했느냐에 따라 그 데이터의 특성이 결정됩니다. 그래서 랜덤 샘플링이 무척이나 중요합니다.

     

     

    가장 기본적인 통계 수치와 기호

    데이터 분석을 위한 통계에서 가장 많이 사용 되는 기초적인 기호는 다음과 같습니다.

     

    모평균(μ, 뮤) : 모집단의 평균

    모표준편차(σ, 시그마) : 모집단의 표준편차

    모수치 : μ, σ

    표본평균($\bar{x}$, 엑스바) : 표본의 평균

    표본표준편차(s, 에스) : 표본의 표준편자

    표본수치 : $\bar{x}$, s

     

    평균이 무엇인지는 다들 알고 계시니까, 이를 수식으로 표현하면 이렇게 되겠죠?

    $$\mu (모평균) =\dfrac{\sum X(모집단의 합)}{N(모집단 개수)}$$

     

    $$\overline{x}(표본평균)=\dfrac{\sum x(표본의 합)}{N(표본의 개수)}$$

     

    그런데 갑자기 "표준편차" 라는 것이 나왔는데요,  표준편차를 이해하기 전에 우선 정규 분포와 집중경향치에 대해서 우선 알아보겠습니다.

     

    정규분포, 집중경향치

    정규분포

    분포는 데이터가 대략적으로 어떻게 생겼는지를 알려 줍니다. 데이터의 모양은 어려가지 형태를 띄고 있을 텐데요, 통계학적으로 가장 중요한 것이 바로 정규 분포 입니다.

     

    정규 분포 : 좌우 대칭의 종모양. 평균을 중심으로 데이터가 골고루 퍼져 있는 형태
    편포 : 데이터가 한쪽으로 치우쳐저 있을 때의 분포

     

     

    아래 그림을 봐주세요. 기호나, 수치는 신경쓰지 말고 선들의 모양만 보면 되요.

    출처 : 위키피디아

    위 그림을 보면 4개의 그래프가 있는데요, 어떤 그래프가 정규분포 일까요?

    정답은 4개 모두입니다.

    모두 평균을 중심으로 좌우 대칭의 모양을 하고 있습니다.

     

     

    데이터 분석에서 정규분표가 중요한 이유는 대부분의 분석 방법들의 통계적 가정이 "데이터가 정규분포이다" 라는 것을 가정으로 하고 있기 때문입니다. 그래서 분석 방법을 적용하기 전에 데이터들을 정규분포로 변형을 하게 됩니다.   

     

    이는 중심극한정리(Central Limit Theorem, CLT) 라는 이론을 기반한 것인데요, 

     

    중심극한정리(Central Limit Theorem) 란,

    "표본의 크기가 커질 수록 표본평균의 분포는 모집단의 분포 요양과 관계없이 정규분포에 가까워진다"는 것이에요.

    왜 그런지는 일단 여기서는 넘어가도록 해요. 

     

    홍시 맛이 나서 홍시라고 하였는데, 왜 홍시라고 하시면은............

     

     

    집중경향치 : 평균, 중앙치, 최빈치

    데이터를 대표하는 값이 누구인가를 알려주는 수치를 집중경향치라고 합니다. 

    주로 평균, 중앙치, 최빈치 등이 사용됩니다.

     

    평균(mean) : 총합을 개수로 나눈 것

    중앙치(median) : 순서대로 나열 했을 때 가장 가운데 위치한 수치

    최빈치(mode) : 가장 많이 나타나는 수치

     

    예로 설명해 볼께요.

    다음과 같은 데이터가 있다고 합시다.

     

    $A = [1,2,3,4,5]$

    $B = [1,2,3,4,100]$

    $C = [1,2,3,3,4,4,4,5,5]$

     

    A,B,C 의 평균값은 각각 3, 22, 3.45 가 됩니다.

    중앙치는 3, 3, 4 가 되구요,

    C 의 최빈치는 4가 세번으로 가장 많이 나와서 4입니다.

     

    B 데이터의 경우, 누가 봐도 100이라는 특이한 값 때문에 평균이 완전 뻥튀기가 되었는데요,

    그래서 일반적으로 중앙치가 예외적인 값들의 영향을 덜 받는 성격을 가진다고 볼 수 있습니다.

     

     

    분산, 표준편차

    데이터를 대표하는 값을 집중경향치라고 하였는데요, 이것만으로 데이터의 특징을 제대로 설명했다고 할 수 없습니다.

    아래 두 개의 데이터를 보면, 평균, 중앙치 가 모두 3으로 동일합니다. 분명 다른 데이터인데 집중경향치는 같다고 말하고 있으니까요.

     

    $A = [1,2,3,4,5]$

    $B = [1,3,5]$

     

    그래서 많이 이야기 하는 것이 바로 분산과 표준편차입니다.

     

    편차 : 평균에서 각 데이터까지의 거리(차)

     

     

    평균에서 얼마나 떨어 있는지를 계산해서 그 편차들의 평균을 내 보면 무언가 나올 것 같습니다. 

    한번 확인해 볼까요.

     

    A 데이터의 편차는 평균 3을 기준으로 각각 -2, -1, 0, 1, 2 가 되고

    B 데이터의 편차는 -2, 0, 2 가 됩니다.

     

    어랏, 그런데 편차의 합을 구하면 0 이 되고, 평균도 0이 되네요. ㅠㅠ

    즉, 수식으로도 한번 표현해 볼까요. 

     

    $$\sum(X-\mu) = 0 $$ 

     

    이렇게 해서는 특징을 설명할 수 없으니, 음수 값을 양수로 바꾸어서 다시 계산해 보겠습니다.

    음수 값을 양수로 바꾸는 방법은 절대값을 구하거나, 제곱하는 방법이 있다는 걸 우리는 알고 있는데요, 제곱을 해서 평균을 구해보도록 하겠습니다.

     

     

    A의 편차 제곱의 평균

    $$\dfrac{\left( -2\right) ^{2}+\left( -1\right) ^{2}+\left( 0\right) ^{2}+\left( 1\right) ^{2}+\left( 2\right) ^{2}}{5}=2$$

     

    B의 편차 제곱의 평균

    $$\dfrac{\left( -2\right) ^{2}+\left( 0\right) ^{2}+\left( 2\right) ^{2}}{3}=2.67$$

     

    두 데이터의 편차를 제곱해서 평균을 내어보니 2 와 2.67 로 B의 데이터가 평균에서 좀 더 먼것을 확인할 수 있습니다.

    편차 제곱의 평균을 바로 분산이라고 합니다.

     

    분산은 기호로 $\sigma^{2}$ 이렇게 표현합니다.

    수식으로 표현하면, 이렇게 되겠네요.

    $$분산(\sigma ^{2})=\dfrac{\sum \left( x-\mu \right) ^{2}}{N}$$

     

    어라,, $\sigma^{2}$ 어디서 많이 본 기호네요.

    네, 드디어 표준편차가 나왔습니다.

     

    모집단의 표준편차($\sigma$) 가 바로 분산에 root 를 씌워서 제곱으로 뻥튀기 된 분산을 원상복귀 시킨 값입니다.

     

    $$표준편차(\sigma) =\sqrt{\dfrac{\sum \left( x-\mu \right) ^{2}}{N}}$$

     

     

    정리를 해보면,

    데이터의 각 수치들이 평균에 가깝게 있는지, 아니면 얼마나 흩어져 있는지는 분산과 표준편차로 알 수 있습니다.

    즉 분산과 표준편차가 크면 데이터가 평균에 수렴되지 않고 넓게 퍼져 있다는 것이고,

    분산과 표준편차가 작으면 데이터가 평균에 가깝게 모여 있다는 의미입니다.

     

    편차 : 평균에서 각 데이터까지의 거리

    분산 : 편차제곱의 평균

    표준편차 : 분산의 제곱근

     

    앞서 봤던 그래프를 다시 한번 볼까요?

    이전에는 보이지 않았던 기호와 숫자들이 눈에 들어오시나요?

     

    빨간색은 표준정규분포이다.

    특히 빨간색 그래프는 평균($\mu$)이 0 이고 표준편차($\sigma$)가 1인데요, 이를 표준정규분포(standard noraml distribution)라고 합니다.데이터분석 책이나 자료를 보면 많이 나오는 표현 중 하나가 $N(0,1)$ 인데요, 바로 표준정규분포를 의미합니다.

     

    데이터분석에서는 "표준정규분포" 가 매우 중요합니다.앞서 대부분의 분석 방법들의 통계적 가정이 "데이터가 정규분포이다" 라는 것을 가정한다고 하였는데요, 제가 지금까지 얇팍하게 공부한 바로는 사실 "표준정규분포"를 가정한다고 보면 됩니다. 

     

     

    극단치(아웃라이어, outlier)

    마지막으로 극단치, 아웃라이어(outlier) 를 알아보겠습니다.

    아웃라이어 통계적 자료분석의 결과를 왜곡시키거나 망가 뜨리는 문제아 데이터를 말합니다.

     

    앞의 예에서 $B = [1,2,3,4,100]$ 라는 데이터는 100 이라는 수치 때문에 평균값이 22로 극단적으로 올라갔습니다.

    누가봐도 100은 문제가 있는 데이터 입니다. 바로 아웃라이어죠.

    데이터 분석에서는 아웃라이어를 제거해 주어야 합니다.

    아웃라이어를 찾아내고 어떤 방식으로 제거하느냐가 무엇보다도 중요한데요, 이는 전적으로 데이터 분석가의 판단에 달려 있습니다. 

     

    마무리하며....

    이번에 통계 용어를 공부하고 나서야, 왜 데이터분석 관련 책에서 데이터 전처리 과정에서 표준정규분포로 데이터를 처리하는지 조금이나마 이해가 되었습니다.

    이제 다시 책을 보면 단순히 코드 따라가기만 했던 것을 넘어서서 좀 더 이해가 잘 될 것 같습니다.

     

     

     

    반응형

    댓글

Designed by Tistory.