-
[ML왕초보] 피처(feature), 독립변수, 종속변수머신러닝(ML) 2020. 8. 19. 14:40반응형
데이터 분석에서의 독립변수와 종속변수에 대해서 쉽게 정리해 봅니다.
피처(feature)
데이터 분석을 관련 공부를 처음 할 때 가장 자주 접하는 단어가 바로 피처(feature) 입니다.
피처는 데이터의 특성을 나타내는 것으로 데이터 표에서 열(column)을 지칭합니다.
피처 분석(feature analysis), 피처 엔지니어링(feature engineering) 이라고 할 때의 피처가 바로 테이블에서의 컬럼을 뜻합니다.
피처(feature) 라는 용어와 함께, 변수(variable) 이라는 용어도 자주 혼용되어 사용되고 있습니다.
참고로, 데이터분석에서는 행(row) 을 관측치(observed valude) 라는 용어가 가장 많이 사용되고 있습니다.
아, 그리고,,,, 데이터분석에서 표는 데이터의 특성을 나타내는 feature 가 항상 열(column) 에 옵니다. 이 열과 행을 바꾸면 안됩니다.
독립변수, 종속변수, 인과관계
피처(feacure) 가 변수(variable) 과 혼용되어 사용된다고 하였는데요, 이번에는 독립변수와 종속변수에 대해서 알아봅시다.
한마디로 정의하면 다음과 같습니다.
독립변수(Independent variable) 은 원인이 되는 열(feature)
종속변수(Dependent variable) 은 결과가 되는 열(feature)
예를 들면, 아래 표는 온도에 따른 레모네이드 판매량을 나타내는 가상의 데이터 입니다.
온도가 올라가면 판매량이 증가합니다. 즉, 온도가 원인이 되고, 판매량이 결과가 됩니다.
이런 경우, 온도는 독립변수이고, 판매량은 종속변수 입니다.
그 반대의 경우는 어떨까요?
"레모네이드 판매량이 늘어나니까 온도가 올라갔다?" 상식적으로 머가 이상하죠?
이렇게 원인과 결과의 관계가 있는 데이터를 인과관계라고 합니다.
인과관계가 중요한 이유는 비즈니스 현장이든 어디서든 의사 결정에 중요한 키가 되기 때문입니다.
즉, 원인과 결과 간의 규칙을 알게 되면 앞으로 발생하게 되는 새로운 원인에 대한 결과를 예측할 수 있게 되고, 의사결정을 할 수 있게 되는 거죠. 위 표를 예를 들면, 우리는 온도가 30 도 일 때의 실제 판매량 데이터는 가지고 있지 않지만 판매량이 60이 될 것이라고 예측할 수 있습니다.
그래서 일기예보를 보고 준비해두어야 하는 재료량을 구입할 수 있게 되는 거죠.
참고로, 이러한 변수 간에 인과관계를 확인하는 분석 방법이 바로, 그 유명한 회귀분석 입니다.
회귀분석은 다음에 설명하는 것으로~! ^^
그림 출처 :
반응형'머신러닝(ML)' 카테고리의 다른 글
[ML왕초보] 데이터분석을 위한 완전 기초 통계용어 - 이것만 알고 시작하자 (0) 2020.08.17 [ML왕초보] 코딩 없이 머신러닝 앱 개발 해보기 (2) - 코딩야학 머신러닝 머신 (0) 2020.08.16 [ML왕초보] 코딩 없이 머신러닝 앱 개발 해보기 (1) - Teaching Machine 으로 모델 만들기 (0) 2020.08.15 [ML왕초보] 머신러닝이란? (0) 2020.07.26 XGBoost (eXtra Gradient Boost) 설치 (0) 2020.07.11