데이터 전처리
데이터를 분석하기 위해 가공하는 작업
R에서의 데이터 전처리 패키지
reshape : melt로 녹인 데이터를 cast로 재구조화
sqldf : R에서 SQL을 활용하여 데이터프레임DF 을 다룰 수 있게 해줌
plyt : apply 함수 기반 데이터 처리
data table : 컬럼별 인덱스로 빠른 처리가 가능한 데이터 구조
데이터 마트 Data Mart
DW 의 한 분야로 특정 목적
을 위해 사용 (—> 소규모 데이터 웨어 하우스)
EDA 탐색적 자료 분석 ⭐
데이터의 의미를 찾기 위해 통계적 정보, 시각화를 통해 파악
EDA의 4가지 주제 : 저항성의 강조
, 잔차 계산
, 자료 변수의 재표현
, 그래프를 통한 현시성
결측값
단순 대치법 : 결측값 가지는 데이터를 삭제 . . . complete.cases 함수로 FALSE 데이터에 결측값 제거
평균 대치법 : 평균으로 대치
단순 확률 대치법 : 가까운 값으로 변경 (KNN 최근접 활용)
다중 대치법 : 여러 번 대치 ( 대치 → 분석 → 결합 )
이상값
극단적으로 크거나 작은 값, 의미 있는 데이터일 수도 있음 (체중 3kg)
이상값을 항상 제거하는 것은 아님 ⭐ 판단해야 한다!
판단법 1) ESD Extreme Studentized Deviation : 평균으로부터 표준편차의 3배 넘어가는 데이터는 이상값으로 판단
판단법 2) 사분위수 : Q1 - 1.5IQR보다 작거나, Q3 + 1.5IQR 보다 크면 이상값으로 판단