<aside> 💡 데이터 마트 구성에 중요한 요약변수와 파생변수 : 모형 개발할 때 문제를 가장 잘 해석할 수 있는 변수를 찾는 것은 모형 개발에서 가장 중요한 핵심단계 : 데이터 마트 구성 시 가장 중요한 데이터는 데이터 웨어하우스로부터 받아오는 데이터 ⇒ 요약변수 | 데이터를 특정 기준에 따라 사칙연산을 통해 만들어 낸 변수 ⇒ 파생변수 | 사용자의 노하우를 기반으로 새롭게 만들어 낸 변수
</aside>
<aside> 💡 R프로그램에서의 reshape 패키지 : 데이터 마트를 생성할 수 있도록 데이터를 녹이고(melt) 다시 형상화(cast)할 수 있는 R패키지, 분석용 마트 설계에서 잘 활용
</aside>
<aside> 💡 R프로그램에서 SQL의 활용 : sqldf라는 패키지를 통해 활용 가능, sqldf 함수를 사용하면 모든 SQL문장을 거의 똑같은 형식으로 사용할 수 있게 됨
</aside>
<aside> 💡 data.table 패키지 : dataframe과 같은 구조를 가지고 있으나 key를 활용해 훨씬 빠른 연산이 가능하게 만든 패키지
</aside>
데이터 마트 DM ⭐
: 데이터 웨어하우스 DW 와 사용자 사이의 중간층에 위치한 것, → 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스 DW라고 할 수 있음
: 데이터의 한 부분으로 특정 사용자가 관심을 가지고 있는 데이터를 담은 비교적 작은 규모의 DW
: 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될 수 있으며, 관계형 데이터 베이스나 다차원 데이터 베이스를 이용하여 구축
: CRM Customer Relationship Management 관련 업무 중 핵심 == 고객 데이터마트 구축
: 동일한 데이터 셋을 활용할 경우, 최신 분석기법들을 이용하면 분석가의 역량에서는 분석효과 큰 차이 X ⇒ 데이터마트를 어떻게 구축하느냐에 따라 분석효과 크게 차이
:데이터 마트 구성 시 가장 중요한 데이터는 데이터 웨어하우스로부터 받아오는 데이터 ⇒ 요약변수 | 데이터를 특정 기준에 따라 사칙연산을 통해 만들어 낸 변수 ⇒ 파생변수 | 사용자의 노하우를 기반으로 새롭게 만들어 낸 변수
요약 변수
수집된 정보를 분석에 맞게 종합한 변수
데이터 마트에서 가장 기본적인 변수 : 총 구매 금액, 금액, 횟수, 구매여부 등 데이터 분석 위해 생성됨 → 잘 만든다면 분석의 중요한 변수로 활용 가능
기간별 구매 금액, 횟수 여부 | 고객의 구매 패턴을 볼 수 있는 변수 |
---|---|
위클리 쇼퍼 | 구매 시기를 통해 고객의 특성을 추정하는 데 활용 |
상품별 구매 금액, 회수 여부 | 고객의 라이프 스테이지와 라이프 스타일 등 이해하는데 크게 도움 |
상품별 구매 순서 | 고객에 대한 이해와 해석력을 높일 수 있음 |
유통 채널별 구매 금액 | 온라인과 오프라인 사용 고객에게 모두 사용하도록 유도하는 데 활용 |
단어 빈도 | 텍스트 자료에서 단어들의 출현 빈도를 데이터화하여 사용 |
초기 행동변수 | 고객 가입 또는 첫 거래 초기 1개월 간 거래 패턴에 대한 변수로 |
1년 후에 어떤 행동을 보일지 평가하는 지표로 활용 | |
트렌드 변수 | 추이값을 나타내는 변수 |
결측값과 이상값 처리 | 결측값과 이상값은 무리해서 처리하려고 하면 시간과 위험이 커질 수 있으므로 데이터의 내용을 파악하여 처리해야 함 |
연속형 변수의 구간화 | 분석 후 적용 단계를 고려한 데이터 분석을 위해 |
연령이나 비용 등 연속형 변수를 구간화 하는 것이 필요 | |
→ 반드시 10, 100, 1000단위로 구간화 하지 말고 의미있는 구간으로 구간화 |
많은 모델에 공통으로 사용될 수 있어 높은 재활용성
다양한 모델을 개발해야 하는 경우, 효율적으로 사용 가능
합계, 횟수와 같이 간단한 구조 : 자동화하여 상황에 맞게 / 일반적인 자동화 프로그램으로 구축 가능
단점 ] 얼마 이상이면 구매해도 기준값의 의미 해석이 애매모호 → 연속형 변수 그룹핑하여 사용
파생 변수
근무시간 구매지수 | 근무시간 대에 거래가 발생하는 비율을 산출하여 활용 |
---|---|
주 구매 매장 변수 | 고객의 주 거래 매장을 예측하여 적절한 분석에 활용 |
주 활동 지역 변수 | 고객의 정보나 거래 내용을 통해 주 활동지역을 예측하여 분석에 활용 |
주 구매상품 변수 | 상품 추천에 활용 → 1순위 상품을 구매하고 2순위 상품을 구매하지 않은 고객에게 추천 |
구매상품 다양성 변수 | 고객이 다양한 상품이나 같은 브랜드 등 구매하는 성향 파악 → 분석에 필요한 변수로 변환 |
선호하는 가격대 변수 | 각자의 취향, 소득, 서비스 등에 따라 많이 투자하는 상품군이 있는데 주로 패션 분야에 중요 |
시즌 선호고객 변수 | 각자 의미 있게 생각하는 날 소비가 많이 이루어지기 때문에 패턴 파악하여 분석에 활용 |
라이프 스테이지 변수 | 고객이 속한 라이프 스테이지를 예측하여 행동을 이해하고 그들의 니즈와 가치 파악에 활용 |
라이프 스타일 변수 | 고객의 라이프스타일을 보고 상품 구매를 유도하는 데 활용 |
행사 민감 변수 | 같은 상품도 행사를 할 때 구매하는 사람이 있고 행사와 관련 없이 구매하는 사람이 있는데 이런 행동 패턴을 파악하여 활용 |
휴면가망 변수 | 고객은 늘 구매하지 않기 때문에 고객의 취향이나 관심사가 변해 구매하지 않거나 |
경쟁사의 상품을 선호하게 되는 경우가 있는데 이를 파악하여 사전 대응에 활용 | |
최대가치 변수 | 고객의 가치를 판단하여 어느 정도 판매할 수 있는지를 예측하는 데 활용 |
최적 통화 시간 | 콜센터에 걸려온 시간으로 고객의 직업 등을 고려한 통화시간을 예측하여 통화 시도 |
reshape 패키지의 활용
< DATA 명 : MD >
ID Time Variable Value 1 1 X1 5 1 2 X1 3 2 1 X1 6 2 2 X1 2 1 1 X2 6 1 2 X2 5 2 1 X2 1 2 2 X2 4
< NEW DATA >
ID Variable Time1 Time2 1 X1 5 3 1 X2 6 5 2 X1 6 2 2 X2 1 4
⇒
cast(md, id+variable~time)
ID와 Variable에 대해 Time의 Value 확인