토토 분석의 전략적인 특성

본 연구는 전자발매통제시스템에서 수집된 토토사이트 자료를 통해 수행되었다. 분석상품은 토토이다.

분석대상이 되는 기간은 2014년 1월부터 2016년 12월까지6)이며, 데이터는 각 판매점의 회차별 매출

및 발매빈도와 전자발매통제시스템을 통해 관리되고 있는 기준 인 (관리)지표(5만원초과발매, 동일금

액연속, 발매액급등) 데이터를 기초로 수행되었다. 데이터의 기본단위는 판매점이 한 회차에 발매한 금

액의 합계, 빈도의 합계 그리고 관 리지표의 위반 정도이다. 토토의 경우 2014-2016년까지의 각 회차

의 판매점별 데이터는 13,716,663개에 달 한다. 그러므로 분석의 목적에 따라서 다양한 형태로의 가공

이 선행되어야 한다. 일반적 으로 이와 같은 대형 데이터를 분석할 때에는 split-apply-combine 전략을

활용한다 (Wickham, 2011). split-apply-combine 전략은 특정 기준에 의해 데이터를 그룹화하고 개별

적으로 처 리해 마지막에 결합한다. 예를들어 데이터를 분석하는 사람이 전통시장과 대형마트 간 가격

차이가 있는지 확인해 보고 싶다면 품목과 시장구분을 기준(key)으로 데이터를 나 누어(split), 품목별

로 평균을 뽑아(apply) 적절한 데이터 포맷으로 보여주는(combine) 것이다. 데이터는 일차로 가공된 것

으로, 변수는 연도, 월, 회차 등 시기를 나타내는 변수와 판매점 그리고 판매점의 위치와 관련하여 시/

도, 시/군/구의 지역변수 그리고 각 판매 점의 회차별 총 발매빈도와 발매액, 구간별 발매빈도 및 발매액

이었다. 발매액 구간은 1 만원 미만, 1-3만원, 3-7만원, 7-9만원, 9-10만원으로 구분하였다. 또한 발매

이상징후 를 측정할 수 있는 변수인 5만원초과발매, 동일금액연속, 발매액급등의 비율 또한 변수 로 활

용되었다. 데이터의 가공과 분석에는 통계 패키지 R(version 3.2.1)을 이용하였고, 빅데이터 분석 솔루

션인 Tableau 10을 활용하여 시각화하였다. 이와 같은 Raw-data는 명목변수를 기준(key)으로 다양하

게 가공되어 분석에 활용되었다. 약 1천 3백만 개의 데이터는 매우 거대한(big) 데이터이기 때문에, 분

석 목적에 부합된 활용을 위해서는 필 요한 부분만을 선별하여 분석하고 합치는, 이른바 split-apply-

combine의 전략이 활용 될 필요가 있었다 즉, 판매점의 각 연도별 합, 각 월별 합, 각 지역별 합의 토토

사이트 형태로 가공할 수가 있을 것 이다. 예를 들자면 각 연도별, 월별, 지역별로 회차를 합치면 다음과

같은 데이터 구조를 가지게 된다. 대략 판매점은 6,500개 정도인데, 각 월별로 6,500개의 판매점 데이

터가 존재하게 된다. 만약 5개년치의 데이터라면 6,500(판매점)12(개월)5년=390,000개의 토토사이트

데이터 관측치로 재가공하게 된다 각 연도와 월별로 데이터를 구분하고 합계한 뒤에, 다시 데이터 셋으

로 구성한 하나의 예이다. 이런 방식으로 연도별 단위로만 발매액과 빈도를 합하거나 평균 을 수행할

수도 있으며, 월별로 패턴을 파악하기 위해서는 월별만으로도 데이터를 구성 하거나, 연도와 월, 지역과

상관없이 판매점만의 2014-2016년 평균을 비교하는 형태로 도 구성할 수 있을 것이다. 또한 명목변수

외에도 토토사이트 발매액과 빈도를 split할 수도 있다. 빈도 또는 발매액의 분포 를 통해서 일정한 기준

(예를 들어서 상위 5%구간, 상위 +2 표준편차 구간과 이하, 1.5*IQR)을 설정하여 집단을 구분하여 분석

을 수행하거나 다시, 연/월/지역별로 분석을 수행할 수도 있다. 뿐만 아니라, 각 연도별만으로 또는 각

연도의 월별만으로도 분석을 수행할 수 있기 때문에 다양한 토토사이트 형태의 데이터를 활용할 수 있

다는 것을 알 수 있다. 이와 같은 내용을 개념적으로 표현하면 이하의 <그림 7>과 같다. <그림 7> 내의

1은 연도와 지역만을 기준으로 합산하게 되는 그림이 되고, 2는 연도와 월별 기준으로 합산 하게 되는

그림이 된다. 즉, 명목변수에 데이터를 split 할 수 있는 다양한 기준이 있으며 그것에 따라서 다양한 형

태의 데이터 셋을 구성할 수 있게 된다.

출처 : 메이저토토사이트 ( https://closeup.fm/?page_id=49 )

댓글 남기기