래피드마이너 데이터 초간편 분석 4편!!데이터 시각화~!!데이터 시각화는 지난 3편 데이터 불러오기에 이어서 진행되기 때문에사용할 데이터와 저장방법은 3편을 참고해주시기 바랍니다. 그럼 데이터 시각화를 시작해 볼까요??1. Data Tab지난 시간에 저장시켰던 Customer Data를 프로세스 패널로 드래그 앤 드롭합니다.출력포트와 결과포트를 연결시켜주고 실행 버튼을 눌러줍니다.(F11 키를 이용해서도 프로세스 실행 가능!!)출력 결과는 테이블 형태로 나오게 됩니다.왼쪽하단, 데이터는 총 996개의 Examples와 4개의 regular attributes, 1개의 special attribute로 구성되어 있는걸 확인할 수 있습니다.녹색 배경을 띄고 있는 칼럼("Churn")이 special attribute로 예측하고자 하는 칼럼을 의미합니다.특정 칼럼을 한 번 클릭하면 오름차순 정렬, 두 번 클릭하면 내림차순 정렬, 세 번 클릭하면 원래 데이터 상태로 돌아오게 됩니다.우측 상단에는 데이터를 필터 할 수 있는 기능이 있습니다.("all", "no_missing_attributes", "missing_attributes", "no_missing_labels", "missing_labels")저희는 label 값이 missing인 데이터만 가져오기 위해 missing_labels를 선택해줍니다.오른쪽 화면과 같이 "Churn"이 missing인 데이터만 가져오는 것을 확인할 수 있습니다.2. Statistics Tab그럼 Data 탭 아래에 있는 Statistics 탭을 클릭해 볼까요?Statistics 탭에서는 몇 가지 기본통계함수를 제공합니다.("Data Type", "missing value", "Min", "Max", "Average")맨 위의 Churn 칼럼을 보면 96개의 missing value가 존재하고Age 칼럼은 최솟값이 17이고 최댓값이 91이라는 기본적인 통계정보를 얻을 수 있습니다.각 칼럼 이름 옆을 보면 파란색 화살표가 보입니다.파란색 화살표를 클릭하면 칼럼에 대한 분포 그래프를 제공해 줍니다.Age를 클릭해 봅시다.Age를 클릭하면 미니차트가 표시되며히스토그램을 통해 데이터가 어떻게 분포되어있는지를 보여줍니다.더 자세한 그래프를 보고싶다면 히스토그램 하단의 Open Visualization을 클릭해줍니다.3. Visualizaion TabStatistics 탭에서 Visualizaion 탭으로 이동한 것을 확인할 수 있습니다.해당 칼럼의 변화를 주고 싶다면 왼쪽상단의 Plot 설정을 변경해주면 됩니다.그렇다면 Age 칼럼과 LastTransaction 칼럼의 데이터 분포를 함께 비교하고 싶은 경우 어떻게 하면 될까요?왼쪽 상단의 Value columns를 클릭한 뒤 LastTransaction 칼럼을 오른쪽으로 이동시켜주고 Apply 버튼을 눌러주면 됩니다.다음과 같이 두 칼럼의 히스토그램이 함께 그려지게 됩니다.히스토그램의 막대 개수도 Number of bins 옵션을 바꿔줌으로서 조정이 가능합니다.Plot type 옵션에서는 여러가지 차트 유형들을 제공하고 있습니다.히스토그램, 파이차트, 박스플롯 등 분석가가 원하는 차트 유형으로 손쉽게 바꿀 수 있습니다.오른쪽 화면은 Scatter 차트로 변경시켜 준 것입니다.그렇다면 Label 값이 LastTransaction, Age 칼럼과 어떤 연관이 있을까요?Scatter Plot을 통해 함께 알아보도록 하겠습니다!!X-Axis column을 Age로 바꿔주고 Value columns를 클릭하여 오른쪽에 있는 Age를 왼쪽으로 이동시켜 줍니다.마지막으로 Color에는 Churn을 지정해줍니다.Plot을 자세히 보면 왼쪽 하단이의 고객이 충성도가 높은 것을 확인할 수 있습니다.즉, 나이가 어리고 마지막 트랜잭션이 짧을 수록 고객의 충성도가 높다는 것을 그래프를 통해서 알 수 있었습니다.래피드마이너를 통해 그린 그래프들은우측상단 드롭다운 메뉴를 통해서 PNG 또는 JPG 파일로 저장할 수 있습니다.지금까지 데이터 시각화하는 방법에 대해 알아보았습니다.더 자세한 기능이 궁금하시다면플랜투비즈니스컨설팅에 문의해주세요~~~!!