본문 바로가기

Dev/인공지능

[헬로 데이터과학] 엑셀로 데이터 과학 맛보기-자동차 데이터 수집, 모양, 색깔

[헬로데이터 과학_김진영_한빛아카데미_80~92 참고]

파일 형태의 데이터를 불러와 테이블 형태로 만든다.

 테이블에 저장된 데이터는 손쉽게 각종 연산을 수행하거나 통계 분석 및 시각화를 수행할 수 있다. 그리고 원본 데이터를 어떤 식으로든 집계해야하는 경우가 많은데, 엑셀에서는 이를 위해 피벗 테이블을 사용한다. 마지막으로 피벗테이블에도 다양한 시각화나 통계 분석을 적용할 수 있다. 

(1) 데이터 수집 

https://github.com/jykim/dbook 에서 mtcars.txt를 메모장으로 연 다음에 엑셀로 복사한다.

ctrl을 눌러 [텍스트 마법사] 클릭

아무 것도 안누르고 바로 [마침] 클릭

 A열 오른쪽에 열 하나 추가

B1 셀에 maker라는 이름을 넣는다.

B2 셀에 =IFERROR(LEFT(A2,FIND(" ",A2)-1)," ") 입력

find(" ", "Mazda RX4") : 6 : 첫번째 단어가 끝나는 위치(1부터 시작)

left("Mazda RX4", 5) : "Mazda" : 왼쪽부터 5개의 글자를 선택한다.

iferror("Mazda"," ") : "Mazda" : 에러 발생상황을 대비해 " " 칸을 넣는다. 

[홈]-[표서식]

 

(2) 데이터 분석 및 시각화

 - 조건부 서식을 이용하면 셀 값에 따라 색상을 변경하거나, 셀 안에 간단한 차트를 넣을 수 있다. 따라서 셀 값의 분포한눈에 확인할 수 있다. 

>> 무게 속성에 조건부 서식 넣어보기

wt 열 전체 선택

[홈]-[조건부 서식 메뉴]-[색조]

두 수치형 변수간의 관계를 시각화 할때는 스케터플롯 차트가 효과적이다.

>> 마력hp, 무게wt 속성간의 스케터 플롯을 그려보자

[삽입]-[분산형]

(3) 데이터 모양(피벗 테이블, 기술통계) _ 데이터 집계하기>> 실린더 및 기어에 따른 연비를 요약해본다. 

 원본 데이터를 분석에 바로 활용하는 경우도 있지만, 많은 경우 데이터를 적절한 형태로 집계하는 과정을 거쳐야 한다.  피벗 테이블은 데이터에 다양한 기준과 연산을 적용하여 집계하는 기능이다. mtcars 데이터 셋에 포함된 차들의 실린더, 모델, 변속기의 사양에 따른 연비를 알고 싶을 때 피벗 테이블을 활용 가능하다. 

ctrl + a 눌러서 데이터 선택

[삽입]-[피벗테이블] 클릭 후 바로 확인을 누른다.

시트가 새로 하나 열린다.

 

 실린더 및 기어 개수에 따른 연비를 한눈에 파악할 수 있다. 피벗 테이블의 값을 바탕으로 피벗 차트를 만들 수 있다.

피벗테이블에 커서를 위치한다.

[삽입]-[세로 막대형] 메뉴- 2차원 세로 막대형

기어 및 실린더 개수에 따른 연비 차트를 볼 수 있다. 피벗차트는 현재 피벗 테이블의 내용을 그대로 시각화하므로, 피벗 테이블을 업데이트하면 차트에 바로 반영된다.

[값 필드 설정]- 평균으로 바꾸면 다음과 같다.

 

(4) 데이터의 색깔

>> 그래프로 2변수의 관계 보기

wt, hp 관계 보기 - 열 선택 - [삽입] - [분산형]

더블 클릭 후 제목 수정 가능

mpg-wt 관계

 

제조사별 mpg, qsec 에 대한 관계 및 차트만들기

 

맞게 한건지 모르겠다........

maker을 행에다가 넣으면 mazta만 나오고 다른건 안나와서 안되었다..