[1주차] 파이썬을 활용한 데이터 분석
<환경 설정>
1. 파이썬
2. 아나콘다: 분석을 도와줄 패키지매니징 플랫폼
3. 파이썬 라이브러리: 파이썬에서 관련있는 기능들의 묶음 모듈, 패키지 등등의 묶음을 라이브러리
## 파이썬 기초 문법 복습##
<변수 & 기본연산>
1. 변수: 데이터를 저장하는 곳
'=' 연산자는 왼쪽 변수에 오른쪽 값을 저장하겠다는 의미 * 수학에서의 '='연산자와 의미가 다름.
2. 자료형
- 리스트: '[]' 를 사용한 값
-> append를 사용하여 리스트의 마지막 인덱스 다음에 해당 값을 넣는다.
ex) list2.append('banana')
-> append를 통해 리스트 또한 append 시킬수 있다.
- 딕셔너리: '{}' 를 사용한 값
-> hash처럼 key와 value를 mapping하여 이뤄진 자료형
3. 조건문
- if 문: 조건을 만족하면 해당 문장을 실행
ex) if age >= 20:
실행문
else:
실행문
*파이썬에서 else if 는 'elif 조건문:'으로 사용
## 데이터 분석 ##
<데이터 불러오고 정제하기 >
1. pandas를 통해 csv or excel 파일을 불러온다.
2. pandas를 통해 불러온 파일을 변수에 저장한 후, 해당 파일의 열 분석
ex) chicken07['연령대']: 이런식으로 파일의 열을 불러옴
3. 다양한 csv 한번에 합칠 경우, pandas에서 제공하는 concat함수 사용
ex) chicken_data = pd.concat([chicken07, chicken08, chicken09])
4. 합친 index의 값을 새로 정해줄 경우, reset_index를 사용
ex) chicken_data= chicken_data.reset_index(drop=True)
=> 이때, drop = True를 사용하면 기존의 index drop 됨
<데이터 불러오고 가공하기 >
1. 원하는 데이터의 컬럼의 오름차순 혹은 내림차순으로 정렬한다.
-> sum_of_calls_by_week = chicken_data.groupby('요일')['통화건수'].sum().sort_values(ascending = True)
2. 원하는 index의 순서로 정렬한다.
-> weeks = ['월', '화' , '수', '목', '금', '토', '일']
sum_of_calls_by_weeks = chicken_data.groupby('요일')['통화건수'].sum().reindex(weeks)
## 데이터 시각화 ##
<그래프 그리기>
1. matplot 라이브러리 불러오기
-> import matplotlib.pyplot as plt
2. 그래프를 그릴 figure의 size 지정
-> plt.figure(figsize=(8,5,))
3. 그래프의 x, y 축 지정해주기
-> plt.bar(sum_of_calls_by_week.index, sum_of_calls_by_week)
4. 그래프의 제목 지정
-> plt.title("요일에 따른 치킨 주문량 합계")
5. plt show 불러오기
-> plt.show()