# 라이브러리 사용
import pandas as pd
# 파일 읽어오기
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
아이리스 = pd.read_csv(파일경로)
아이리스.head() # 범주형 데이터인 '품종' 컬럼의 값이 string 대신 int로 태깅되어 있는 데이터
# 아래의 표와 같은 head 데이터 출력
# 원핫인코딩 되지 않는 현상 확인
인코딩 = pd.get_dummies(아이리스) # 범주데이터 처리를 위해 원핫인코딩 시도
인코딩.head()
# 아래의 표와 같은, 위의 아이리스.head()와 같은 head 데이터 출력 (원핫인코딩 적용되지 않음)
꽃잎길이
꽃잎폭
꽃받침길이
꽃받침폭
품종
0
5.1
3.5
1.4
0.2
0
1
4.9
3.0
1.4
0.2
0
2
4.7
3.2
1.3
0.2
0
3
4.6
3.1
1.5
0.2
0
4
5.0
3.6
1.4
0.2
0
pandas에서 read_csv로 데이터를 읽어올 때, 값이 숫자(int, float)라면 숫자 데이터로 인식하기 때문
pandas는 컬럼의 데이터 타입이 category, object인 경우에만 원핫인코딩을 적용