250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 퍼셉트론
- 평가용 데이터
- 뉴런 신경망
- 수치형 자료
- 분류 머신러닝 모델
- 딥러닝 역사
- 데이터 전 처리
- 스케이링
- 데이터 분리
- MSEE
- 다중선형 회귀
- 불순도
- 수치 맵핑 기법
- 이상치 처리
- 회귀 알고리즘 평가
- 지도학습
- 학습용데이터
- 결측값 처리
- 웹 크롤링
- 경사하강법
- 명목형
- 지니 불순도
- LinearRegression 모델
- ICDL 파이썬
- 가중치 업데이트
- 머신러닝 과정
- 알고리즘 기술
- 지도학습 분류
- 항공지연
- 더미 기법
Archives
- Today
- Total
끄적이는 기록일지
[머신러닝] 02.데이터 전처리_(3) 수치형 자료 본문
728x90
지난 글에서 수치형 자료에 대해 알아보았습니다. 이번 시간에는 수치형 자료를 어떻게 하면 더 좋은 데이터를 만들 수 있는지에 대해 알아보겠습니다.
1. 수치형 자료
- 크기를 갖는 수치형 값으로 이루어진 데이터
- 바로 사용이 가능하나 모델 성능을 높이기 위해서 데이터 변환이 필요
2. 수치형 자료 변환 방식
1) 스케일링(Scaling): 정규화, 표준화
- 변수 값의 범위 및 크기를 변환하는 방식
- 변수 간의 범위 차이가 나면 사용
① 정규화(Normalization) : 변수 X를 정규화하면 값 X'
- 0~100사이라면, 1-0 / 100-0 = 0.01
② 표준화(Standardization) : 변수 X를 표준화한 값 X'
2) 범주화
- 대표적으로 회귀분석에서 분류 분서그로 문제를 변형하고 싶을 때 사용
3. 실습
* 수치형 자료 : 다른 수치형 자료와 범위를 맞추기 위해 정규화 또는 표준화를 수행
1. normal 함수를 완성하고 Fare 데이터를 정규화하여 Fare에 저장합니다.
import pandas as pd
"""
1. 정규화를 수행하는 함수를 구현
min(), max() 메서드 이용
"""
def normal(data):
data = (data-data.min())/(data.max()-data.min())
return data
# 데이터를 읽어옵니다.
titanic = pd.read_csv('titanic.csv')
print('변환 전: \n',titanic['Fare'].head())
# normal 함수를 사용하여 정규화합니다.
Fare = normal(titanic['Fare'])
# 변환한 Fare 데이터를 출력합니다.
print('\n변환 후: \n',Fare.head())
>>> 변환 전:
0 7.2500
1 71.2833
2 7.9250
3 53.1000
4 8.0500
Name: Fare, dtype: float64
변환 후:
0 0.014151
1 0.139136
2 0.015469
3 0.103644
4 0.015713
Name: Fare, dtype: float64
2. standard 함수를 완성하고 Fare 데이터를 표준화하여 Fare에 저장합니다.
import pandas as pd
"""
1. 표준화를 수행하는 함수를 구현
mean()평균, std()표준편차 메서드를 사용
"""
def standard(data):
data = (data-data.mean())/data.std()
return data
# 데이터를 읽어옵니다.
titanic = pd.read_csv('titanic.csv')
print('변환 전: \n',titanic['Fare'].head())
# standard 함수를 사용하여 표준화합니다.
Fare = standard(titanic['Fare'])
# 변환한 Fare 데이터를 출력합니다.
print('\n변환 후: \n',Fare.head())
>>> 변환 전:
0 7.2500
1 71.2833
2 7.9250
3 53.1000
4 8.0500
Name: Fare, dtype: float64
변환 후:
0 -0.502163
1 0.786404
2 -0.488580
3 0.420494
4 -0.486064
Name: Fare, dtype: float64
728x90
'AI실무' 카테고리의 다른 글
[머신러닝] 03.지도학습-회귀_(1) 회귀 (0) | 2021.09.25 |
---|---|
[머신러닝] 02.데이터 전처리_(4) 데이터 정제 및 분리 (1) | 2021.09.15 |
[머신러닝] 02.데이터 전처리_(2) 범주형 자료 (0) | 2021.09.13 |
[머신러닝] 02.데이터 전처리_(1) 머신러닝 이해 (0) | 2021.09.13 |
[머신러닝] 1.자료형태_(3) 수치형 자료 (0) | 2021.09.12 |
Comments