250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 학습용데이터
- 항공지연
- 웹 크롤링
- 수치 맵핑 기법
- 머신러닝 과정
- ICDL 파이썬
- 더미 기법
- LinearRegression 모델
- 지도학습
- 지도학습 분류
- 뉴런 신경망
- 결측값 처리
- 경사하강법
- 다중선형 회귀
- 평가용 데이터
- 데이터 전 처리
- 스케이링
- 가중치 업데이트
- 지니 불순도
- 수치형 자료
- MSEE
- 불순도
- 회귀 알고리즘 평가
- 명목형
- 이상치 처리
- 데이터 분리
- 퍼셉트론
- 알고리즘 기술
- 분류 머신러닝 모델
- 딥러닝 역사
Archives
- Today
- Total
끄적이는 기록일지
[머신러닝] 02.데이터 전처리_(3) 수치형 자료 본문
728x90
[머신러닝] 1.자료형태_(3) 수치형 자료
[머신러닝] 1.자료형태_(2) 범주형 자료 [머신러닝] 1.자료형태_(1) * 머신러닝 : 데이터 자료를 바탕으로 수행하는 분석방식 → 자료의 형태를 파악하는 것은 머신러닝의 필수 과정이라 할 수 있습
kcy51156.tistory.com
지난 글에서 수치형 자료에 대해 알아보았습니다. 이번 시간에는 수치형 자료를 어떻게 하면 더 좋은 데이터를 만들 수 있는지에 대해 알아보겠습니다.
1. 수치형 자료
- 크기를 갖는 수치형 값으로 이루어진 데이터
- 바로 사용이 가능하나 모델 성능을 높이기 위해서 데이터 변환이 필요
2. 수치형 자료 변환 방식
1) 스케일링(Scaling): 정규화, 표준화
- 변수 값의 범위 및 크기를 변환하는 방식
- 변수 간의 범위 차이가 나면 사용
① 정규화(Normalization) : 변수 X를 정규화하면 값 X'
- 0~100사이라면, 1-0 / 100-0 = 0.01
② 표준화(Standardization) : 변수 X를 표준화한 값 X'
2) 범주화
- 대표적으로 회귀분석에서 분류 분서그로 문제를 변형하고 싶을 때 사용
3. 실습
* 수치형 자료 : 다른 수치형 자료와 범위를 맞추기 위해 정규화 또는 표준화를 수행
1. normal 함수를 완성하고 Fare 데이터를 정규화하여 Fare에 저장합니다.
import pandas as pd
"""
1. 정규화를 수행하는 함수를 구현
min(), max() 메서드 이용
"""
def normal(data):
data = (data-data.min())/(data.max()-data.min())
return data
# 데이터를 읽어옵니다.
titanic = pd.read_csv('titanic.csv')
print('변환 전: \n',titanic['Fare'].head())
# normal 함수를 사용하여 정규화합니다.
Fare = normal(titanic['Fare'])
# 변환한 Fare 데이터를 출력합니다.
print('\n변환 후: \n',Fare.head())
>>> 변환 전:
0 7.2500
1 71.2833
2 7.9250
3 53.1000
4 8.0500
Name: Fare, dtype: float64
변환 후:
0 0.014151
1 0.139136
2 0.015469
3 0.103644
4 0.015713
Name: Fare, dtype: float64
2. standard 함수를 완성하고 Fare 데이터를 표준화하여 Fare에 저장합니다.
import pandas as pd
"""
1. 표준화를 수행하는 함수를 구현
mean()평균, std()표준편차 메서드를 사용
"""
def standard(data):
data = (data-data.mean())/data.std()
return data
# 데이터를 읽어옵니다.
titanic = pd.read_csv('titanic.csv')
print('변환 전: \n',titanic['Fare'].head())
# standard 함수를 사용하여 표준화합니다.
Fare = standard(titanic['Fare'])
# 변환한 Fare 데이터를 출력합니다.
print('\n변환 후: \n',Fare.head())
>>> 변환 전:
0 7.2500
1 71.2833
2 7.9250
3 53.1000
4 8.0500
Name: Fare, dtype: float64
변환 후:
0 -0.502163
1 0.786404
2 -0.488580
3 0.420494
4 -0.486064
Name: Fare, dtype: float64
728x90
'AI실무' 카테고리의 다른 글
[머신러닝] 03.지도학습-회귀_(1) 회귀 (0) | 2021.09.25 |
---|---|
[머신러닝] 02.데이터 전처리_(4) 데이터 정제 및 분리 (1) | 2021.09.15 |
[머신러닝] 02.데이터 전처리_(2) 범주형 자료 (0) | 2021.09.13 |
[머신러닝] 02.데이터 전처리_(1) 머신러닝 이해 (0) | 2021.09.13 |
[머신러닝] 1.자료형태_(3) 수치형 자료 (0) | 2021.09.12 |
Comments