250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 데이터 분리
- 데이터 전 처리
- 알고리즘 기술
- 가중치 업데이트
- 결측값 처리
- 퍼셉트론
- 지니 불순도
- 머신러닝 과정
- 웹 크롤링
- 회귀 알고리즘 평가
- MSEE
- 경사하강법
- 평가용 데이터
- ICDL 파이썬
- 더미 기법
- 분류 머신러닝 모델
- 다중선형 회귀
- 이상치 처리
- 학습용데이터
- 지도학습 분류
- 뉴런 신경망
- LinearRegression 모델
- 수치형 자료
- 딥러닝 역사
- 항공지연
- 명목형
- 지도학습
- 불순도
- 스케이링
- 수치 맵핑 기법
Archives
- Today
- Total
끄적이는 기록일지
[머신러닝] 1.자료형태_(3) 수치형 자료 본문
728x90
1. 수치형 자료
① 연속형 자료
- 연속적인 관측값을 가짐
- 원주율(3.14159265···), 시간(19:12:23.21···)
② 이산형 자료
- 셀 수 있는 관측값을 가짐
- 편지 글자 수, 남은 물건 개수 등
2. 수치형 자료 요약
- 범주형 자료와 달리 수치로 구성되어 있기에 통계값을 사용한 요약이 가능함
- 시각적 자료로는 이론적 근거 제시가 쉽지 않은 단점을 보완함
≫ 많은 양의 자료 → 의미 있는 수치로 요약 → 대략적인 분포상태 파악가능
3. 수치형 자료 표현방법
① 평균
- 수치형 자료의 통계값 중 가장 많이 사용되는 방법(통계 수치로도 많이 사용)
- 관측값의 산술평균으로 사용
- 모든 관측값의 합을 자료의 개수로 나눈 것
- 평균 = 모든 관측값의 합계 / 총 자료의 개수
- 극단적으로 큰값이나 작은 값의 영향을 많이 받음(=퍼진 정도)
② 분산
from statistics import variance
variance()
- 자료가 얼마나 흩어졌는지 숫자로 표현
- 각 관측값이 자료의 평균으로부터 떨어진 정도
③ 표준편차
form statistics import stdev
stdev()
분산의 단위 = 관측값의 단위의 제곱
분산의 양의 제곱근은 관측값과 단위가 일치
④ 히스토그램
plt.hist()
- 수치형 자료를 일정한 범위를 갖는 범주로 나누고 막대그래프와 같은 방식으로 그림
- 자료의 분포를 알 수 있음
- 도수, 상대도수를 막대 높이로 그림
* 도수 비교 ≫ 범주(막대그래프), 수치(히스토그램)
3. 실습
피곤할 때 많이 찾게 되는 커피, 커피 전문점 마다 같은 Tall 사이즈라도 카페인 함량(mg/cup)이 다르다는 것, 알고 계셨나요?
아래는 카페 별 카페인 함량 정보를 나타낸 표 입니다.
카페 카페인 함량 카페 카페인 함량
커빈피 202 빽방다 177
스벅타스 121 할스리 148
디야이 89 동네카페 121
투썸플이레스 137 엔제너리스 158
과연 커피 한 잔 당 평균적으로 얼마나 카페인이 들어있을까요? 산술평균을 계산해서 확인해봅시다.
1. coffee에 저장된 카페인 함량 값들의 평균을 계산하여 cf_mean 에 저장해봅시다.
import numpy as np
coffee = np.array([202,177,121,148,89,121,137,158])
"""
1. 평균계산
"""
cf_mean = np.mean(coffee)
#cf_mean = coffee.mean()
# 소수점 둘째 자리까지 반올림하여 출력합니다.
print("Mean :", round(cf_mean,2))
>> Mean : 144.12
2. coffee에 저장된 카페인 함량 값들의 표준편차를 계산해서 cf_std 에 저장해서 확인해봅시다.
from statistics import stdev
import numpy as np
coffee = np.array([202,177,121,148,89,121,137,158])
"""
1. 표준편차 계산
"""
cf_std = stdev(coffee)
# 소수점 둘째 자리까지 반올림하여 출력합니다.
print("Sample std.Dev : ", round(cf_std,2))
>> Sample std.Dev : 35.44
3. 히스토그램을 그려 시각화하여 출력하시오
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 카페인 데이터
coffee = np.array([202,177,121,148,89,121,137,158])
fig, ax = plt.subplots()
"""
1. 히스토그램을 그리는 코드를 작성해 주세요
"""
#bins: 히스토그램을 구성하는 계급의 개수
plt.hist(coffee)
plt.show()
plt.hist(coffee, bins = 5)
plt.show()
* bins: 히스토그램을 구성하는 계급의 개수
728x90
'AI실무' 카테고리의 다른 글
[머신러닝] 02.데이터 전처리_(3) 수치형 자료 (0) | 2021.09.14 |
---|---|
[머신러닝] 02.데이터 전처리_(2) 범주형 자료 (0) | 2021.09.13 |
[머신러닝] 02.데이터 전처리_(1) 머신러닝 이해 (0) | 2021.09.13 |
[머신러닝] 1.자료형태_(2) 범주형 자료 (0) | 2021.09.12 |
[머신러닝] 1.자료형태_(1) (0) | 2021.09.12 |
Comments