끄적이는 기록일지

[머신러닝] 1.자료형태_(3) 수치형 자료 본문

AI실무

[머신러닝] 1.자료형태_(3) 수치형 자료

시시나브로 2021. 9. 12. 21:24
728x90
 

[머신러닝] 1.자료형태_(2) 범주형 자료

[머신러닝] 1.자료형태_(1) * 머신러닝 : 데이터 자료를 바탕으로 수행하는 분석방식 → 자료의 형태를 파악하는 것은 머신러닝의 필수 과정이라 할 수 있습니다. 1. 자료형태 ① 수치형 자료(Numeric

kcy51156.tistory.com

1. 수치형 자료 

① 연속형 자료

- 연속적인 관측값을 가짐

- 원주율(3.14159265···), 시간(19:12:23.21···)

② 이산형 자료

- 셀 수 있는 관측값을 가짐

- 편지 글자 수, 남은 물건 개수 등

2. 수치형 자료 요약

- 범주형 자료와 달리 수치로 구성되어 있기에 통계값을 사용한 요약이 가능함

- 시각적 자료로는 이론적 근거 제시가 쉽지 않은 단점을 보완함

≫ 많은 양의 자료 → 의미 있는 수치로 요약 → 대략적인 분포상태 파악가능

3. 수치형 자료 표현방법

① 평균

- 수치형 자료의 통계값 중 가장 많이 사용되는 방법(통계 수치로도 많이 사용)

- 관측값의 산술평균으로 사용

- 모든 관측값의 합을 자료의 개수로 나눈 것

- 평균 = 모든 관측값의 합계 / 총 자료의 개수

- 극단적으로 큰값이나 작은 값의 영향을 많이 받음(=퍼진 정도)

A에서 C로 갈수록 분산이 커진다.

② 분산

from statistics import variance
variance()

- 자료가 얼마나 흩어졌는지 숫자로 표현

- 각 관측값이 자료의 평균으로부터 떨어진 정도

③ 표준편차

form statistics import stdev
stdev()

분산의 단위 = 관측값의 단위의 제곱
분산의 양의 제곱근은 관측값과 단위가 일치

④ 히스토그램

plt.hist()

- 수치형 자료를 일정한 범위를 갖는 범주로 나누고 막대그래프와 같은 방식으로 그림

- 자료의 분포를 알 수 있음

- 도수, 상대도수를 막대 높이로 그림

 

* 도수 비교 ≫ 범주(막대그래프), 수치(히스토그램)

3. 실습

피곤할 때 많이 찾게 되는 커피, 커피 전문점 마다 같은 Tall 사이즈라도 카페인 함량(mg/cup)이 다르다는 것, 알고 계셨나요?

아래는 카페 별 카페인 함량 정보를 나타낸 표 입니다.

카페 카페인 함량 카페 카페인 함량
커빈피 202           빽방다 177
스벅타스 121        할스리 148
디야이 89            동네카페 121
투썸플이레스 137  엔제너리스 158

과연 커피 한 잔 당 평균적으로 얼마나 카페인이 들어있을까요? 산술평균을 계산해서 확인해봅시다.

 

1. coffee에 저장된 카페인 함량 값들의 평균을 계산하여 cf_mean 에 저장해봅시다.

import numpy as np


coffee = np.array([202,177,121,148,89,121,137,158])

"""
1. 평균계산
"""
cf_mean = np.mean(coffee)
#cf_mean = coffee.mean()


# 소수점 둘째 자리까지 반올림하여 출력합니다. 
print("Mean :", round(cf_mean,2))



>> Mean : 144.12

2. coffee에 저장된 카페인 함량 값들의 표준편차를 계산해서 cf_std 에 저장해서 확인해봅시다.

from statistics import stdev
import numpy as np

coffee = np.array([202,177,121,148,89,121,137,158])

"""
1. 표준편차 계산
"""
cf_std = stdev(coffee)

# 소수점 둘째 자리까지 반올림하여 출력합니다. 
print("Sample std.Dev : ", round(cf_std,2))



>> Sample std.Dev :  35.44

3. 히스토그램을 그려 시각화하여 출력하시오

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 카페인 데이터
coffee = np.array([202,177,121,148,89,121,137,158])

fig, ax = plt.subplots()

"""
1. 히스토그램을 그리는 코드를 작성해 주세요
"""
#bins: 히스토그램을 구성하는 계급의 개수
plt.hist(coffee)
plt.show()
plt.hist(coffee, bins = 5)
plt.show()

* bins: 히스토그램을 구성하는 계급의 개수

728x90
Comments