파이썬 데이터셋에 관하여 질문드립니다.
Q1). 아래의 데이터셋을 이용한 소스를 알려주시면 감사드리겠습니다.
Q2). Q1의 해당소스를 분석하여 설명해주시면 감사드리겠습니다.
seaborn 패키지의 brain_networks
- 데이터 읽어오기-
import seaborn as sns
dataset = sns.loaddataset('brainnetworks')
dataset.head()
sklearn 패키지의 당뇨병 diabetes
당뇨병 환자 각각에 대한 기준 변수, 나이, 성별, 체질량 지수, 평균 혈압, 혈청 6개 측정치를 10개 얻었으며, 기준 1년 후 질병 진행의 정량적 척도 관심 반응도 얻은 자료이다.
Samples total: 442
Dimensionality: 10
Features: real, -.2 < x <2
Targets: integer 25 – 346
- 데이터 읽어 오기 -
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
print(diabetes.data.shape)
우선 데이터의 형태에 따라 어떤 종류의 그래프를 사용하는 것이 좋은지 알아보겠습니다.
1차원 데이터 + 실수값, 실수 분포 플롯
-> 커너밀도, 러그, rugplot, kdeplot, distplot카테고리별 데이터의 양 확인
-> countplot다차원 데이터 (변수가 여러 개)
-> 2차원 실수형 데이터 : 스캐터 플롯(jointplot)
-> 3차원 이상의 실수형 데이터 : pairplot(그리드 형태로 출력)
-> 만약 카테고리형이 포함되어 있으면 hue 속성 활용
-> 2차원 카테고리형 데이터 : heatmap이런 식으로 각 데이터의 형태나 자신이 보고 싶은 그림에 맞는 plot을 그려주는 것이 중요합니다.