습관처럼
Kaggle - Titanic(2) 본문
두번째는 Visualization을 통해서 자료를 해석해보도록 하겠습니다. ~
자료는 Kaggle의 Titanic Data Machine Learning 과정을 토대로 작성하고 있습니다.!!
다음의 카테고리를 토대로 Data Feature를 분석하기 위해 bar_chart 함수를 만들어 사용합니다~
Python으로 처음 Data Featuring을 하는 과정을 상세히 설명해보도록 하겠습니다. 먼저 Titanic Disaster에서는 'Survived', 'Dead'로 나뉘기 때문에 특징 분류를 ['Survived','Dead']로 설정하여 진행합니다.
Survivied = train[train['Survived']==1][feature].value_counts() >> Survived==1 중에서 feature에 해당되는 counting을 진행.
Dead = train[train['Survived']==0][feature].value_counts() >> Survived==0 중에서 feature에 해당되는 counting을 진행.
df = pd.DataFrame([survived, dead]) >> DataFrame을 설정합니다 ['Survived','Dead']
df.index = ['Survived','Dead'] >> survived랑 dead로 인덱스를 설정한다.
df.plot(kind='bar',stacked=True,figsize=(10,5)) >> 종류는 bar , Stacked 방식을 사용 , Figure size는 가로 세로 (10,5)로 설정.
함수의 설정이 끝났으니~ 이제 부터 ['Survived','Dead']를 토대로 각 항목을 시각화 화여 의미를 도출할 것이다.
'Sex'에서 ['Survived','Dead']의 분포도
>> the chart confirms women more likely survived than men
'Pclass'에서 ['Survived','Dead']의 분포도 >>'Sex'에서 ['Survived','Dead']의 분포도
>> The chart confirms 1st class more likely survived than other classes
>> The chart comfirms 3st class more likelt deaded than other classes
'SibSp'에서 ['Survived','Dead']의 분포도 >>'Sex'에서 ['Survived','Dead']의 분포도
>>The Chart confirms a person aboarded with more than 2 siblings or spouse more likely survived
>>The Chart confirms a person aboarded without siblings or spouse more likely dead
'Parch'에서 ['Survived','Dead']의 분포도 >>'Sex'에서 ['Survived','Dead']의 분포도
>>The Chart confirms a person aboarded with more than 2 parents or children more likely survived
>>The Chart confirms a person aboarded alone more likely dead
'Embarked'에서 ['Survived','Dead']의 분포도 >>'Sex'에서 ['Survived','Dead']의 분포도
>>The Chart confirms a person aboarded from C slightly more likely survived
>>The Chart confirms a person aboarded from Q more likely dead
>>The Chart confirms a person aboarded from S more likely dead
이처럼 차트를 통해 각 항목에 대해 의미있는 결과를 도출해보도록 했습니다~
Kaggle : https://www.kaggle.com/c/titanic
'Kaggle' 카테고리의 다른 글
Kaggle - Titanic(4) (0) | 2020.04.01 |
---|---|
Kaggle - Titanic(3) (0) | 2020.03.02 |
Kaggle - Titanic(1) (0) | 2020.03.02 |