목록Kaggle (4)
습관처럼
4.4.2 Binning : Binning/Converting Numerical Age to Categorical Variable feature vector map: child: 0 young: 1 adult: 2 mid-age: 3 senior: 4 4.5 Embarked 4.5.1 filling missing values >>more than 50% of 1st class are from S embark >>more than 50% of 2nd class are from S embark >>more than 50% of 3rd class are from S embark fill out missing embark with S embark 4.6 Fare 4.7 Cabin 4.8 FamilySize 5...
이번에는 Titanic에서 Feature Engineering을 해보도록 하겠습니다~ 4.Feature Engineering Feature engineering is the process of using domain knowledge of the data to create features (feature vectors) that make machine learning algorithms work. feature vector is an n-dimensional vector of numerical features that represent some object. Many algorithms in machine learning require a numerical representation of objects,..
두번째는 Visualization을 통해서 자료를 해석해보도록 하겠습니다. ~ 자료는 Kaggle의 Titanic Data Machine Learning 과정을 토대로 작성하고 있습니다.!! 다음의 카테고리를 토대로 Data Feature를 분석하기 위해 bar_chart 함수를 만들어 사용합니다~ Python으로 처음 Data Featuring을 하는 과정을 상세히 설명해보도록 하겠습니다. 먼저 Titanic Disaster에서는 'Survived', 'Dead'로 나뉘기 때문에 특징 분류를 ['Survived','Dead']로 설정하여 진행합니다. Survivied = train[train['Survived']==1][feature].value_counts() >> Survived==1 중에서 fea..
python에서 데이터를 분석을 하기 위해서 가장 먼저 Data set을 CSV파일 등으로 가지고 와야 한다. 여기서 첫 번째 문법을 알려드리겠습니다.~ Pandas를 이용한 CSV File Read 이렇게 불러온 train, test 파일을 토대로 데이터가 어떠한 정보를 담고 있는지 확인해야겠죠? 그럼 확인해보도록 할게요. 여기서는 head 등의 파일의 구성에 대해 엿볼겁니다. pd_name(Pandas_name).head(number) >>head(self, n=5) DataFrame 내의 처음 n줄의 데이터를 출력합니다. 이 메서드(method)는 객체 안에 제대로된 데이터 타입이 입력되어있는지 빠르게 확인할 경우 사용하면 매우 유용하다. n의 값의 기본값은 5이며 아무 입력이 없을 경우 5줄을 기..