습관처럼
Kaggle - Titanic(1) 본문
python에서 데이터를 분석을 하기 위해서 가장 먼저 Data set을 CSV파일 등으로 가지고 와야 한다.
여기서 첫 번째 문법을 알려드리겠습니다.~
Pandas를 이용한 CSV File Read
이렇게 불러온 train, test 파일을 토대로 데이터가 어떠한 정보를 담고 있는지 확인해야겠죠? 그럼 확인해보도록 할게요. 여기서는 head 등의 파일의 구성에 대해 엿볼겁니다.
pd_name(Pandas_name).head(number) >>head(self, n=5)
DataFrame 내의 처음 n줄의 데이터를 출력합니다. 이 메서드(method)는 객체 안에 제대로된 데이터 타입이 입력되어있는지 빠르게 확인할 경우 사용하면 매우 유용하다. n의 값의 기본값은 5이며 아무 입력이 없을 경우 5줄을 기본으로 출력한다.
pd_name(Pandas_name).tail() >> tail(self, n=5)
DataFrame 내의 마지막 n줄의 데이터를 출력한다.
이 메서드(method) head와 마찬가지로 객체 내에 데이터 타입 확인하는데 유용하다.
또한 데이터를 정렬 하거나 혹은 데이터를 추가했을 경우 결과를 확인하는데에도 매우 유용하다.
n의 값은 마찬가지로 5이며 아무 입력이 없을 경우 5줄을 기본으로 출력한다.
print(pd_name(Pandas_name))
위에서 언급한 head, tail 메서드 말고도 파이썬에서 제공하는 print함수를 사용하는 방법 역시 존재한다.
하지만 광대한 데이터를 취급할 수 있는 pandas의 특성상 취급하는 데이터의 수가 많아지면 데이터를 출력할때 요약하여 출력하게 된다.
pd_name(Pandas_name).info()
pd_name(Pandas_name).shape
pd_name(Pandas_name).index
그 다음으로 중요한 점은 NULL이 포함되어 있는 자료를 확인하는 것입니다. 따라서 우리는 isnull()에 sum() 함수를 추가하여 얼만큼의 null이 있는지 확인할 것입니다.
pd_name(Pandas_name).isnull().sum()
이처럼 자료에 대한 정보를 살펴볼 수 있습니다~ 해당 과정은 Kaggle의 Titanic을 토대로 작성하고 있습니다~
Kaggle Titanic : https://www.kaggle.com/c/titanic
'Kaggle' 카테고리의 다른 글
Kaggle - Titanic(4) (0) | 2020.04.01 |
---|---|
Kaggle - Titanic(3) (0) | 2020.03.02 |
Kaggle - Titanic(2) (0) | 2020.03.02 |