Data Analysis/Kaggle
-
Kaggle 랭커로부터 데이터분석 공부하기 (1) - Houses Prices / by SerigneData Analysis/Kaggle 2020. 12. 20. 16:45
나 같은 초심자에겐 Kaggle Ranker 들의 코드를 공부하는 것이 많은 도움이 된다. 오늘은 House Prices -Advanced Regression Techniques 에서 Top 4% 에 해당하는 Serigne님의 코드를 분석하여 데이터분석의 가이드라인을 잡아보고자 한다. SanFrancisco 범죄예측과 다르게 해당 컴페티션은 특징칼럼(벡터)가 80개나 되는데에 비해, 데이터 건수는 1460여개 밖에 되지 않아 필자는 전처리에서 데이터 유실을 피하기 위해 많은 어려움을 겪었다. 1. Index 컬럼 Drop Submit Form 을 보면 'Id' 와 'SalePrice' 컬럼만 제출하게 되어있다. 필자는 'Id' 컬럼을 pd.read_csv("filename",index_col = 'Id'..