데이터전처리

    데이터 전처리 (1)

    데이터 전처리 (1)

    『파이썬 머신러닝 완벽 가이드』 도서를 공부하며 정리한 글입니다. 코드 결과는 직접 실행해보면서 결과를 보시면 좋을 것이라 생각하여 생략하였습니다. 데이터 전처리는 ML(머신러닝) 알고리즘만큼 중요하다. 쓰레기를 넣으면 쓰레기가 나온다는 (Garbage in, Garbage out) 말이 있듯이, ML 알고리즘의 성능이 좋더라도, 어떤 데이터를 입력으로 가지느냐에 따라 결과가 매우 크게 달라질 수 있다. 그렇기 때문에 ML알고리즘을 적용하기전에 데이터에 대해 미리 처리해야할 것들이 있다. 1. 결손값(NaN) Null값이라고 하는 것인데, 이는 ML 알고리즘에 허용되지 않는다. 그렇기 때문에 무조건 결측치를 없애줘야하는데, 크게 결측치를 제거하는 방법과 대체하는 방법이 있다. (1) Null값이 얼마 되..

    [colab] 3. colab으로 pandas 모듈 사용하기(2)

    앞 글에 이어서 메서드들에 대해 소개하겠다. 기초적인 메서드들일 수 있지만 나중에 자주 쓰일 녀석들이니 한번 공부할 때 꼼꼼히 알아두면 좋을 것 같다. # copy 복사 - DataFrame을 복사할 때 사용한다. 1. 기존 배열을 새로운 변수에 저장한 경우 - 복사본에 변형을 주면 원본에도 변형된다. >>> new_df=df# 새로운 변수에 저장. 복사본 생성. >>> new_df['이름']='김사과'# '이름' 열에 '김사과' 값들이 추가됨. >>> df.head()# 원본인 df에도 반영. name 그룹 소속사 성별 생년월일 키 혈액형 브랜드평판지수 이름 0 지민 방탄소년단 빅히트 남자 1995-10-13 173.6 A 10523260 김사과 1 지드래곤 빅뱅 YG 남자 1988-08-18 177...