Python

    [Pandas] DataFrame 데이터 삭제

    [Pandas] DataFrame 데이터 삭제

    DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise') * = None 이라 표시된 것은 '='으로 어떤 값을 할당하는게 아니란 의미! 즉, labels 옵션은 그냥 어떠한 값을 적어주면 된다. ex) 'Pclass' 이중 가장 중요한 파라미터는 labels, axis, inplace이다. 1. labels 데이터프레임에서 제거할 (컬럼의)컬럼명이나 (특정 로우를 가리키는) 인덱스를 넣어주는 파라미터. 2. axis axis=0을 입력하면, DataFrame의 특정 로우를 드롭하고자 하는것. -> 이상치를 제거하고자할 때 가끔 쓰임. axis=1을 입력하면, DataFram..

    [DataFrame] 특정 문자와 일치하는 행 추출 및 제거하기

    [DataFrame] 특정 문자와 일치하는 행 추출 및 제거하기

    해당 데이터는 공공데이터 포털 사이트에서 가져온 데이터입니다. 자주 사용하는데 자꾸 까먹어서 쓸 때마다 인터넷에 구글링하는 시간들이 아까워서 정리해놓으려 한다.. 추출 '신호등 종류'라는 컬럼에서 '보행등'과 일치하는 행만 추출하고자한다면! 한 줄로 해결 완료! 삭제 데이터 프레임에서 특정 문자열이 있는 행을 삭제하고자 할 때는 위에서 추출한 행들의 index를 이용한다. 아래의 코드는, 데이터프레임의 '신호등 종류'라는 컬럼에서 '버스'라는 문자열 값이 있는 행들만 추출하여 그 행들의 index들을 이용해서! drop 함수로 제거하는 내용이다. # idx는 '버스'와 일치하는 문자열인 행들의 인덱스 번호가 저장된다. idx = traffic_light[traffic_light['신호등 종류'] == '..

    [colab] 8. colab으로 Iris 데이터 활용하기

    [colab] 8. colab으로 Iris 데이터 활용하기

    Iris 데이터셋은 데이터셋을 활용하는 실습에서 다들 한번 씩 해봤을 법한 입문용 데이터셋이다. iris는 붓꽃이라는 꽃인데, 붓꽃에는 여러가지의 품종이 있다. 이 꽃의 품종을 Iris 데이터셋에 있는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비를 기반으로 예측하는 것이다. 우리는 지도학습의 대표적인 예인 분류 방법을 이용할 것이다. 그래서 학습을 위해 주어지는 데이터 세트 (학습 데이터)와 머신러닝 모델의 예측 성능을 평가하기 위해 주어지는 데이터 세트 (테스트 데이터)가 있어야 한다. 먼저 load_iris() 함수로 iris dataset을 가져오는데, 그 데이터셋 구성을 설명하겠다. iris 데이터 셋 구성 (iris['필드명']으로 볼 수 있다.) DESCR : 데이터셋의 정보를 보여준다. dat..

    [colab] 7. colab으로 scikit-learn 모듈 사용하기(Linear SVC)

    [colab] 7. colab으로 scikit-learn 모듈 사용하기(Linear SVC)

    scikit-learn 이라는 사이트에는 좋은 알고리즘 모듈들을 매우 많이 제공한다. (https://scikit-learn.org) 대표적인 파이썬 머신러닝 프레임워크로, - 다양한 머신러닝 알고리즘 - 샘플 데이터 - 머신러닝 결과를 검증하는 기능 (가설 검증 혹은 가설을 세운뒤 모델이 산출한 결과를 검증) 등을 제공한다. BSD 라이선스이기 떄문에 무료로 사용할 수 있고 배포까지 가능하다는 점이 큰 장점이다. 그리고 scikit-learn에서는 알고리즘 치트 시트(https://scikit-learn.org/stable/tutorial/machine_learning_map/)를 제공한다! 이는 각 데이터 특성에 따라 어떤 알고리즘을 쓰면 좋을지 제안해주는 그림(?)이라 생각하면 된다. 만약 내가 데..

    [colab] 6. 머신러닝

    [colab] 6. 머신러닝

    이제 다음에 다룰 데이터(Iris 데이터와 Titanic 데이터)부터는 실제로 우리가 알고리즘을 사용하여 데이터에 대한 가설을 검증하는 등의 과정을 거칠 것이다. 그전에 머신러닝에 대해 간단히 개념을 짚고 넘어가야겠다. 우선, 현재 데이터 처리가 원초인? 분야에서 많이 거론되는 분야에 대해 적어보겠다. - 인공지능(AI) : 사람의 지능을 모방하여, 사람이 하는 것과 같은 복잡한 일을 할 수 있도록 기계를 만드는 것 - 머신러닝 : 기본적으로 알고리즘을 이용해 데이터를 분석 및 학습하며, 학습한 내용을 기반으로 판단이나 예측하는 것 - 딥러닝 : 인공신경망에서 발전한 형태의 인공지능. 머신러닝 중 하나의 방법론 머신러닝은 데이터(Data)를 기반으로 (알고리즘을 이용해) 패턴(Model)을 학습하여 결과..