유용한 모든 것

    [Github] Repository(레파지토리)에 Git clone/pull/push하기

    [Github] Repository(레파지토리)에 Git clone/pull/push하기

    계속 까먹는 것 같아서 글을 적으면서 머릿속에 기억해두려고 작성한다. Clone, Pull, Push 순서로 적겠다. Clone 원격 저장소에 있는 파일 및 폴더를 다운받고 싶을 때 clone하는 방법이다. 만약 원격 저장소에 있는 파일 및 폴더를 로컬로 다운받고 싶다면 Clone을 한다. 1. 원격 저장소에 있는 파일을 다운받을 폴더로 이동 후, 'Git Bash Here' 클릭 2. 다운받고자 하는 레파지토리의 주소를 복사한다. 'Code' 버튼을 누르면 해당 주소를 복사할 수 있다. 3. Git Bash로 돌아와서 아래 코드를 작성한다. git clone {복사한 레파지토리 주소} 예) $ git clone https://github.com/BananMoon/My-Project.git 4. 다운받은..

    단순회귀, 다중회귀, 다항회귀

    단순회귀, 다중회귀, 다항회귀

    이번 글에서는 회귀의 첫 시작이자 개념에 대한 정리 글이다. 깊게 다루지는 않겠다. 1. 회귀 (Regression) 1.1 회귀? Y=f(X)에 대하여 입력 변수(X)와 출력 변수(Y) 간의 관계를 모델링하는 지도학습의 대표적인 유형 여기에, 오차 e를 추가하는데, 실제 데이터에 존재할 수 있는 잡음 혹은 유실 발생에 대응하고자 입력 변수 X에 대해 연속형 출력변수 Y를 예측 (분류에서는 y의 변수: 이산형) 한 변수의 원인이 어떤 변수들인지 분석하는 방법 (즉, 독립변수 Xi와 종속변수 Y) 1.2 회귀의 종류 독립변수의 수에 따라 단순회귀분석, 다중회귀분석 독립변수의 척도에 따라 일반회귀분석, 더미변수를 이용한 회귀분석 독립변수와 종속변수의 관계에 따라 선형회귀분석(직선), 비선형 회귀분석(직선x)..

    데이터 전처리 (2. 피처 스케일링)

    『파이썬 머신러닝 완벽 가이드』 도서를 공부하며 정리한 글입니다. 코드 결과는 직접 실행해보면서 결과를 보시면 좋을 것이라 생각하여 생략하였습니다. 이번 글에서는 피처 스케일링(feature scaling)의 대표적인 방법인 표준화(Standardization)와 정규화(Normalization)에 대해 소개하겠다. 피처 스케일링은 서로 다른 변수(feature)의 값 범위를 일정한 수준으로 맞추는 작업이다. 예를 들어서, 어떤 feature는 -1부터 1 사이의 값으로 구성되어 있고, 다른 feature는 0부터 100 사이의 값으로 구성되어 있는 경우이다. 서로 다른 범위의 변수들을 평균이 0이고 분산이 1인 (가우시안) 정규 분포를 가진 값으로 변환하는 것이 표준화이다. 서로 다른 범위의 변수들의 ..

    28회 ADsP 데이터분석 준전문가 합격 후기

    28회 ADsP 데이터분석 준전문가 합격 후기

    3월 13일에 열린 28회 데이터분석 준전문가(ADsP) 시험을 봤다! 컴공 4학년 입장에서는, 3과목 외에 1,2과목은 정말 외워야할게 많다 느꼈던.. 잘 기억은 안나지만 2월 초부터 시작한 것 같다! 자격증 비용 자체도 부담이 되었어서 인강은 따로 결제 안하고 책으로만 해결했다. 공부를 시작하기 전에 블로그에서 공부후기 같은 것을 많이 찾아본 결과, 민트색 책을 사야겠다 생각해서 민트색에 분철을 해서 결제했다! (잘 찾아보면 중고로 저렴하게 살 수 있다) 일단 제1,2과목은 쌩 암기인데 또 완전 다 암기하는 것에 스트레스 받지 않는 것이 좋은 것 같다. 기출문제를 풀고 시험을 보면서 느낀점: 기출 문제 많이 풀어놓을걸.. 암기해도 기출에는 못본게 나오고, 결국 시험은 (은행문제 형식이라서 기출을 안풀..

    데이터 전처리 (1)

    데이터 전처리 (1)

    『파이썬 머신러닝 완벽 가이드』 도서를 공부하며 정리한 글입니다. 코드 결과는 직접 실행해보면서 결과를 보시면 좋을 것이라 생각하여 생략하였습니다. 데이터 전처리는 ML(머신러닝) 알고리즘만큼 중요하다. 쓰레기를 넣으면 쓰레기가 나온다는 (Garbage in, Garbage out) 말이 있듯이, ML 알고리즘의 성능이 좋더라도, 어떤 데이터를 입력으로 가지느냐에 따라 결과가 매우 크게 달라질 수 있다. 그렇기 때문에 ML알고리즘을 적용하기전에 데이터에 대해 미리 처리해야할 것들이 있다. 1. 결손값(NaN) Null값이라고 하는 것인데, 이는 ML 알고리즘에 허용되지 않는다. 그렇기 때문에 무조건 결측치를 없애줘야하는데, 크게 결측치를 제거하는 방법과 대체하는 방법이 있다. (1) Null값이 얼마 되..

    교차 검증

    교차 검증

    1. 사이킷런 - 사이킷런 기반 프레임워크 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 대표적인 라이브러리이다. 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭한다. (사이킷런에서는 매우 많은 유형의 Classifier와 Regressor 클래스를 제공한다.) Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부른다. (즉, 지도학습의 모든 알고리즘을 구현한 클래스를 Estimator라고 부른다.) Estimator 클래스 (내부)에서 fit()과 predict()를 구현함. - 해당 Estimator를 인자로 받는... cross_val_score()와 같은..