Git
1. 버전 관리
2. 협업
$ cd (폴더 디렉토리)
$ git init
$ git add -A
$ git commit -m "(작업수행 내용)"
- 이제까지 박제 내역 확인
$ git logs
- 박제됐던 과거의 상태로 복원
$ git reset --hard (3r8da0)
- 분기
$ git branch "(브랜치명)"
- 메인 브랜치에 머지
$ git merge "(브랜치명)"
Github
- 저장되는 공간을 제공하는 서비스
- repository를 fork
-- repository는 git에서 폴더를 뜻하는 단어
-- fork는 해당 repo(폴더와 파일들)를 개인 github repo로 복사하는 것
EDA(Exploratory Data Analysis)
- understaning data using visualization and statistical tools.
- initial interaction with data.
- assess and validate assumptions.
- understand the data before performing and intelligent hypothesis.
- can generate better hyothesis, determine which variables have the most predictive power, and select appropriate statistical tools to build our predictive models.
- 탐색적 데이터 분석
- 데이터 분석의 한 종류
- 복잡한 모델링이나 수식을 쓰지 않고
- 탐색하는 것이 주목적
Markdown
- .md 확장자파일
- PR(Pull Request) 설명 작성할 때도 사용
<!-- Heading -->
# (Heading 1)
## (Heading 2)
### (Heading 3)
#### (Heading 4)
##### (Heading 5)
###### (Heading 6)
<!-- Line -->
___
<!-- Text attributes -->
- 볼드체
**(원하는 단어)**
- 이탈릭
*(원하는 단어)*
- strikethrough
~~(원하는 단어)~~
<!-- Quote -->
> (원하는 문장)
<!-- Bullet list -->
*
-
<!-- Numbered list -->
1.
2.
<!-- Link -->
[(원하는 단어나 문장)]((원하는 링크))
<!-- Image -->
)
<!-- Table -->
|(셀 내용)|(셀 내용)|
|--|--|
|(셀 내용)|(셀 내용)|
|(셀 내용)|(셀 내용)|
- 각각 오른쪽 정렬
|(셀 내용)|(셀 내용)|
|--:|--:|
|(셀 내용)|(셀 내용)|
|(셀 내용)|(셀 내용)|
- 각각 왼쪽 정렬
|(셀 내용)|(셀 내용)|
|:--|:--|
|(셀 내용)|(셀 내용)|
|(셀 내용)|(셀 내용)|
- 각각 가운데 정렬
|(셀 내용)|(셀 내용)|
|:--:|:--:|
|(셀 내용)|(셀 내용)|
|(셀 내용)|(셀 내용)|
<!-- Code -->
`(코드)`
```(해당 코드의 언어)
(코드)
```
CSV(comma separated values)
- 데이터 내부에 ,가 들어간 경우에 문제 발생 가능성
- feature의 구분이 반드시 ','로 이루어 지지 않으며
- ';', '\t(tab)', '.' 등 다양한 방법 존재
데이터셋을 불러오기 위한 단계
- Description 통해 데이터셋에 대한 정보 파악
-- 행과 열의 수
-- 열에 헤더가 있는지 ("데이터 이름"이 있는지)
-- 결측 데이터 (Missing data)가 있는지
-- 원본 파일 열어보기
- URL을 통해서 불러오기
import pandas as pd
ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv'
df = pd.read_csv(ktng_data_url)
print(df.head()) # viewing the first 5 lines
print(df.shape) # the dimensionality of the DataFrame
- 구글 코랩 파일 업로드 패키지
from google.colab import files
uploaded = files.upload()