본문 바로가기

카테고리 없음

[AI-1] Git, EDA, Markdown, 데이터셋 불러오기

Git

https://youtu.be/Bd35Ze7-dIw

 

1. 버전 관리

2. 협업

 

$ cd (폴더 디렉토리)

$ git init

$ git add -A

$ git commit -m "(작업수행 내용)"

 

- 이제까지 박제 내역 확인

$ git logs

 

- 박제됐던 과거의 상태로 복원

$ git reset --hard (3r8da0)

 

- 분기

$ git branch "(브랜치명)"

 

- 메인 브랜치에 머지

$ git merge "(브랜치명)"

 

Github

- 저장되는 공간을 제공하는 서비스

 

- repository를 fork

-- repository는 git에서 폴더를 뜻하는 단어

-- fork는 해당 repo(폴더와 파일들)를 개인 github repo로 복사하는 것

 

EDA(Exploratory Data Analysis)

https://youtu.be/NEvuulahg2g

 

- understaning data using visualization and statistical tools.

- initial interaction with data.

- assess and validate assumptions.

- understand the data before performing and intelligent hypothesis.

- can generate better hyothesis, determine which variables have the most predictive power, and select appropriate statistical tools to build our predictive models.

- 탐색적 데이터 분석

- 데이터 분석의 한 종류

- 복잡한 모델링이나 수식을 쓰지 않고

- 탐색하는 것이 주목적

 

Markdown

https://youtu.be/kMEb_BzyUqk

 

- .md 확장자파일

- PR(Pull Request) 설명 작성할 때도 사용

 

<!-- Heading -->

# (Heading 1)

## (Heading 2)

### (Heading 3)

#### (Heading 4)

##### (Heading 5)

###### (Heading 6)

 

<!-- Line -->

___

 

<!-- Text attributes -->

- 볼드체

**(원하는 단어)**

- 이탈릭

*(원하는 단어)*

- strikethrough

~~(원하는 단어)~~

 

<!-- Quote -->

> (원하는 문장)

 

<!-- Bullet list -->

 

<!-- Numbered list -->

1. 

2. 

 

<!-- Link -->

[(원하는 단어나 문장)]((원하는 링크))

 

<!-- Image -->

![(이미지에 대한 설명)]((이미지 링크))

 

<!-- Table -->

|(셀 내용)|(셀 내용)|

|--|--|

|(셀 내용)|(셀 내용)|

|(셀 내용)|(셀 내용)|

- 각각 오른쪽 정렬

|(셀 내용)|(셀 내용)|

|--:|--:|

|(셀 내용)|(셀 내용)|

|(셀 내용)|(셀 내용)|

- 각각 왼쪽 정렬

|(셀 내용)|(셀 내용)|

|:--|:--|

|(셀 내용)|(셀 내용)|

|(셀 내용)|(셀 내용)|

- 각각 가운데 정렬

|(셀 내용)|(셀 내용)|

|:--:|:--:|

|(셀 내용)|(셀 내용)|

|(셀 내용)|(셀 내용)|

 

<!-- Code -->

`(코드)`

```(해당 코드의 언어)

(코드)

```

CSV(comma separated values)

- 데이터 내부에 ,가 들어간 경우에 문제 발생 가능성

- feature의 구분이 반드시 ','로 이루어 지지 않으며

- ';', '\t(tab)', '.' 등 다양한 방법 존재

 

데이터셋을 불러오기 위한 단계

- Description 통해 데이터셋에 대한 정보 파악

-- 행과 열의 수

-- 열에 헤더가 있는지 ("데이터 이름"이 있는지)

-- 결측 데이터 (Missing data)가 있는지

-- 원본 파일 열어보기

- URL을 통해서 불러오기

import pandas as pd

ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv'
df = pd.read_csv(ktng_data_url)

print(df.head())   # viewing the first 5 lines
print(df.shape)   # the dimensionality of  the DataFrame

- 구글 코랩 파일 업로드 패키지

from google.colab import files
uploaded = files.upload()