PYTHON_Pandas

호기심많은아저씨 ㅣ 2023. 2. 15. 15:12

- 수집

- 저장

- 처리(processing) : numpy,pandas

- Machine Learning ( 분류, 회귀 )

- Deep Learning : AI를 구현을 위한 현시대적인 ML

 

-Text Mining : BURT, GPT (GPT 3.5 , Chat GPT )

- Recommendation System

 

pandas

- 1차원 데이터(Series),

- 2차원 데이터(DataFrame) : 표데이터 

:: Series가 여러개 모여지면 DataFrame이 된다.

 

import pandas

pandas.Series()

 

import pandas as pd

pd.Series()

 


DB에선 객체지향적으로 다뤘기때문에 row (행) 위주로 다뤘다.



- employees.csv 파일의 내용을 읽어서 DataFrame으로 로드하기
df_emps=pd.read_csv("C:/test/python_emp_table_to_csv.csv",header=None,index_col=0,names=['gender','name','phone','job_title'])

df_emps.head() # 상위 5개 추출
df_emps.head(3) # 상위 3개 추출

df_emps.tail() # 하위 5개 추출
df_emps.tail(7) # 하위 7개 추출

 

ser_name[1]  - Pandas는 2차원을 지원하지만, 한 개의 column만 떼어내면 괜찮다
np_name = ser_name.to_numpy()  - series를 numpy해야 선형대수 자료로 쓸 수 있다.
type(np_name) - ndarray의 형태로 나온다.

df_emps['phone'][:10] # Slicing으로 처음부터 10개까지 가져온다. (열 단위)

 

빅데이터에서 계산(통계,평균)은 보통 컬럼단위로 이루어진다.

행 단위로 가져오기 위한 index가 별도로 필요하다.

 

loc : index는 중복도, 수정도 가능하다.

iloc : 행의 절대적인 index.

 

:: 행 단위의 숫자와, index값은 엄연히 다른기준으로 판단된다.

 

'PYTHON' 카테고리의 다른 글

Query String 생성  (0) 2023.02.09
PYTHON_Web crawling,Web Scraping  (0) 2023.02.09
Python_Except  (0) 2023.02.09
PYTHON_serialize  (0) 2023.02.08
PYTHON_Class(property-method)  (0) 2023.02.07