- 수집
- 저장
- 처리(processing) : numpy,pandas
- Machine Learning ( 분류, 회귀 )
- Deep Learning : AI를 구현을 위한 현시대적인 ML
-Text Mining : BURT, GPT (GPT 3.5 , Chat GPT )
- Recommendation System
pandas
- 1차원 데이터(Series),
- 2차원 데이터(DataFrame) : 표데이터
:: Series가 여러개 모여지면 DataFrame이 된다.
import pandas
pandas.Series()
import pandas as pd
pd.Series()
DB에선 객체지향적으로 다뤘기때문에 row (행) 위주로 다뤘다.
- employees.csv 파일의 내용을 읽어서 DataFrame으로 로드하기
df_emps=pd.read_csv("C:/test/python_emp_table_to_csv.csv",header=None,index_col=0,names=['gender','name','phone','job_title'])
df_emps.head() # 상위 5개 추출
df_emps.head(3) # 상위 3개 추출
df_emps.tail() # 하위 5개 추출
df_emps.tail(7) # 하위 7개 추출
ser_name[1] - Pandas는 2차원을 지원하지만, 한 개의 column만 떼어내면 괜찮다
np_name = ser_name.to_numpy() - series를 numpy해야 선형대수 자료로 쓸 수 있다.
type(np_name) - ndarray의 형태로 나온다.
df_emps['phone'][:10] # Slicing으로 처음부터 10개까지 가져온다. (열 단위)
빅데이터에서 계산(통계,평균)은 보통 컬럼단위로 이루어진다.
행 단위로 가져오기 위한 index가 별도로 필요하다.
loc : index는 중복도, 수정도 가능하다.
iloc : 행의 절대적인 index.
:: 행 단위의 숫자와, index값은 엄연히 다른기준으로 판단된다.
'PYTHON' 카테고리의 다른 글
Query String 생성 (0) | 2023.02.09 |
---|---|
PYTHON_Web crawling,Web Scraping (0) | 2023.02.09 |
Python_Except (0) | 2023.02.09 |
PYTHON_serialize (0) | 2023.02.08 |
PYTHON_Class(property-method) (0) | 2023.02.07 |