Pandas
- 목적
- 다양한 소스로부터 수집하는 데이터 형태가 다양한데 동일한 구조고 통합하기 위해 사용
- 종류
- Series :1차원 배열
- DataFrame : 2차원 배열
Series
- 딕셔너리 구조와 비슷 → 시리즈로 변환
- 인덱스 종류 : 정수형 위치인덱스 , 인덱스 이름 (column)
인덱스 vs. 데이터 값배열 확인
index = sr.index
val = sr.values
- 인덱스 유형에 따라 쓰는 방법 다름
- Series 생성시 index 전달 바로 가능
- 여러개 index 선택시 # [[]]
- 여러개 범위 선택시 # [1:3] , arr[’이름’:’나이’]
DataFrame
- 2차원 배열
- 열 → 시리즈 객체 #각 열은 공통의 속성을 가져야함
- 행 → 개별 관측대상에 대한 속성데이터 record
행 / 열 index 설정 가능
행 . 열 변경 가능
행 . 열 변경 가능 2
행 열 삭제
- 참고 : 행 삭제할때는 axis=0안해도댐 , 축 aixs=1이라면 열 삭제
- 여러개 한꺼번에 drop([1,2,3])등으로 넣으면 한번에 삭제
열 삭제
행 선택
- loc, iloc
- loc : 인덱스 이름 기준으로 행 선택
- iloc : 정수형 인덱스 기준시 사용
행 여러개 선택
행 여러개 선택2
- 단, 인덱스 이름을 범위로 지정한 label3의 경우에는 범위의 마지막 값인 '우현' 학생의 점수가 포함되지만, 정수형 위치 인덱스를 사용한 position3에는 범위의 마지막 값인 '우현' 학생의 점수가 제외된다
열 선택
열선택 n 개
- 이때 반환되는 객체의 자료형은 데이터프레임이다.
원소선택 방법
- 먼저 index 선택후 column 결정한다.?
- dictionary형태를 df로 만드는것
loc , iloc으로 원소선택
1개 선택
2개 이상 (Series)
2개 이상 (DF)
'데이터사이언스' 카테고리의 다른 글
Python Pandas 직접해보면서 이해하는 코드_1 (0) | 2024.01.18 |
---|