2학년 2학기/데이터 사이언스 입문

[pandas] Combining Datasets

kkkkk1023 2024. 10. 16. 00:23

데이터를 사용하다보면 최신화된 데이터를 추가하거나 다른 데이터를 기존 데이터와 합치는 일이 많다. 이런 경우 pandas에서는 데이터 추가하는 여러 연산 메서드를 지원한다. 

 

concat과 merge를 사용할 수 있는데, concat은 주로 행 추가 또는 열 추가를 결합하는데 사용된다. 또한, merge는 두 데이터 프레임을 공통 열 또는 공통 인덱스를 기준으로 결합한다.

 

 

concat

: 주로 행 추가 또는 열추가를 결합하는데 사용하는 연산 메소드이다. 기본 값은 행 추가이며, axis='col'(2.2.2에서는 axis=1)을 하면 열 추가도 가능하다. 

 

행 추가

 

 

열 추가

 

 


 

만약 인덱스가 중복되는 경우라면?

 

concat은 index 중복여부를 검사하지 않는다. 이런 경우 verify_integrity=True를 통해서 인덱스가 겹치는 경우 오류 출력을 하거나 다른 방식으로 해결할 수 있다. 

 

 

1. 일단 합치고, 인덱스를 다시 설정하는 방식(즉, 기존 인덱스는 무시한다.)

 

 

 

2. 행(열)추가 후 최상위 level을 추가한다.

 


 

만약 열이 중복되는 경우라면?

 

열이 중복된다면 중복되는 열은 추가하고 중복 되지 않는 열의 행 부분은 NaN 값으로 채운다.

 

 

또한 중복된 열만 출력하거나, 특정 열만 선택해서 고르는 방식도 있다.