본문 바로가기
2학년 2학기/데이터 사이언스 입문

[pandas] Combining Datasets

by kkkkk1023 2024. 10. 16.

데이터를 사용하다보면 최신화된 데이터를 추가하거나 다른 데이터를 기존 데이터와 합치는 일이 많다. 이런 경우 pandas에서는 데이터 추가하는 여러 연산 메서드를 지원한다. 

 

concat과 merge를 사용할 수 있는데, concat은 주로 행 추가 또는 열 추가를 결합하는데 사용된다. 또한, merge는 두 데이터 프레임을 공통 열 또는 공통 인덱스를 기준으로 결합한다.

 

 

concat

: 주로 행 추가 또는 열추가를 결합하는데 사용하는 연산 메소드이다. 기본 값은 행 추가이며, axis='col'(2.2.2에서는 axis=1)을 하면 열 추가도 가능하다. 

 

행 추가

 

 

열 추가

 

 


 

만약 인덱스가 중복되는 경우라면?

 

concat은 index 중복여부를 검사하지 않는다. 이런 경우 verify_integrity=True를 통해서 인덱스가 겹치는 경우 오류 출력을 하거나 다른 방식으로 해결할 수 있다. 

 

 

1. 일단 합치고, 인덱스를 다시 설정하는 방식(즉, 기존 인덱스는 무시한다.)

 

 

 

2. 행(열)추가 후 최상위 level을 추가한다.

 


 

만약 열이 중복되는 경우라면?

 

열이 중복된다면 중복되는 열은 추가하고 중복 되지 않는 열의 행 부분은 NaN 값으로 채운다.

 

 

또한 중복된 열만 출력하거나, 특정 열만 선택해서 고르는 방식도 있다.