데이터를 사용하다보면 최신화된 데이터를 추가하거나 다른 데이터를 기존 데이터와 합치는 일이 많다. 이런 경우 pandas에서는 데이터 추가하는 여러 연산 메서드를 지원한다.
concat과 merge를 사용할 수 있는데, concat은 주로 행 추가 또는 열 추가를 결합하는데 사용된다. 또한, merge는 두 데이터 프레임을 공통 열 또는 공통 인덱스를 기준으로 결합한다.
concat
: 주로 행 추가 또는 열추가를 결합하는데 사용하는 연산 메소드이다. 기본 값은 행 추가이며, axis='col'(2.2.2에서는 axis=1)을 하면 열 추가도 가능하다.
행 추가
열 추가
만약 인덱스가 중복되는 경우라면?
concat은 index 중복여부를 검사하지 않는다. 이런 경우 verify_integrity=True를 통해서 인덱스가 겹치는 경우 오류 출력을 하거나 다른 방식으로 해결할 수 있다.
1. 일단 합치고, 인덱스를 다시 설정하는 방식(즉, 기존 인덱스는 무시한다.)
2. 행(열)추가 후 최상위 level을 추가한다.
만약 열이 중복되는 경우라면?
열이 중복된다면 중복되는 열은 추가하고 중복 되지 않는 열의 행 부분은 NaN 값으로 채운다.
또한 중복된 열만 출력하거나, 특정 열만 선택해서 고르는 방식도 있다.
'2학년 2학기 > 데이터 사이언스 입문' 카테고리의 다른 글
[pandas] GroupBy: Split (0) | 2024.10.29 |
---|---|
데이터 프레임 필터링 방식 (0) | 2024.10.17 |
[pandas] Hierarchical Indexing(계층적 인덱싱) (0) | 2024.10.15 |
개인_실습(DataFrame) (0) | 2024.10.10 |
데이터 프레임 특정 열 삭제 하는 방법 (0) | 2024.10.10 |