본문 바로가기
2학년 2학기/데이터 사이언스 입문

[pandas] 문자열 Vectorized 연산

by print_soo 2024. 11. 5.

기본적으로 Numpy와 pandas에서는 아래와 같은 Vectorized 연산을 지원한다.

 

이러한 Vectorized 연산을 문자열(String)에서도 적용하기 위해 str 속성을 지원하게된다. str 속성을 이용해서 Vectorized 연산을 하면 None, Null에 대한 경우도 오류를 발생시키지 않고 무시하고 처리하게 된다. 

 

None이 있어도 무시하고 capitalize

 

 

str에서는 아래와 같은 모든 Python 문자열 내장 메소드를 동일하게 지원한다.

 

 


 

1. "str" 속성을 이용한 문자열의 Vectorized 연산

 

 


 

2. 인덱싱

monte.str.split()[0]

 

 

이렇게 스플릿을 한 것에서 인덱싱을 하면 columns에서 인덱스가 0인 것이 아니오는 것이 아니라 row에서 인덱스가 0인 것이 나오게 된다. 

 

 


 

monte.str.split()[0][1]

 

 


 

 

❓ 그렇다면 우리가 생각한 각 행들에서 0번째 인덱스만 가져오게 하려면 어떻게 해야할까?

str 속성을 사용해서 다시 split한 결과에 Vectorized 연산을 해준다. 

 

 

monte.str.split().str.get(0)

 

 

 


 

monte.str.split().str.get(0).get(1)

 

 


 

 

3. 슬라이싱

 

monte.str[0:3]

 


monte.str[0:3][0:3]