DEV1TEAM @DKLEE :
판다스(pandas)는 파이썬(python) 언어로 만들어진 데이터 분석을 위해 제작된 라이브러리입니다.
판다스의 데이터 구조는 행과 열로 이루어진 익숙한 형태의 모습을 하고 있습니다. 우리가 일반적으로 많이 접했던 형태인 스프레드시트와 비슷하다고 할 수 있습니다. 데이터 핸들링에 있어서 접근성에서 유리하다는 뜻이기도 합니다.
익숙한 데이터 구조, 파이썬이라는 비교적 대중적인 프로그래밍 언어, 그리고 함께 사용하여 효율적인 성능을 발휘할 수 있는 다양한 라이브러리(numpy, matplotlib 등)의 제공이 현 시장에서 데이터 분석 도구로 선택받고 있는 이유라고 할 수 있습니다.
판다스 관련 서적이나 실무 경험자들이 강조하는 핵심기능입니다.
- 다양한 형태의 소스를 편리하게 가져올 수 있고, 가공할 수 있는 기능 제공
- 데이터 분석의 시작이자 핵심이라고 할 수 있는 누락되거나 부정확한 데이터를 처리할 수 있는 유연한 처리 능력
- SQL처럼 사용할 수 있는 연산 기능
이러한 요소들이 스톤에서도 빅데이터 분석을 위한 도구로 파이썬과 판다스를 채택하게 된 이유이기도 합니다. 파이썬 생태계에서 편의를 제공하는 여러가지 상용 프로그램들도 이점이라고 할 수 있습니다.
버전관리 및 호환성에서 강력한 편의성을 제공하는 Anaconda
주피터노트북에서 US Baby Names 데이터를 활용한 간단한 분석입니다.
(데이터 출처: https://www.kaggle.com/kaggle/us-baby-names)
아주 기본적인 분석이지만 판다스의 특성을 잘 보여주고 있습니다. 2가지의 라이브러리(pandas, matplotlib)를 사용하여 연도별 성별에 따른 출생 수를 그래프로 보여주고 있습니다.
실제로 스톤에서는 “빅데이터 플랫폼 구축 사업”의 빅데이터 분석을 위해 판다스를 사용하고 있습니다. 하둡에코시스템(Apache Hadoop, 분산 프로그래밍 프레임워크)의 환경에서 구축되어 실행되며, 자동으로 데이터를 수집하고 정제하며 결과를 도출합니다.
하둡에코시스템의 콘솔
최종 분석된 결과물은 데이터를 필요로 하는 사용자들에게 제공합니다. 또한 여러가지 기기 및 플랫폼 환경(웹/앱/키오스크/TV 등)에 최적화되어 시각화 됩니다.