목록데이터 랭글링 (2)
귀퉁이 서재

미디어위키(Media Wiki) API 미디어위키(Media Wiki) API는 미디어위키에 접근할 수 있는 API입니다. 너무 당연한 설명이네요.. (Reference1) 미디어위키에 접근할 수 있는 API 라이브러리는 다양합니다. Python 기반 라이브러리 중 가장 많이 쓰이는 것은 wptools입니다. (Reference2) 인터넷을 통해 미디어위키에 직접 접속해 검색하는 것을 wptools를 활용하여 코드화할 수 있습니다. 미디어위키에 '마하트마 간디'를 쳐서 검색 결과를 가져오는 작업을 코드화해 보겠습니다. (Mahatma gandi 위키피디아 검색 결과) 우선 wptools 라이브러리를 설치합니다. pip install wptools Mahatma gandi를 검색한 미디어위키 페이지의 ur..

우선, 데이터 랭글링(Data Wrangling)이란 무엇인지 알아보겠습니다. 아래는 위키피디아 정의입니다. Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytic. 쉽게 말하면, 원천 데이터(raw data)를 분석하기 좋은 데이터로 변환하는 작업을 뜻합니다. 데이터 랭글링은 총 5단계로 구분됩니다..