분석용 데이터 셋 준비 - 정형
수집 데이터 리스트를 바탕으로 데이터 구분(공공/외부)에 따라, 데이터를 수집
1. 소셜 데이터(검색량) : 네이버 데이터랩을 사용하여 크로스핏 검색량 데이터 수집
2. 인허가 데이터 : 국내 크로스핏 시장의 성장 추세를 분석하고자 공공데이터 포털에서 체력단련장 인허가 데이터를 수집
3. 입지 데이터 : 부산광역시 빅데이터 플랫폼에서 입지 데이터를 검색하여 수집
네이버 데이터랩을 이용한 데이버 수집의 예시
지방 인허가 데이터 포털을 이용한 수집의 예
부산광역시 빅데이터 플랫폼을 이용한 부산시 입지 데이터 수집의 예
분석용 데이터 셋 준비 - 비정형
수집 데이터 리스트를 바탕으로 데이터 구분(공공/외부)에 따라, 데이터를 수집
1. 소셜데이터(해시태그) : 다음 썸트렌드를 사용해 인스타그램에서 크로스핏의 연관어를 수집
2. WoD 데이터 : 사람들이 주로 하는 WoD에 있는 동작 데이터를 웹크롤러를 개발하여 Crossfit.com 과 Mayhemnation.com 에서 웹크롤링하여 수집
3. 쇼핑몰 데이터 : 쇼핑몰에서 크로스핏과 관련된 상품 데이터를 웹크롤링하여 수집
다음 썸트렌드를 이용한 데이터 수집 예시
다음 썸트렌드를 이용한 연관어 수집 예시
Crossfit.com에서 WoD데이터를 수집한 예
Mayhemnation.com에서 WoD데이터를 수집한 예
국내 TOP3 쇼핑몰 쿠팡, 지마켓, 11번가에 크로스핏을 검색하여 주요 상품 정보 크롤링
모든 데이터를 수집한 후, 분석용 데이터 셋을 준비함