데이터 과학 프로젝트를 위한 17 가지의 데이터셋

컴퓨터 공학

데이터 과학 프로젝트를 위한 17 가지의 데이터셋

혼새미로 2017. 3. 18. 16:06

출처 : https://www.dataquest.io/blog/free-datasets-for-projects/

만약 당신이 사적인 데이터 과학 프로젝트를 작업하고 있다면, 아마도 분석할만한 데이터셋을 찾고 있을 것이다. 완벽한 하나의 데이터셋을 찾기 위해 수십 개의 데이터셋들을 걸러내는 것은 재미있을 수 있다. 그러나 여러 개의 csv 파일들을 다운로드하고 임포트하는 일은 또한 지겨울 수 있다.

이 글에서, 데이터 시각화 프로젝트, 데이터 클리닝 프로젝트, 그리고 머신 러닝 프로젝트를 포함하여 여러 종류의 데이터 과학 프로젝트를 찾아본다. 데이터를 잘 시각화할 수 있는 능력을 보여주기 위해 당신의 데이터 과학 포트폴리오를 강화하고 싶다면, 또는 몇시간 남고 머신 러닝 기술을 습득하고 싶다면, 이 글을 보면 될 것이다.

데이터 시각화 프로젝트를 위한 데이터셋

일반적인 데이터 시각화 프로젝트에서는 "US안에 다른 주들에 대하여 수입이 어떻게 다른지 시각화하고 싶다"라는 생각을 가질 수 있다. 여기에 데이터 시각화 프로젝트를 위한 좋은 데이터셋들이 있다.

1. FiveThirtyEight

FiveThirtyEight은 Nate Silver에 의해 시작된 스포츠와 뉴스를 상호작용하는 유명한 사이트이다.

FiveThiryEight은 Github에서 사용 가능한 기사들에서 사용된 데이터셋을 만들었다.

FiveThiryEight 데이터셋 보기 - https://github.com/fivethirtyeight/data

여기 몇 가지 예시가 있다:

항공사 안전 - 각 항공사로부터 사고 정보를 포함
US 날씨 역사- US에 대한 날씨 데이터 역사
약물 연구 - US에서 Adderall를 섭취한 사람에 대한 데이터

2. BuzzFeed

BuzzFeed는 저수준 기사들을 전달하는 것부터 시작하였으나, 현재는 연구할만한 것들을 작성한다.

BuzzFeed 데이터셋 보기 - https://github.com/BuzzFeedNews

여기 몇 가지 예시가 있다.

연방 감시 비행기 - 국내 감시를 위해 사용된 비행기들의 데이터 포함
지카 바이러스- 지카 바이러스 발생의 지리학 데이터
소형화기 배경 검사 - 소형화기를 사려는 사람들의 배경을 검사하는 데이터

3. Socrata OpenData

Socrata OpenData는 브라우저 혹은 다운로드한 것들을 탐색할 수 있는 다중 클린 데이터셋을 포함한다. 데이터의 상당 부분은 US 정부로부터 나온 것이고, 대부분이 기간이 만료된 것들이다.

등록없이 OpenData로부터 데이터를 탐색하고 다운로드 받을 수 있다. 또한 브라우저에서 데이터를 탐색하기 위해 탐색 도구와 시각화를 사용할 수 있다.

Socrata OpenData 보기 - https://opendata.socrata.com/

여기 몇 가지 예시가 있다.

백악관 스태브 연봉 - 2010년도의 백악관 스태프의 데이터
방사능 분석 - US에서의 각 지역에 대한 우유 상품의 방사능 데이터
US에서의 작업 중 사망 - US에서의 작업장 사망 수

데이터 처리 프로젝트를 위한 데이터셋

가끔씩 당신은 거대한 데이터셋에 대한 작업을 하고싶어할 것이다. 마지막 결과는 데이터를 읽고 분석하는 처리와 같은 것은 문제가 되지 않는다. 당신은 Spark 혹은 하둡을 사용하여 다중 노드들을 통해 분산 처리를 하고싶어할 것이다. 여기에 좋은 데이터 처리를 위한 데이터셋이 있다.

깨끗한 데이터일 수록 더 좋다 - 거대한 데이터셋을 정리하는 것은 시간이 매우 오래걸린다.
데이터셋은 더 흥미로울 것이다.
데이터를 통해 질문에 답을 할 수 있을 것이다.

4. AWS Public Datasets

아마존은 아마존 웹 서비스 플랫폼을 통해 거대한 데이터셋을 생성하였다. 당신은 데이터를 다운받을 수 있고, 당신의 개인 컴퓨터에서 작업을 할 수 있다 또는 EMR을 통한 하둡과 EC2를 사용하여 클라우드에서 데이터를 분석할 수 있다. 다음에서 프로그램이 어떻게 작동하는지 확인할 수 있다 (https://aws.amazon.com/ko/public-datasets/)

아마존은 당신이 탐색하는 모든 데이터셋의 리스트 페이지를 가진다. 당신은 AWS 계정이 필요하며, 아마존은 티어에 자유롭게 접근할 수 있는 계정을 주고, 이 계정은 요금없이 무료로 데이터를 탐색할 수 있도록 해준다.

- AWS 공식 데이터셋 보기

여기 몇 가지 예시가 있다.

구글 북스로부터 n-gram의 리스트 - 책의 거대한 집합으로부터 워드들의 그룹과 일반적인 워드들 정보
일반적인 말뭉치 수집 - 50억개의 웹페이지들로부터 크롤한 데이터
지상관측 이미지들 - 지구 표면의 적당한 해상도 위성 이미지

5. Google Public Datasets

아마존과 같이, 구글은 또한 클라우드 호스팅 서비스를 가지고 있으며 이는 구글 클라우드 플랫폼으로 불리운다. GCP에 대하여, 당신은 BigQuery라 불리는 도구를 사용하여 거대한 데이터셋을 탐색할 수 있다.

구글은 페이지 상에서 모든 데이터셋들을 나열한다. 당신은 GCP 계정을 가져야 하지만 처음 1TB의 질의는 무료로 만들 수 있다.

구글 공식 데이터셋 보기 - https://cloud.google.com/bigquery/public-data/

USA 이름들 - 1879년 부터 2015년까지 US에서의 모든 사회 보안 이름 응용들을 포함한다.
Github 활동 - 280만개의 공식 깃허브 보관함에서의 모든 공식 활동들을 포함한다.
날씨 역사 - 1929년부터 2016년까지의 9000개 NOAA 날씨로부터의 데이터

6. Wikipedia

위키피디아는 무료, 온라인, 커뮤니티에 의해 편집된 백과사전이다. 위키피디아는 믿기 힘든 지식의 너비를 가지고, Ottoman-Habsburg Wars 부터 Leonard Nimoy까지의 모든 것에 대한 페이지를 포함한다. 지식을 넓히기 위한 위키피디아의 위원의 일부로, 그들은 모든 자료를 무료로 개방하고, 정기적으로 사이트의 모든 아티클의 덤프를 생성한다. 추가적으로, 위키피디아는 편집 기록과 활동을 제공한다. 그래서 당신은 시간에 따른 주제의 발전을 추적할 수 있으며 누가 기여했는지 알 수 있다.

당신은 위키피디아 사이트에서 데이터를 다양한 방식으로 다운로드 받을 수 있다. 당신은 다양한 방식으로 데이터를 재구성할 스크립트를 찾을 수 있다.

위키피디아 데이터셋 보기 - https://en.wikipedia.org/wiki/Wikipedia:Database_download

여기 예시가 있다.

위키피디아의 모든 이미지들과 다른 미디어 - 위키피디아에 존재하는 모든 이미지들과 다른 미디어들을 포함한다.
전체 사이트 덤프 - 위키피디아에서의 컨텐트로 다양한 포맷을 가진다.

머신 러닝 프로젝트를 위한 데이터셋

당신이 머신 러닝 프로젝트를 수행할 때, 당신은 데이터셋에서 다른 칼럼으로부터 칼럼을 에측하고 싶을 것이다. 이를 위해, 다음을 인지해야 한다.

데이터셋이 너무 엉망이면 안된다 - 그렇다면, 우리는 데이터를 청소하는데 많은 시간을 소비한다.
예측을 위한 흥미로운 목적 칼럼이 존재한다.
다른 변수들은 목적 칼럼을 위한 설명을 위한 파워를 가진다.

머신 러닝을 위한 몇 가지 온라인 저장소가 존재한다. 이러한 데이터셋들은 일반적으로 사전에 청소되어 있으며, 알고리즘의 빠른 테스트를 허용한다.

7. Kaggle

카글은 머신 러닝 계산을 위한 데이터 과학 커뮤니티이다. 외부적으로 다양성이 존재한다. - 사이트에서 흥미로운 데이터셋을 기여한다. 카글은 현재 값과 역사 값을 가진다. 둘다 다운로드 받을 수 있으나, 카글에 가입하고 자료를 위한 서비스에 대한 허가를 받아야 한다.

당신은 카글 컴페티션에 입장하여 카글로부터 데이터를 다운로드 받을 수 있다. 각 컴페티션은 관련된 데이터셋을 가진다. 새로운 카글 데이터셋에서 찾을 수 있는 사용자에 의한 데이터셋이 있다.

여기 몇 가지 예시가 있다.

위성 사진 순서 - 지구의 위성 사진의 데이터셋 - 목적은 다른 것들보다 특정 사진이 먼저 취득되었느냐를 아는 것이다.
제조 처리 실패 - 제조 처리를 하는 동안 측정되었던 변수들의 데이터셋이다. 목적은 제조에 대한 예측실패를 찾는 것이다.
다중 선택 질문 - 다중 선택 질문의 데이터셋과 대응되는 정확한 대답이다. 목적은 임의의 주어진 질문에 대하여 대답을 예측하는 것이다.

8. UCI Machine Learning Repository

UCI 머신 러닝 저장소 웹에서 가장 오래된 데어터셋의 소스 중 하나이다. 데이터셋들은 사용자에 의해 작성되었음에도 불구하고, 그리고 문서의 수준과 명료함이 전부 다름에도, 대다수는 명료하고 머신 러닝에 적용될 준비가 되었다. UCI는 흥미로운 데이터셋을 찾을 수 있는 좋은 첫 번째 장소이다.

당신은 UCI 머신 러닝 저장소로부터 등록없이 직접 다운로드 받을 수 있다. 이러한 데이터셋들은 아주 작은 경향이 있고, 큰 차이는 없으나, 머신 러닝에 좋다고 할 수 있다.

UCI 머신 러닝 저장소 보기 - http://mlr.cs.umass.edu/ml/datasets.html

여기 몇 가지 예시가 있다:

이메일 스팸 - 스팸과 상관없이 라벨에 대한 이메일들을 포함한다.
와인 식별 - 178 개의 다른 와인들의 다양한 속성들을 포함한다.
태양 표면 폭발 - 태양 표면 폭발의 속성, 폭발의 특성을 예측에 유용하다.

9. Quandl

퀀들은 경제와 금융 데이터의 저장소이다. 몇 가지 정보는 무료이나, 대부분의 데이터셋들은 구매해야 한다. 퀀들은 주가 혹은 경제 지표를 예측하기 위한 모델을 구축하는데 유용하다. 거대한 데이터셋으로인해, 또 다른 곳에서의 값을 예측하기 위한 많은 데이터셋을 사용하는 복잡한 모델을 구축하는 것이 가능하다.

퀀들 데이터셋 보기 - https://www.quandl.com/search

여기 몇 가지 예시가 있다.

인종과 다른 요인에 의한 기업 활동 - US에서의 기업의 카푸만 재단으로부터의 데이터를 포함한다.
중국 거시경제 데이터 - 중국 경제 건강의 지표
US 연방 준비 데이터 - 연방 준비로부터 US 경제 지표

데이터 클리닝 프로젝트를 위한 데이터셋

가끔씩, 데이터셋을 다중 파일로 나누고 그들을 클리닝하고, 하나로 융합하는게 좋을 수 있다. 데이터 클리닝 프로젝트에서, 가끔씩 각 데이터셋에서 칼럼이 의미하는 바를 찾기 위한 여구에 몇 시간이 소모될 수 있다. 당신이 분석하고 있는 데이터셋이 정말로 하고자 하는 바와 맞지 않을 수 있다. 그리고 당신은 다시 시작해야 한다.

당신이 데이터 클리닝 프로젝트에 대한 좋은 데이터셋을 찾을 때, 당신은 다음을 원할 것이다:

다중 파일로 나누어라.
다양한 각도로 살펴보아라
이해를 위해 적절한 연구를 하라.
가능하면 "실제-세계"를 사용하라

이러한 데이터셋 타입들은 데이터셋 집합소에서 일반적으로 찾을 수 있다. 이러한 집합소는 많은 큐레이션 없이 다중 소스들로부터 데이터셋을 가질 수 있다. 너무 많은 큐레이션은 더 클리닝할 것이 없는 데이터셋을 제공한다.

10. Data.gov

Data.gov는 개방 정부를 향한 US의 노력의 일환으로 상대적으로 새로운 사이트이다. Data.gov는 다중 US 정부 에이전시들로부터 데이터를 다운로드 할 수 있다. 데이터는 정부 예산부터 학교 평가 점수까지 다양하다. 상당수 데이터는 추가적인 연구를 요구하며, 어떤 데이터셋이 "정확한" 버전인지 알기 어렵다. 누구나 데이터를 다운로드할 수 있으며, 몇 가지 데이터셋은 라이센스 동의를 하는 것과 같은 추가적인 노력을 필요로 한다.

당신은 가입없이 Data.gov에 직접 데이터셋을 탐색할 수 있다. 당신은 토픽 영역으로 탐색할 수 있고 또는 구체적인 데이터셋을 검색할 수 있다.

Data.gov 데이터셋 보기 - https://www.data.gov/

여기 몇 가지 예시가 있다.

음식 환경 지도책 - US에서 어떻게 지역 음식 선택이 다이어트에 영향을 미치는지 데이터를 포함한다.
학교 시스템 재정 - US에서 학교 시스템의 재정 설문
만성 질병 데이터 - US 지역의 만성 질병 지표 데이터

11. The World Bank

월드뱅크는 개발도상국에 조언을 해주고 대출을 해주는 국제 개발 조직이다. 월드뱅크는 정기적으로 개발도상국에 펀드를 하며, 이러한 프로그램들의 성공을 감시하기 위해 데이터를 수집한다.

당신은 가입없이 월드뱅크 데이터셋을 직접 다운로드 할 수 있다. 데이터셋은 여러 놓친 값들이 있으며, 가끔씩 데이터를 얻기 위해 검색을 해야한다.

월드뱅크 데이터셋 보기 - http://data.worldbank.org/

여기 몇 가지 예시가 있다:

세계 개발 지표 - 개발 중인 국가의 수준 정보
교육 통계 - 국가에 의한 교육 데이터
월드뱅크 프로젝트 비용 - 월드뱅크 프로젝트와 그들의 대응되는 비용 데이터

12. /r/datasets

레딧, 유명한 커뮤니티 토론 사이트로, 흥미로운 데이터셋을 공유하기 위한 전문 지역을 가진다. 이를 데이터셋 서브레딧 또는 /r/datasets라고 불린다. 이러한 데이터셋들의 범위는 다양하고, 대부분 사용자에 의해 작성되었으나, 흥미롭고 적절하게 작성되었다.

당신은 여기서 서브레딧을 탐색할 수 있다. 또한 고도로 인기있는 데이터셋을 여기서 볼 수 있다.

/r/datasets 글 보기 - https://www.reddit.com/r/datasets/top/?sort=top&t=all

여기 몇 가지 예시가 있다.

모든 레딧 제출 - 2015년의 레딧 제출을 포함한다.
재퍼디 질문 - 게임쇼인 재퍼디로부터 질문과 점수 값을 볼 수 있다.
뉴욕시 세금 데이터 속성 - 뉴욕시에서 평가된 값과 속성 데이터

13. Academic Torrents

학교 토렌트는 과학 논문으로부터 데이터셋을 공유하기 위한 새로운 사이트이다. 새로운 사이트이기 때문에 가장 흔한 데이터셋이 무엇이라 말할 수 없다. 현재는, 많은 데이터셋이 부족한 상태이다.

데이터셋을 직접 사이트에서 볼 수 있다. 토렌트 사이트이기 때문에 모든 데이터셋은 즉시 다운로드 되며, 그러나 당신은 비트토렌트 클라이언트를 필요로 한다. 딜루지는 좋은 무료 옵션이다.

학교 토렌트 데이터셋을 보기 - http://academictorrents.com/browse.php?cat=6

여기 몇 가지 예시가 있다.

엔론 이메일 - 엔론에서 실무자로부터 많은 이메일 집합으로, 유명하게 파산한 회사이다.
학생 학습 요인 - 학생 학습의 영향과 측정의 요인들 집합
새로운 아티클 - 목적 변수와 새로운 기사 속성을 포함한다.

보너스 : 스트리밍 데이터

당신이 데이터셋을 다운로드하여 데이터 과학 프로젝트를 구축하는 것은 일반적이다. 그러나, 온라인 서비스가 더 많은 데이터를 생성하기 때문에, 증가하는 양은 실시간으로 발생하고, 데이터셋 형식에서 불가능하다. 이것의 몇 가지 예시는 트위터로부터 트위 데이터를 포함하고, 주식 가격 데이터가 있다. 이러한 데이터를 획득하기 위한 좋은 소스가 많지 않으나, 우리는 스트리밍 데이터 프로젝트에서 당신이 시도할만한 리스트를 보인다.

14. Twitter

트위터는 좋은 스트리밍 API를 가지고, 트윗을 스트림하고 필터링하는데 상대적으로 직관적이다. 당신은 여기서 시작할 수 있다. 여기 수 많은 옵션이 있다 - 당신은 어떤 주가 행복한지 또는 어떤 나라가 가장 복잡한 언어를 사용하는지 찾을 수 있다. 우리는 또한 최근에 트위터 API를 사용할 수 있도록 여기서 시작하는 기사를 작성하였다.

트위터 API 시작하기 - https://dev.twitter.com/streaming/overview

15. Github