컴퓨터 공학

실험에 사용되는 현실 데이터셋

혼새미로 2018. 9. 12. 18:33
반응형

이 문서는 논문의 실험에서 사용되는 현실 데이터셋에 대한 정보를 담고 있습니다.

  • TPC-H 벤치마크도 현실 데이터에 포함됨
  • Routing : GPS 장치들에 의해 로그가 기록된 "trips"의 2억 4000만 개의 지질학적 레코드들 (즉, 경도, 위도, 여행id, 타임스탬프)의 모음
  • SDSS : SkyServer의 천문학 데이터베이스의 6.2 GB 샘플 (http://skyserver.sdss.org/dr13/en/home.aspx) 정보 보관 (과학적 데이터 - double, float 타입의 균일 분포를 가짐)
  • Cnet : 기술적인 상품들의 속성들을 기술한 데이터셋. 모든 데이터는 아주 희박하고, 따라서 압축에 있어서 충분한 기회가 될 수 있음. 데이터셋은 J.Beckham의 연구를 기반으로 재생성되었음.
  • Airtraffic delay database : 항공지연, 이륙시간 그리고 다른 비행 통계자료를 기반으로 성장하는 데이터 웨어하우스. 데이터는 한 달에 한 번씩 갱신되고, 정렬된 군집화된 순서들을 가진다 (https://www.percona.com/blog/2009/09/29/quick-comparison-of-myisam-infobright-and-monetdb/).
  • https://icon.colorado.edu/#!/networks : 그래프 데이터셋


반응형