빅데이터 사례 CIO



미국 국립해양대기청(NOAA)과 미국 국립기상청(NWS)

NOAA은 50년전부터 빅 데이터를 다뤘다. 매년 30페타바이트의 신규 데이터를 관리하고, 매일 35억 개의 위성, 선박, 항공기, 부표 등에 장착된 센서에서 데이터를 수집한다. 그리고 그 대기, 해양, 지상 데이터의 직접적 측정치를 모아 복잡하고 정확도가 높은 예측 모델링과 함께 NWS에 제공한다. NWS의 모델들은 매일 기상 경보, 미국 국방부(Department of Defense)와 나사(NASA) 등의 정부 기관을 포함한 여러 공공과 민간 부문 예측을 위해 제공되는 기상 경보와 안내 결과물 수 백만 가지들을 만들어낸다.


AM 바이오테크놀로지의 DNA 염기서열 분석 솔루션

미국 휴스턴에 있는 AM 바이오테크놀로지(AM Biotechnologies)는 앱타머(aptamer)라는 화학적으로 수정된 DNA 기반 분자 독립체들을 위한 전매 신기술을 개발하는데 집중하는 회사다. 앱타머는 혈액 샘플 내의 특정 분석 물질의 진단 정량화에서부터 신체내의 특정 부분만을 대상으로 약물을 전달하는 데까지 다양하게 쓰인다. 이 앱타머들을 개발하는데는 수 백억 개에 달하는 짧은 DNS 염기 서열의 분석이 필요하다. 이 회사는 CD-HIT과 갤럭시(Galaxy)의 웹-기반 빅 데이터 분석 툴로 이 데이터를 고속 처리하고 있다.


미국 국립 보관 기록청(NARA) 전자 기록 보관소

미국 국립 보관 기록청(NARA)는 미국의 공식적인 기록 관리기관이다. NARA는 연방 기관 생태계, 국회, 그리고 몇몇 대통령 도서관을 포함하는 70억 개가 넘는 정보 142 테라바이트를 관리하고 있으며 이 규모는 점점 증가하고 있다. 이 기록은 디지털화되어서 4,800가지가 넘는 포맷으로 저장돼 있다. 또한 NARA는 4백만 큐빅 피트의 전통적인 기록보관물도 디지털화하는 절차에 들어갔다. 2016년까지 95%의 전자 저장 정보를 조사자들이 이용할 수 있게 될 것이다. NARA는 전자 기록 아카이브(Electronic Records Archive:ERA)를 ‘시스템들의 시스템’으로 만들어 다른 법적 프레임워크로 관리되는 다양한 보관 기능과 기록 관리를 수행하게 하고있다.



베스타스 풍력 터빈 배치와 유지

덴마크 회사 베스타스(Vestas)는 회사의 풍력 터빈이 가장 많은 전력을 생산하고 비용을 줄일 수 있는 최적의 장소를 찾는데 수퍼컴퓨터와 빅 데이터 모델링 솔루션을 사용하고 있다. 베스타스는 세계 기후 시스템의 바람 정보 라이브러리와 기존의 터빈에서 수집된 데이터를 통합하여 사용한다. 바람 정보 라이브러리는 현재 2.8 페타바이트에 달하는 데이터를 보유하고 있다. 현재 매개변수들로는 기온, 기압, 습도, 강수량, 풍향, 지면에서 300피트 고도까지의 풍속, 그리고 회사의 역대 기록 데이터가 포함되어 있다. 베스타스는 세계 해빙 지표, 위성 이미지, 역사적 지표, 지역 특정 데이터, 그리고 달의 위상과 조수 데이터도 포함시킬 예정이다.


미국 국세청(IRS) 컴플라이언스 DW

1996년, IRS는 분석을 위한 단일 연도 세금 보고서를 업로드하는 프로젝트를 시작했다. 차후 이 프로젝트는 1페타바이트가 넘는 정보를 가진 컴플라이언스 데이터 웨어하우스(Compliance Data Warehouse: CDW)로 이어졌다. 대부분의 오래된 데이터들은 정형화되었지만, 전자 발송된 세금 보고서, 국제 세금 조약 파트너들과 외부 업체에서 취합한 신규 데이터는 XML, 혹은 다른 반정형/비정형 포맷으로 들어온다. IRS 조사 그룹은 이 데이터에 분석을 통해서, 업계의 세금탈루를 예측하여 미국 과세 격차를 추산하고, 납세자들의 세액을 측정하고, 정책 변경의 세금 행동에 대한 영향을 시뮬레이션한다.




온타리오 대학교 기술 연구소 의학 모니터링

온타리오 대학교 기술 연구소(University of Ontario Institute of Technology: UOIT)는 IBM과 협력해 생명 징후들이 치명적 수준에 도달하기 전에 경고 수치들을 파악해주는 의학 모니터링 기술을 향상시키기위한 프로젝트 아르테미스(Project Artemis)를 수행해오고 있다. 치명적인 상황들로는 미숙아들의 생명을 위협하는 병원내 감염과, 바람직한 방향으로 변화하지 않는 용인되는 한도 내의 맥박이 있다. 프로젝트 아르테미스는 스트리밍 데이터의 연속적인 분석을 통해 실시간에 가까운 결정 지원을 가능하게 해주는 정보 처리 아키텍쳐인 스트림스(Streams) 분석 소프트웨어에 기반하고 있다.



테라에코스 주변 침입 감지

테라에코스(TerraEchos)는 핵심 인프라를 보호하고 모니터하는 기술에 특화되어 있다. 고객들 중에는 미국 에너지부 연구소(U.S. Department of Energy Labs)가 있는데, 그들의 과학적 지식, 기술, 자원을 지키기 위해 테라에코스에 의존하고 있다. 잠재적 (기계적, 생물학적) 위협들을 감지하고, 분류하고, 위치지정하고, 추적하는 기술 솔루션을 필요로 했지만, 몇마일 떨어진 곳에서 불어오는 바람의 속삭이는 소리를 분간해내는 솔루션을 특히 원했다. 그렇게 하기위해, 솔루션은 센서와 분석 소프트웨어, 고성능 컴퓨팅을 사용하여, 인간과 동물의 움직임에서부터 기상 상태까지에 걸친 막대한 양의 유동 정보를 연속적으로 소비하고 분석한다.



나사 인간 우주비행 이미지 콜렉션, 보존과 호스팅

나사(NASA)의 존슨 우주 센터(Johnson Space Center:JSC)는 미국 우주비행사 부대의 허브이자 국제 우주 정거장(International Space Station: ISS) 임무 수행의 본부다. 1959년부터 JSC는 4백만개가 넘는 사진, 950만 피트에 달하는 16mm 필름, 8만 5,000개의 비디오 테이프, 그리고81,616시간의 아날로그와 디지털 포맷의 비디오 파일을 수집했다. 이 콜렉션은 미디어 컨텐츠는 물론, 과학과 공학 커뮤니티도 이용한다. 나사는 이미저리 온라인(Imagery Online: IO)이라는 애플리케이션을 만들어서 이미지 파일 이름을 그와 연관된 모든 메타 데이터와 연결해준다. 그러나 나사는 여전히 미가공(raw)와 네이티브(native) 형태 모두로 이 콜렉션을 대중이 이용할 수 있게 하고, 더 작고 더욱 접속하기 쉽게 변환 부호화하는데 어려움을 겪고 있다.

http://www.ciokorea.com/slideshow/14572?slide=8#stage_slide