본문 바로가기
BI/빅데이터

빅데이터 모범사례 CERN

by wizmusa 2021. 12. 11.

GENEVA, SWITZERLAND-SEPTEMBER 2014. Components of the CERN particle accelerator located underground.

입자가속기로 유명한 CERN은 2017년에 scale out이 곤란한 Oracle DB를 포기하고 Apache Spark로 전환한 모양입니다.

https://db-blog.web.cern.ch/blog/luca-canali/2017-08-apache-spark-and-cern-open-data-example

 

The Architecture of the Next CERN Accelerator Logging Service - The Databricks Blog

As a complex chain of interconnected particle accelerators at CERN, collectively these accelerators generate massive amounts of data per day, up to 900 GB. This blog explains the architecture for logging service, how data is collect from many types of devi

databricks.com

2TB/일 증가하고, 1PB/second로 처리하는 니즈이니 오라클 DB로는 비용을 감당하기 힘들었겠습니다.

 

Big Data Analysis and Machine Learning at Scale with Oracle Cloud Infrastructure

This work has successfully deployed two different use cases of interest for High Energy Physics  using cloud resources:   CMS Big data reduction: This use case consists in running a data reduction workloads for  physics data. The code and implementat

zenodo.org

그렇다고 해서 CERN이 오라클을 완전히 버리지는 않았습니다. 어찌된 셈인지 오라클 클라우드에서 Apache Spark를 운용하는 체제로 바뀌었습니다. (2019년) 위 링크에는 CERN이 빅데이터와 머신러닝을 쓰는 방식을 설명한 문서가 있으니 참고하길 바랍니다.

오픈소스 기반으로 대용량 데이터를 운용하는 곳으로 CERN은 둘째가라면 서러울 듯합니다. 엘라스틱 서치로 알람을 만드는 프로젝트도 벤치마킹해보고 싶습니다. 쿠버네티스를 적극적으로 활용하는 모습이나 아래 Github 프로젝트들이 상당히 전문적(!)으로 보입니다. 단기간에 따라 하기는 힘들어 보이긴 해도 워낙 대용량 데이터를 다루는 조직이라 꾸준히 배워 나갈 가치가 있겠습니다.

 

CERN Database Group

CERN Database Group has 58 repositories available. Follow their code on GitHub.

github.com

 

반응형