Spark

아파치 스파크(Apache Spark)는 통합 클러스터 환경에서 데이터를 병렬로 처리하는 통합 컴퓨팅 엔진과 라이브러리의 집합 으로 정의할 수 있다.

아파치(Apache)는 오픈 소스 소프트웨어 프로젝트를 운영하는 비영리 단체로써, Apache HTTP 서버를 개발하던 Apache 그룹을 모태로 하여 1999년에 설립되었다.

스파크는 이 아파치의 오픈소스 클러스터 컴퓨팅 프레임워크로써, 데이터 분석과 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공한다.

단일 노트북 환경부터 수천 개의 서버로 구성된 클러스터까지 다양한 환경에서 사용이 가능하다. 이러한 특성 때문에 빅데이터를 다루는 법을 쉽게 배우기 시작할 수 있다는 것도 또 하나의 특징이다.

언어는 Scalar, Java, Python, R를 지원하며, 우리는 앞으로 PySpark를 활용하여 Spark를 살펴볼 것이다.



Reference

스파크 완벽 가이드: CHAPTER 1, 55p