databricks 3

[Spark] Databricks Spark 자격증 취득 후기 (기출 문제 포함, 할인방법 )- Databricks Certified Associate Developer for Apache Spark

0. 개요최근 몇년간 심심치 않게 접하는 Spark 에 대해 관심을 갖고 공부해가고 있었으나, 조금 더 내부적인 구조를 상세히 뜯어볼 겸 자격증을 취득하고자 하여 응시를 마음먹게 되었습니다. 1. 시험설명https://www.databricks.com/learn/certification/apache-spark-developer-associate Databricks Certified Associate Developer for Apache Spark | DatabricksThe Databricks Certified Associate Developer for Apache Spark certification exam assesses the understanding of the Spark DataFrame API..

자격증 2024.12.24

[Spark] Spark 실행 방식 - SparkDriver, ClusterManager

Spark 구성Spark는 Drvier 프로세스 1개와 다수의 Executor, 그리고 1개의 Cluster Manager로 구성된다.  Spark 구성 별 역할SparkDriver - 유저의 진입점이다. SparkSession or SparkContext를 초기화하고, 각 작업을 Executor에게 분배한다.- 사용자의 실행 코드를 실행 계획(DAG) 로 변환한다.- Cluster Manger 와 통신하여 Executor를 할당받는다.- Driver가 Cluster에서 실행되면 Cluster 모드, 외부에서 실행하면 Client 모드라고 한다. Cluster Manager- 리소스 매니저, SparkDriver에게 리소스를 요청받으면 가용 Executor를 할당해 준다.- Yarn, mesos, kub..

[Spark] Shuffle 이란? - Wide Transformation, Narrow Transformation

Shuffle 이란?Spark 는 여러 노드들에 데이터를 분산하여 병렬로 Task 를 수행하는데,  현재 분산되어 있는 구조로 수행하지 못하는 작업이 발생하면 특정 동작을 통해 데이터를 노드에 재분배하는 작업을 거친다. 이를 Shuffle 이라고 한다. 예를들어 정렬을 한다고 해보자. 정렬은 모든 데이터를 순서에 맞춰 봐야하기 떄문에 특정 순서에 맞게 재배치하는Shuffle 이 수행된다.그럼 Count 는? 특정 데이터의 종류를 세는 연산은 각 파티션에서 병렬로 수행 후 취합하면 된다. 즉 독립적으로 처리할 수 있는 작업이므로 Shuffle이 수행되지 않는다. 이 외에 groupByKey, reduceByKey, join 등에선 shuffle 발생하고, fillter, map 등에선 shuffle이 발생..