Spark. RDD (Resilient Distributed Dataset)

Resilient Distributed Dataset (RDD) — это основная абстракция в Apache Spark, представляющая собой распределенную коллекцию объектов, способную выполнять параллельные вычисления на кластере, обладающую устойчивостью к отказам и поддерживающую операции трансформации и действий.

from pyspark import SparkContext
 
# Создание SparkContext
sc = SparkContext("local", "Simple RDD Example")
 
# Создание RDD из списка
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
 
# Пример трансформации: умножение каждого элемента на 2
transformed_rdd = rdd.map(lambda x: x * 2)
 
# Пример действия: получение всех элементов RDD
collected_data = transformed_rdd.collect()
 
# Печать результатов
print(collected_data)  # Вывод: [2, 4, 6, 8, 10]
 
# Пример действия: сумма элементов
sum_result = rdd.reduce(lambda a, b: a + b)
print(sum_result)  # Вывод: 15
 
# Завершение работы SparkContext
sc.stop()

🌱📚 MakSim garden

Проводник

Spark. RDD (Resilient Distributed Dataset)

Вид графа

Обратные ссылки