Spark SQL

Spark SQL — это модуль Apache Spark для обработки структурированных данных с помощью SQL-запросов.

  • export SPARK_HOME=/home/maksim/hdp/spark-3.5.6
  • export PATH=$SPARK_HOME/bin:$PATH
./bin/spark-sql \
	--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog \
	--conf spark.sql.catalog.spark_catalog.type=hive \
	--conf spark.sql.catalog.spark_catalog.uri=thrift://100.64.88.101:9083 \
	--conf spark.hadoop.fs.defaultFS=hdfs://100.64.88.101:9000 \
	--conf spark.sql.catalog.spark_catalog.warehouse=hdfs://100.64.88.101:9000/warehouse \
	--conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions