如何在Debian 10上安装Apache Spark集群计算框架

[*]如何在Debian 10上安装Apache Spark集群计算框架

Apache Spark是一个免费的开源集群计算框架,用于分析大量数据,机器学习和图形处理。 Spark带有80多个高级运算符,用于构建并行应用程序并从Scala,Python,R和SQL Shell交互使用它们。它是专门为数据科学设计的超快速内存数据处理引擎。它提供了丰富的功能集,包括速度,容错能力,实时流处理,内存计算和高级分析。

本教程显示了如何在Debian 10服务器上安装Apache Spark。

前提条件

  • 运行带有2 GB RAM的Debian 10的服务器。
  • 在服务器上配置了root密码。

引言

在开始之前,我们建议您将服务器更新到最新版本。您可以使用以下命令进行更新:

apt-get update -y apt-get upgrade -y

更新服务器后,请重新启动服务器以实施更改。

安装Java

Apache Spark用Java语言编写。因此,您需要在系统上安装Java。默认情况下,Debian 10默认存储库中提供了最新版本的Java。您可以使用以下命令进行安装:

apt-get install default-jdk -y

安装Java之后,使用以下命令检查已安装的Java版本:

java --version

您将获得以下输出:

openjdk 11.0.5 2019-10-15
OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)

下载Apache Spark

首先,您需要从官方网站下载最新版本的Apache Spark。在撰写本文时,Apache Spark的最新版本是3.0。您可以使用以下命令将其下载到/ opt目录:

cd /opt wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

下载完成后,使用以下命令解压缩下载的文件:

tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz

接下来,将提取的目录重命名为spark,如下所示。

mv spark-3.0.0-preview2-bin-hadoop2.7 spark

接下来,您需要设置Spark环境。您可以通过编辑〜/ .bashrc文件来做到这一点:

nano ~/.bashrc

将以下行添加到文件末尾:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

完成后,保存并关闭文件。接下来,使用以下命令激活环境:

source ~/.bashrc

启动主服务器

现在,您可以使用以下命令启动主服务器:

start-master.sh

您将获得以下输出:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

默认情况下,Apache Spark在端口8080上侦听。您可以使用以下命令进行检查:

netstat -ant | grep 8080

输出:

tcp6       0      0 :::8080                 :::*                    LISTEN

接下来,打开Web浏览器并输入URL http:// server-ip-address:8080。显示以下页面。

写下Spark URL。spark:// debian10:7077从上图。这用于启动Spark worker进程。

启动Spark Worker进程

现在,您可以使用以下命令启动Spark worker进程:

start-slave.sh spark://debian10:7077

您将获得以下输出:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

存取Spark Shell

Spark Shell是一个交互式环境,提供了一种轻松学习API并以交互方式分析数据的方法。您可以使用以下命令访问Spark Shell:

spark-shell

您将看到以下输出:

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1577634806690).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _ / _ / _ `/ __/  '_/
   /___/ .__/_,_/_/ /_/_   version 3.0.0-preview2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

在这里,您可以学习如何快速方便地使用Apache Spark。

要停止Spark主服务器和从服务器,请执行以下命令:

stop-slave.sh stop-master.sh

到目前为止,您已经在Debian 10服务器上成功安装了Apache Spark。有关更多信息,请参见Spark官方文档。 Spark文档

Source

Sidebar