在RapidMiner Studio上安装RapidMiner Radoop

RapidMiner Radoop 是一款在 Hadoop 集群上处理并分析大数据的有图形界面的客户端软件。它可以被安装在 RapidMiner Studio 与/或 RapidMiner Server 上, 提供在 Hadoop 环境中编辑并运行 ETL, 数据分析以及机器学习过程的平台。 RapidMiner Radoop 可以在任何支持 Java 的平台上运行。

将 RapidMiner Radoop 集成到 RapidMiner 高级分析套装与下载扩展并做一些配置更改一样简单。以下指导描述了安装 RapidMiner Radoop 扩展的过程。

前提条件

安装指导假定你已经完成了以下任务。如果这些前置条件中的任意一条没有被满足,请确保在进行安装前完成。

你需要 RapidMiner Studio,最好也安装了 RapidMiner Server。 如果需要的话,可以查看 RapidMiner Studio 或者 RapidMiner Server 的安装指导。
请联系我们购买 RapidMiner Radoop 许可证。
RapidMiner Radoop 需要连接到一个合适配置的 Hadoop 集群。请参考 Hadoop 集群需求以及支持的 Hadoop 分布。
RapidMiner Radoop 支持 Apache Hive 或 Impala。系统必须被安装在Hadoop 集群上。请查看支持的数据仓库系统。
请确保 RapidMiner Radoop 可以链接到您的 Hadoop 集群。在完成RapidMiner Radoop 安装并创建好链接后,可以参考网络设置,以获取更多信息。

为 RapidMiner Radoop 验证端口可获得性

RapidMiner Radoop 需要访问集群上的各种端口。在配置集群链接及安全设置时,请记下端口分配方案以备后面使用。网络设置章节中的表格列出了各种组件默认分配的端口。

Hadoop 集群需求  

RapidMiner Radoop 需要一个连接到适当配置的 Hadoop 集群的链接,在这个集群上,将可以执行所有的数据处理操作并存储与这些处理相关的数据。该集群包含以下组件:

  • 一个支持的Hadoop分布,该分布包含HDFS和MapReduce/YARN
  • 一个分布的数据库仓库系统(Hive 或 Impala)
  • 在集群结点上安装 Java 8 或者更新版本(在 Hadoop 上应用 RapidMiner 模型是必需的)。
  • 也可选择 Apache Spark。 以下您可以在集群上找到关于Spark 需求的详细描述信息。
RapidMiner Radoop 支持从1.2.0 开始的所有 Spark 版本。机器学习算子与每个Spark版本都兼容。Spark 脚本算子需要集群上集成Spark 1.5.0及以上版本。请注意从 Radoop 2.7 开始集群安装支持 Spark 1.5.0。
 


使用 Spark 脚本算子

Apache Spark 1.5.0 在 2015 年 9 月发布,但还没有包括所有的 Hadoop 分布。 如果你想要使用 Spark 脚本算子,并且你的 Hadoop 集群不是 1.5 及以上版本,那么你需要在集群上进行手动安装。您可以从 Apache Spark 下载页面进行下载并安装。请注意安装包类型应当与您的集群设置相匹配。

  • 对于Hadoop 2.6 及以后版本(您需要改变下载链接以及老版本Hadoop的路径):
  • hadoop fs -mkdir -p /tmp/spark
    wget -O /tmp/spark-1.5.2-bin-hadoop2.6.tgz http://d3kbcqa49mib13.cloudfront.net/spark-1.5.2-bin-hadoop2.6.tgz
    tar xzvf /tmp/spark-1.5.2-bin-hadoop2.6.tgz -C /tmp/
    hadoop fs -put /tmp/spark-1.5.2-bin-hadoop2.6/lib/spark-assembly-1.5.2-hadoop2.6.0.jar /tmp/spark/

为了使用 Spark 脚本算子,您需要在集群节点上安装 Python 2.6+ 或者 Python 3.4+(针对于 PySpark 脚本)以及 R 3.1+(针对于 Spark R 脚本)。为了能在 Python 中用 MLlib 功能,请也安装 numpy 包。 推荐 PARQUET-136 Hive version 1.2.0 或以后版本。

考虑使用 Hive 和 Impala作为RapidMiner Radoop 的查询机制的区别。

以下列表包含发布的Impala 1.2.3 不支持的特征。
  • Sort 算子:不指定 LIMIT, Impala 不支持 ORDER BY 从句。您可能使用 Hive 脚本算子通过使用清楚的 LIMIT 从句来实现排序功能。(Impala 1.4.0 及以后版本支持 ORDER BY 从句。)
  • Generate Rank 算子: Impala不支持 RANK 和 DENSE_RANK 从句。
  • Add Noise 算子: 在Impala不支持添加噪声(Add Noise)。.
  • Nominal to Numerical 算子: Impala 不支持名义变量转数字的独特地的整数方式。
  • Pivot Table 算子: 在 Impala 上不支持转置表格(Pivot Table)
  • Apply Model 算子: Impala 不支持模型应用。
  • Update ModelNaive Bayes 算子:在 Impala上, RapidMiner Radoop 不支持朴素贝叶斯(Naive Bayes)或者通过算子进行模型更新。
  • Correlation Matrix, Covariance Matrix, 和 Principal Component Analysis 算子: Impala 不支持 CORR()函数。
  • Performance 算子: 在Impala 上不支持 Performance ( Regression 回归)算子。对于 Performance (Classification )算子,在 Impala 上只支持以下标准:准确性、分类错误和 Kappa。
  • 聚合函数: Impala 不支持一些聚合函数。这可能影响 Generate Attributes (产生属性), Normalize (标准化)和Aggregate (聚合)算子。对于这些限制,即使 Impala 允许运行它们, RapidMiner Radoop 提供了 design-time errors。
  • 非高级 Hive 设置: 您不能为一个Impala链接设置高级Hive参数。
  • 停止流程: 停止一个流程不会杀死集群上当前的工作(当同样也不会开启一个新的流程)。

Hadoop 集群注意事项

尽 管 RapidMiner Radoop 很容易能连接到所有支持的平台上,但是当尝试使用所列分布中的某个遇到问题时,你可能需要进行特殊设置。详细信息可以在分布指定节点 (Distribution Specific Notes)章节中查看。该章列出了您选择HDFS或数据仓库平台时应当注意的所有内容:

MapR Hadoop 集群需要额外安装 MapR 客户端软件。查看MapR分布节点获得配置 RapidMiner Radoop 的指导信息,进而可以添加合适的 JAR 文件来访问 MapR 客户端。
RapidMiner Radoop 支持 DataStax 企业版平台,但是由于许可证问题,只能包含安装DataStax时所带的免费包。您必须获得 DataStax 软件以及 dse.jar (或 dse-<>version>.jar)) 文件,并将其复制到客户端的本地目录中。为了配置RapidMiner Radoop 连接到 DataStax 集群,请参考 DSE 分布节点。
Cloudera Impala 是在 Apache Hadoop 上的开源查询机制。它为存储在 HDFS 上的数据进行 SQL 查询提供了一个低延迟的接口,使 RapidMiner Radoop 的使用接近于在单一主机环境使用的体验。尽管 Cloudera Impala 可以提供比 Hive 更快的反馈时间,但它不支持 HiveQL 的所有特征。

评估 Impala 限制来决定是否要使用它。比如, 如果您需要高级特征(像模型评估),您必需使用 Hive。如果您同时使用 Hive 和 Impala, 咨询 Impala 文件来获得在两个框架中分享元数据的信息。如果同时使用这两个,在 Impala 使用的元数据必须被重新加载并能反映在 Hive 中对元数据所做的改变(如创建新的表格)。(通过激活 Radoop Nest 的重载 Impala 元数据参数来实现该功能)

在RapidMiner Studio上安装RapidMiner Radoop

RapidMiner Radoop 客户端的安装非常简单,假设前提条件都已满足并且有合适的可用端口。该扩展可以非常容易地从 Marketplace 安装。

如果您正在使用 RapidMiner Radoop 2.5或者更早的版本,或者如果您想要手动安装扩展,请按照以下步骤进行操作:

手动安装扩展

在第三步中,将需要把文件移动到:

有两个安装选项,请选择一个:

要让机器上所有用户都能用该插件(全局安装),将该文件移动到安装文件夹下 lib/plugins.

在RapidMiner Studio 6.4及以后版本中,要让该插件只为单一用户所用,请将该文件移动到用户根文件夹下的 。.RapidMiner/extensions/ 。若该扩展文件夹不存在,请自行创建一个。

对于使用 RapidMiner Studio 6.4 及以后版本的 Mac 用户,请将文件移动到.RapidMiner/extensions/. 。如果扩展文件夹不存在,请自行创建一个。 注意 RapidMiner Studio 创建了一个名为 .RapidMiner 的隐藏文件夹,所以如果您看不到该隐藏文件夹,您必须将 Mac 设置为显示隐藏文件。

对于使用 RapidMiner Studio 6.4 之前版本的 Mac 用户,将文件夹移动到在 lib/plugins下的安装文件夹。

安装过程如下:

    1. 如果需要的话,退出RapidMiner Studio。

    2. 从您的确认邮件指定的网址下载RapidMiner Radoop 插件(一个JAR文件)。

    3. 将以下文件移到主文件系统中的RapidMiner Studio目录中:

    • 已下载的RapidMiner Radoop JAR文件 (rapidminer-Radoop-onsite-<version>.jar);
    • 如果使用 RapidMiner Radoop 2.5 或者更早版本,您的 RapidMiner Radoop 许可证文件可以在确认邮件中找到(radoop.license)。注意:此许可证文件从 2.6开始不再发挥作用。

    4. 将许可证文件(对于 2.5 或者更早的版本)和 JAR 文件移动后,重启 RapidMiner。

如果扩展已经被成功安装,在右边将会有一个新的 Hive 管理将会作为一个新的视图出现在 RapidMiner Studio 的开始界面。就是红线标出的部分。

既然 RapidMiner Radoop 已经安装,查看配置链接章节来完成安装。

考虑安全性

考虑以下安全措施来确保您的HDFS和数据仓库基础设施的安全性:

  • 为您的数据仓库系统应用防火墙设置(最好但是不推荐)
  • 使用 Kerberos 或 Apache Sentry 来保护您的集群。查看 Hadoop 安全章节来获得安全配置建议。