在 RapidMiner Server 中安装 RapidMiner Radoop

安装前准备

在 RapidMiner Server 上安装 RapidMiner Radoop 扩展之前,必须满足下列要求:

    RapidMiner Radoop 扩展已经在 RapidMiner Studio 上安装并测试过。有必要的话,请查看配置 Radoop 连接部分,确保您的 RapidMiner Studio 能够连接到 Hadoop 集群。

在 RapidMiner Server 上安装 RapidMiner Radoop

想要在 RapidMiner Server 上安装 RapidMiner Radoop,您需要把 RapidMiner Studio 中对应的配置文件复制到 RapidMiner Server 的安装路径下。请按以下步骤进行安装:

    1) 停止 RapidMiner Server。

    2) 从 Marketplace 中下载 RapidMiner Radoop 扩展,将下载的文件上传到 RapidMiner Server 用于存储扩展的文件夹路径下。

    如果您无法确定 RapidMiner Server 存储扩展的文件夹路径,请在 RapidMiner Server 网页接口首页上打开 Administration,然后再点击 System Settings。找到名为com.rapidanalytics.plugindir的系统参数,它的值即为扩展存储路径。

    3) 在您安装 RapidMiner Studio 的机器上,找到名为 .RapidMiner 的配置存储目录(该目录由 RapidMiner Studio 自动创建,默认位于安装 RapidMiner Studio 的用户目录下,若找不到,请显示隐藏文件后再查看)。将名为 cipher.keyradoop_connections.xml 的文件复制到安装 RapidMiner Server 的机器中。请在安装 RapidMiner Server 的用户根目录下,找到同样名为 .RapidMiner 的目录,然后复制到该目录下。

    4) 重新启动 RapidMiner Server。

修改 Hadoop 连接

如果您在 RapidMiner Studio 中修改了 Hadoop 连接,您必须在 RapidMiner Server 中做同样的修改。

    1) 停止 RapidMiner Server。

    2) 重新上传 radoop_connections.xml

    3) 重新启动 RapidMiner Server。

配置多连接及其安全性

在一个多用户的 RapidMiner Server 环境中,管理员需要手动编辑 radoop_connections.xml文件,从而确保所有的用户连接都可用。在radoop_connections.xml 文件中,管理员可以配置任意数量的连接,这些连接可以指向同一个 Hadoop 集群,也可以指向不同的 Hadoop 集群。他们也可以为同一个用户或不同用户创建连接(例如,通过不同的 Hadoop 用户名域)。

您必须在连接配置文件中列出所有有可能被流程用到的连接,且在 RapidMiner Server 上为连接定义的名称必须与上传流程的 RapidMiner Studio 中相同。但是 RapidMiner Studio 用户只需在本地机器中配置自己所需的连接即可。命名连接的例子:<cluster_name>_<username>,其中 <cluster_name>是 Hadoop 集群的标识符,<username>是用户的标识符(可以与 Hadoop 中用户名域的值相同)。

从 RapidMiner Radoop 2.3.1 开始,您可以配置某些用户或某个组的用户才能使用某个 Hadoop 连接。这意味着如果一个 RapidMiner Server 用户不在可以使用连接的用户白名单上,那么他在上传 Radoop 流程时就不能使用这个连接。通过这种方式,管理员可以确保用户不能使用未被授权的连接,也无法通过修改流程中的标识符来逃避限制。要定义连接白名单,您可以在radoop_connections.xml 文件中的 radoop-connection-entry 下添加 accesswhitelist 标签。这个标签的值可以是任意正则表达式,只有配置这个正则表达式的用户可以使用这个连接。如果 accesswhitelist 标签没有指定连接,则任何用户都可以使用它。

                      <radoop-connection-entry><br />
    &#8230;.<br />
    <accesswhitelist>john|scott|allen</accesswhitelist><br />
</radoop-connection-entry>
                    

使用 Kerberos 验证连接 Hadoop 集群

如果您想配置使用 Kerberos 验证的 Hadoop 集群连接,详情请查阅第五部分的 Hadoop 安全。但是使用时请注意以下几点。

注意:一个 RapidMiner Server 只能与一个单个的 Kerberized Hadoop 集群对话,更准确地说,是一个单个的 Kerberos Realm。这种限制是由 Java Kerberos 架构决定的。但是,多个用户可以通过 RapidMiner Server 实例并发地使用这个 kerberized Hadoop 集群。

所有到 Kerberized Hadoop 集群的连接必须指定用户 keytab 文件的路径。也就是说,RapidMiner Server 可以访问本地文件系统中的用户 keytab 文件。通常地,RapidMiner Server 上的这个路径与用户在 RapidMiner Studio 中使用的路径不同。管理员必须在 radoop_connections.xml 文件中指定 keytabFile 属性的值指向服务器上正确的路径。运行 RapidMiner Server 的用户要有访问这些 keytab 文件的权限。