Skip to content

Commit a5b130c

Browse files
committed
Merge branch 'main' into scalardb/update-docs-3.16-en-us
2 parents b2015ce + 42a4d3b commit a5b130c

File tree

5 files changed

+121
-592
lines changed

5 files changed

+121
-592
lines changed

i18n/versioned_docs/ja-jp/docusaurus-plugin-content-docs/current/scalardb-analytics/README.mdx

Lines changed: 0 additions & 23 deletions
This file was deleted.

i18n/versioned_docs/ja-jp/docusaurus-plugin-content-docs/current/scalardb-analytics/deployment.mdx

Lines changed: 50 additions & 54 deletions
Original file line numberDiff line numberDiff line change
@@ -12,20 +12,38 @@ import TranslationBanner from '/src/components/_translation-ja-jp.mdx';
1212

1313
<TranslationBanner />
1414

15-
このガイドでは、パブリッククラウド環境に ScalarDB Analytics をデプロイする方法について説明します。ScalarDB Analytics は現在、実行エンジンとして Apache Spark を使用しており、Amazon EMR Databricks などのパブリッククラウドプロバイダーが提供するマネージド Spark サービスをサポートしています
15+
このガイドでは、パブリッククラウド環境に ScalarDB Analytics をデプロイする方法について説明します。ScalarDB Analytics は 2 つの主要なコンポーネントで構成されています:ScalarDB Analytics サーバーと Apache Spark です。このガイドでは、Spark 環境として Amazon EMR または Databricks を選択できます
1616

17-
## サポートされているマネージド Spark サービスとそのアプリケーションタイプ
17+
詳細については、[ScalarDB Analytics の設計](./design.mdx)を参照してください。
18+
19+
## ScalarDB Analytics catalog server のデプロイ
20+
21+
ScalarDB Analytics には、メタデータとデータソース接続を管理する catalog server が必要です。Catalog server は、Kubernetes クラスター上で Helm チャートを使用してデプロイする必要があります。
22+
23+
詳細なデプロイ手順については、[TBD - Helm チャートデプロイメントガイド]を参照してください。
24+
25+
Catalog server をデプロイした後、Spark 設定のために以下の情報をメモしてください:
26+
27+
- catalog server のホストアドレス
28+
- カタログポート(デフォルト:11051)
29+
- メータリングポート(デフォルト:11052)
30+
31+
## Spark と ScalarDB Analytics のデプロイ
32+
33+
Catalog server をデプロイした後、マネージド Spark サービスを使用して Spark と ScalarDB Analytics を設定およびデプロイできます。
34+
35+
### サポートされているマネージド Spark サービスとそのアプリケーションタイプ
1836

1937
ScalarDB Analytics は以下のマネージド Spark サービスとアプリケーションタイプをサポートしています。
2038

21-
| パブリッククラウドサービス | Spark Driver | Spark Connect | JDBC |
39+
| パブリッククラウドサービス | Spark ドライバー | Spark Connect | JDBC |
2240
| -------------------------- | ------------ | ------------- | ---- |
2341
| Amazon EMR (EMR on EC2) ||||
2442
| Databricks ||||
2543

26-
## 設定とデプロイ
44+
### 設定とデプロイ
2745

28-
パブリッククラウド環境を選択し、指示に従って ScalarDB Analytics を設定およびデプロイしてください。
46+
パブリッククラウド環境を選択し、指示に従って Spark と ScalarDB Analytics を設定およびデプロイしてください。
2947

3048
<Tabs groupId="cloud-service" queryString>
3149
<TabItem value="emr" label="Amazon EMR">
@@ -44,37 +62,35 @@ ScalarDB Analytics を有効にするには、EMR クラスターを起動する
4462
"Classification": "spark-defaults",
4563
"Properties": {
4664
"spark.jars.packages": "com.scalar-labs:scalardb-analytics-spark-all-<SPARK_VERSION>_<SCALA_VERSION>:<SCALARDB_ANALYTICS_VERSION>",
47-
"spark.sql.catalog.<CATALOG_NAME>": "com.scalar.db.analytics.spark.ScalarDbAnalyticsCatalog",
48-
"spark.sql.extensions": "com.scalar.db.analytics.spark.extension.ScalarDbAnalyticsExtensions",
49-
"spark.sql.catalog.<CATALOG_NAME>.license.cert_pem": "<YOUR_LICENSE_CERT_PEM>",
50-
"spark.sql.catalog.<CATALOG_NAME>.license.key": "<YOUR_LICENSE_KEY>",
51-
52-
// 以下にデータソースの設定を続けてください
65+
"spark.extraListeners": "com.scalar.db.analytics.spark.metering.ScalarDbAnalyticsListener",
66+
"spark.sql.catalog.<CATALOG_NAME>": "com.scalar.db.analytics.spark.catalog.ScalarDBAnalyticsCatalog",
67+
"spark.sql.catalog.<CATALOG_NAME>.server.host": "<CATALOG_SERVER_HOST>",
68+
"spark.sql.catalog.<CATALOG_NAME>.server.catalog.port": "11051",
69+
"spark.sql.catalog.<CATALOG_NAME>.server.metering.port": "11052"
5370
}
5471
}
5572
]
5673
```
5774

5875
括弧内の内容は以下のように変更してください:
5976

60-
- `<SPARK_VERSION>`: Spark のバージョン
61-
- `<SCALA_VERSION>`: Spark のビルドに使用される Scala のバージョン
62-
- `<SCALARDB_ANALYTICS_VERSION>`: ScalarDB Analytics のバージョン
63-
- `<CATALOG_NAME>`: カタログの名前
64-
- `<YOUR_LICENSE_CERT_PEM>`: PEM エンコードされたライセンス証明書
65-
- `<YOUR_LICENSE_KEY>`: ライセンスキー
77+
- `<SPARK_VERSION>`: Spark のバージョン(例:`3.5` または `3.4`
78+
- `<SCALA_VERSION>`: Spark のビルドに使用される Scala のバージョン(例:`2.13` または `2.12`
79+
- `<SCALARDB_ANALYTICS_VERSION>`: ScalarDB Analytics のバージョン(例:`3.16.0`
80+
- `<CATALOG_NAME>`: カタログの名前。これは ScalarDB Analytics サーバー上で作成されたカタログと一致する必要があります。
81+
- `<CATALOG_SERVER_HOST>`: ScalarDB Analytics サーバーのホストアドレス
6682

6783
詳細については、[ScalarDB Analytics のセットアップのための Spark 設定](./run-analytical-queries.mdx#scalardb-analytics-のセットアップのための-spark-設定)を参照してください。
6884

69-
<h4>Spark Driver を介した分析クエリの実行</h4>
85+
<h4>Spark ドライバーを介した分析クエリの実行</h4>
7086

71-
EMR Spark クラスターが起動した後、ssh を使用して EMR クラスターのプライマリノードに接続し、Spark アプリケーションを実行できます。Spark Driver アプリケーションの作成方法の詳細については[Spark Driver アプリケーション](./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発)を参照してください。
87+
EMR Spark クラスターが起動した後、ssh を使用して EMR クラスターのプライマリノードに接続し、Spark アプリケーションを実行できます。Spark ドライバーアプリケーションの作成方法の詳細については[Spark ドライバーアプリケーション](./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発)を参照してください。
7288

7389
<h4>Spark Connect を介した分析クエリの実行</h4>
7490

7591
Spark Connect を使用して、起動した EMR クラスターを使用して Spark アプリケーションをリモートで実行できます。
7692

77-
まず、[Spark Driver アプリケーション](./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発)と同じようにソフトウェア設定を構成する必要があります。また、Spark Connect を有効にするために次の設定も行う必要があります。
93+
まず、[Spark ドライバーアプリケーション](./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発)と同じようにソフトウェア設定を構成する必要があります。また、Spark Connect を有効にするために次の設定も行う必要があります。
7894

7995
<h5>Spark Connect サーバーのインバウンドトラフィックを許可する</h5>
8096

@@ -129,46 +145,26 @@ Databricks は Apache Spark の修正版を提供しており、オリジナル
129145

130146
ScalarDB Analytics は Databricks の汎用クラスターとジョブコンピュートクラスターで動作します。クラスターを起動するとき、ScalarDB Analytics を有効にするために以下のようにクラスターを設定する必要があります:
131147

132-
1. Databricks CLI を使用して、ライセンス証明書とライセンスキーをクラスターに保存します。
133-
134-
```console
135-
databricks secrets create-scope scalardb-analytics-secret # 任意のシークレットスコープ名を使用できます
136-
cat license_key.json | databricks secrets put-secret scalardb-analytics-secret license-key
137-
cat license_cert.pem | databricks secrets put-secret scalardb-analytics-secret license-cert
138-
```
139-
140-
:::note
141-
142-
Databricks CLI のインストールと使用方法の詳細については、[Databricks CLI ドキュメント](https://docs.databricks.com/en/dev-tools/cli/index.html)を参照してください。
143-
144-
:::
145-
146-
2. クラスターモードに「No isolation shared」を選択します。(これは必須です。ScalarDB Analytics はこのクラスターモードでのみ動作します。)
147-
3. Spark 3.4以降をサポートする適切な Databricks ランタイムバージョンを選択します。
148-
4. 「詳細オプション」>「Spark 設定」を以下のように設定します。`<CATALOG_NAME>` を使用したいカタログの名前に置き換えてください:
148+
1. クラスターモードに「No isolation shared」を選択します。(これは必須です。ScalarDB Analytics はこのクラスターモードでのみ動作します。)
149+
2. Spark 3.4以降をサポートする適切な Databricks ランタイムバージョンを選択します。
150+
3. 「詳細オプション」>「Spark 設定」を以下のように設定します:
149151

150152
```
151-
spark.sql.catalog.<CATALOG_NAME> com.scalar.db.analytics.spark.ScalarDbAnalyticsCatalog
152-
spark.sql.extensions com.scalar.db.analytics.spark.extension.ScalarDbAnalyticsExtensions
153-
spark.sql.catalog.<CATALOG_NAME>.license.key {{secrets/scalardb-analytics-secret/license-key}}
154-
spark.sql.catalog.<CATALOG_NAME>.license.cert_pem {{secrets/scalardb-analytics-secret/license-pem}}
153+
spark.extraListeners com.scalar.db.analytics.spark.metering.ScalarDbAnalyticsListener
154+
spark.sql.catalog.<CATALOG_NAME> com.scalar.db.analytics.spark.catalog.ScalarDBAnalyticsCatalog
155+
spark.sql.catalog.<CATALOG_NAME>.server.host <CATALOG_SERVER_HOST>
156+
spark.sql.catalog.<CATALOG_NAME>.server.catalog.port 11051
157+
spark.sql.catalog.<CATALOG_NAME>.server.metering.port 11052
155158
```
156159

157-
:::note
158-
159-
データソースも設定する必要があります。詳細については、[ScalarDB Analytics のセットアップのための Spark 設定](./run-analytical-queries.mdx#scalardb-analytics-のセットアップのための-spark-設定)を参照してください。
160+
プレースホルダーを置き換えてください:
160161

161-
:::
162-
163-
:::note
164-
165-
前のステップで異なるシークレット名を指定した場合は、上記の設定でシークレット名を必ず置き換えてください。
166-
167-
:::
162+
- `<CATALOG_NAME>`: カタログの名前。これは ScalarDB Analytics サーバー上で作成されたカタログと一致する必要があります。
163+
- `<CATALOG_SERVER_HOST>`: ScalarDB Analytics サーバーのホストアドレス
168164

169-
5. Maven 依存関係として、起動したクラスターに ScalarDB Analytics のライブラリを追加します。ライブラリの追加方法の詳細については、[Databricks クラスターライブラリドキュメント](https://docs.databricks.com/en/libraries/cluster-libraries.html)を参照してください。
165+
4. Maven 依存関係として、起動したクラスターに ScalarDB Analytics のライブラリを追加します。ライブラリの追加方法の詳細については、[Databricks クラスターライブラリドキュメント](https://docs.databricks.com/en/libraries/cluster-libraries.html)を参照してください。
170166

171-
<h4>Spark Driver を介した分析クエリの実行</h4>
167+
<h4>Spark ドライバーを介した分析クエリの実行</h4>
172168

173169
適切に設定された Databricks クラスターで Spark アプリケーションを Databricks Notebook または Databricks Jobs で実行して、ScalarDB Analytics 内のテーブルにアクセスできます。Spark アプリケーションを実行するには、Pyspark、Scala、または Spark SQL アプリケーションを Databricks Notebook に移行するか、Databricks Jobs を使用して Spark アプリケーションを実行できます。ScalarDB Analytics は Notebook、Python、JAR、および SQL のタスクタイプで動作します。
174170

@@ -188,7 +184,7 @@ Databricks はクラスター上で SQL ジョブを実行するための JDBC
188184

189185
# Target directories
190186
TARGET_DIRECTORIES=("/databricks/jars" "/databricks/hive_metastore_jars")
191-
JAR_PATH="<PATH_TO_YOUR_JAR_FILE_IN_WORKSPACE>
187+
JAR_PATH="<PATH_TO_YOUR_JAR_FILE_IN_WORKSPACE>"
192188

193189
# Copy the JAR file to the target directories
194190
for TARGET_DIR in "${TARGET_DIRECTORIES[@]}"; do

0 commit comments

Comments
 (0)