@@ -12,20 +12,38 @@ import TranslationBanner from '/src/components/_translation-ja-jp.mdx';
1212
1313<TranslationBanner />
1414
15- このガイドでは、パブリッククラウド環境に ScalarDB Analytics をデプロイする方法について説明します。ScalarDB Analytics は現在、実行エンジンとして Apache Spark を使用しており、 Amazon EMR や Databricks などのパブリッククラウドプロバイダーが提供するマネージド Spark サービスをサポートしています 。
15+ このガイドでは、パブリッククラウド環境に ScalarDB Analytics をデプロイする方法について説明します。ScalarDB Analytics は 2 つの主要なコンポーネントで構成されています:ScalarDB Analytics サーバーと Apache Spark です。このガイドでは、Spark 環境として Amazon EMR または Databricks を選択できます 。
1616
17- ## サポートされているマネージド Spark サービスとそのアプリケーションタイプ
17+ 詳細については、[ ScalarDB Analytics の設計] ( ./design.mdx ) を参照してください。
18+
19+ ## ScalarDB Analytics catalog server のデプロイ
20+
21+ ScalarDB Analytics には、メタデータとデータソース接続を管理する catalog server が必要です。Catalog server は、Kubernetes クラスター上で Helm チャートを使用してデプロイする必要があります。
22+
23+ 詳細なデプロイ手順については、[ TBD - Helm チャートデプロイメントガイド] を参照してください。
24+
25+ Catalog server をデプロイした後、Spark 設定のために以下の情報をメモしてください:
26+
27+ - catalog server のホストアドレス
28+ - カタログポート(デフォルト:11051)
29+ - メータリングポート(デフォルト:11052)
30+
31+ ## Spark と ScalarDB Analytics のデプロイ
32+
33+ Catalog server をデプロイした後、マネージド Spark サービスを使用して Spark と ScalarDB Analytics を設定およびデプロイできます。
34+
35+ ### サポートされているマネージド Spark サービスとそのアプリケーションタイプ
1836
1937ScalarDB Analytics は以下のマネージド Spark サービスとアプリケーションタイプをサポートしています。
2038
21- | パブリッククラウドサービス | Spark Driver | Spark Connect | JDBC |
39+ | パブリッククラウドサービス | Spark ドライバー | Spark Connect | JDBC |
2240| -------------------------- | ------------ | ------------- | ---- |
2341| Amazon EMR (EMR on EC2) | ✅ | ✅ | ❌ |
2442| Databricks | ✅ | ❌ | ✅ |
2543
26- ## 設定とデプロイ
44+ ### 設定とデプロイ
2745
28- パブリッククラウド環境を選択し、指示に従って ScalarDB Analytics を設定およびデプロイしてください。
46+ パブリッククラウド環境を選択し、指示に従って Spark と ScalarDB Analytics を設定およびデプロイしてください。
2947
3048<Tabs groupId = " cloud-service" queryString >
3149 <TabItem value = " emr" label = " Amazon EMR" >
@@ -44,37 +62,35 @@ ScalarDB Analytics を有効にするには、EMR クラスターを起動する
4462 "Classification" : " spark-defaults" ,
4563 "Properties" : {
4664 "spark.jars.packages" : " com.scalar-labs:scalardb-analytics-spark-all-<SPARK_VERSION>_<SCALA_VERSION>:<SCALARDB_ANALYTICS_VERSION>" ,
47- "spark.sql.catalog.<CATALOG_NAME>" : " com.scalar.db.analytics.spark.ScalarDbAnalyticsCatalog" ,
48- "spark.sql.extensions" : " com.scalar.db.analytics.spark.extension.ScalarDbAnalyticsExtensions" ,
49- "spark.sql.catalog.<CATALOG_NAME>.license.cert_pem" : " <YOUR_LICENSE_CERT_PEM>" ,
50- "spark.sql.catalog.<CATALOG_NAME>.license.key" : " <YOUR_LICENSE_KEY>" ,
51-
52- // 以下にデータソースの設定を続けてください
65+ "spark.extraListeners" : " com.scalar.db.analytics.spark.metering.ScalarDbAnalyticsListener" ,
66+ "spark.sql.catalog.<CATALOG_NAME>" : " com.scalar.db.analytics.spark.catalog.ScalarDBAnalyticsCatalog" ,
67+ "spark.sql.catalog.<CATALOG_NAME>.server.host" : " <CATALOG_SERVER_HOST>" ,
68+ "spark.sql.catalog.<CATALOG_NAME>.server.catalog.port" : " 11051" ,
69+ "spark.sql.catalog.<CATALOG_NAME>.server.metering.port" : " 11052"
5370 }
5471 }
5572]
5673```
5774
5875括弧内の内容は以下のように変更してください:
5976
60- - ` <SPARK_VERSION> ` : Spark のバージョン
61- - ` <SCALA_VERSION> ` : Spark のビルドに使用される Scala のバージョン
62- - ` <SCALARDB_ANALYTICS_VERSION> ` : ScalarDB Analytics のバージョン
63- - ` <CATALOG_NAME> ` : カタログの名前
64- - ` <YOUR_LICENSE_CERT_PEM> ` : PEM エンコードされたライセンス証明書
65- - ` <YOUR_LICENSE_KEY> ` : ライセンスキー
77+ - ` <SPARK_VERSION> ` : Spark のバージョン(例:` 3.5 ` または ` 3.4 ` )
78+ - ` <SCALA_VERSION> ` : Spark のビルドに使用される Scala のバージョン(例:` 2.13 ` または ` 2.12 ` )
79+ - ` <SCALARDB_ANALYTICS_VERSION> ` : ScalarDB Analytics のバージョン(例:` 3.16.0 ` )
80+ - ` <CATALOG_NAME> ` : カタログの名前。これは ScalarDB Analytics サーバー上で作成されたカタログと一致する必要があります。
81+ - ` <CATALOG_SERVER_HOST> ` : ScalarDB Analytics サーバーのホストアドレス
6682
6783詳細については、[ ScalarDB Analytics のセットアップのための Spark 設定] ( ./run-analytical-queries.mdx#scalardb-analytics-のセットアップのための-spark-設定 ) を参照してください。
6884
69- <h4 >Spark Driver を介した分析クエリの実行 </h4 >
85+ <h4 >Spark ドライバーを介した分析クエリの実行 </h4 >
7086
71- EMR Spark クラスターが起動した後、ssh を使用して EMR クラスターのプライマリノードに接続し、Spark アプリケーションを実行できます。Spark Driver アプリケーションの作成方法の詳細については 、[ Spark Driver アプリケーション ] ( ./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発 ) を参照してください。
87+ EMR Spark クラスターが起動した後、ssh を使用して EMR クラスターのプライマリノードに接続し、Spark アプリケーションを実行できます。Spark ドライバーアプリケーションの作成方法の詳細については 、[ Spark ドライバーアプリケーション ] ( ./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発 ) を参照してください。
7288
7389<h4 >Spark Connect を介した分析クエリの実行</h4 >
7490
7591Spark Connect を使用して、起動した EMR クラスターを使用して Spark アプリケーションをリモートで実行できます。
7692
77- まず、[ Spark Driver アプリケーション ] ( ./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発 ) と同じようにソフトウェア設定を構成する必要があります。また、Spark Connect を有効にするために次の設定も行う必要があります。
93+ まず、[ Spark ドライバーアプリケーション ] ( ./run-analytical-queries.mdx?spark-application-type=spark-driver#spark-アプリケーションの開発 ) と同じようにソフトウェア設定を構成する必要があります。また、Spark Connect を有効にするために次の設定も行う必要があります。
7894
7995<h5 >Spark Connect サーバーのインバウンドトラフィックを許可する</h5 >
8096
@@ -129,46 +145,26 @@ Databricks は Apache Spark の修正版を提供しており、オリジナル
129145
130146ScalarDB Analytics は Databricks の汎用クラスターとジョブコンピュートクラスターで動作します。クラスターを起動するとき、ScalarDB Analytics を有効にするために以下のようにクラスターを設定する必要があります:
131147
132- 1 . Databricks CLI を使用して、ライセンス証明書とライセンスキーをクラスターに保存します。
133-
134- ``` console
135- databricks secrets create-scope scalardb-analytics-secret # 任意のシークレットスコープ名を使用できます
136- cat license_key.json | databricks secrets put-secret scalardb-analytics-secret license-key
137- cat license_cert.pem | databricks secrets put-secret scalardb-analytics-secret license-cert
138- ```
139-
140- :::note
141-
142- Databricks CLI のインストールと使用方法の詳細については、[ Databricks CLI ドキュメント] ( https://docs.databricks.com/en/dev-tools/cli/index.html ) を参照してください。
143-
144- :::
145-
146- 2 . クラスターモードに「No isolation shared」を選択します。(これは必須です。ScalarDB Analytics はこのクラスターモードでのみ動作します。)
147- 3 . Spark 3.4以降をサポートする適切な Databricks ランタイムバージョンを選択します。
148- 4 . 「詳細オプション」>「Spark 設定」を以下のように設定します。` <CATALOG_NAME> ` を使用したいカタログの名前に置き換えてください:
148+ 1 . クラスターモードに「No isolation shared」を選択します。(これは必須です。ScalarDB Analytics はこのクラスターモードでのみ動作します。)
149+ 2 . Spark 3.4以降をサポートする適切な Databricks ランタイムバージョンを選択します。
150+ 3 . 「詳細オプション」>「Spark 設定」を以下のように設定します:
149151
150152```
151- spark.sql.catalog.<CATALOG_NAME> com.scalar.db.analytics.spark.ScalarDbAnalyticsCatalog
152- spark.sql.extensions com.scalar.db.analytics.spark.extension.ScalarDbAnalyticsExtensions
153- spark.sql.catalog.<CATALOG_NAME>.license.key {{secrets/scalardb-analytics-secret/license-key}}
154- spark.sql.catalog.<CATALOG_NAME>.license.cert_pem {{secrets/scalardb-analytics-secret/license-pem}}
153+ spark.extraListeners com.scalar.db.analytics.spark.metering.ScalarDbAnalyticsListener
154+ spark.sql.catalog.<CATALOG_NAME> com.scalar.db.analytics.spark.catalog.ScalarDBAnalyticsCatalog
155+ spark.sql.catalog.<CATALOG_NAME>.server.host <CATALOG_SERVER_HOST>
156+ spark.sql.catalog.<CATALOG_NAME>.server.catalog.port 11051
157+ spark.sql.catalog.<CATALOG_NAME>.server.metering.port 11052
155158```
156159
157- :::note
158-
159- データソースも設定する必要があります。詳細については、[ ScalarDB Analytics のセットアップのための Spark 設定] ( ./run-analytical-queries.mdx#scalardb-analytics-のセットアップのための-spark-設定 ) を参照してください。
160+ プレースホルダーを置き換えてください:
160161
161- :::
162-
163- :::note
164-
165- 前のステップで異なるシークレット名を指定した場合は、上記の設定でシークレット名を必ず置き換えてください。
166-
167- :::
162+ - ` <CATALOG_NAME> ` : カタログの名前。これは ScalarDB Analytics サーバー上で作成されたカタログと一致する必要があります。
163+ - ` <CATALOG_SERVER_HOST> ` : ScalarDB Analytics サーバーのホストアドレス
168164
169- 5 . Maven 依存関係として、起動したクラスターに ScalarDB Analytics のライブラリを追加します。ライブラリの追加方法の詳細については、[ Databricks クラスターライブラリドキュメント] ( https://docs.databricks.com/en/libraries/cluster-libraries.html ) を参照してください。
165+ 4 . Maven 依存関係として、起動したクラスターに ScalarDB Analytics のライブラリを追加します。ライブラリの追加方法の詳細については、[ Databricks クラスターライブラリドキュメント] ( https://docs.databricks.com/en/libraries/cluster-libraries.html ) を参照してください。
170166
171- <h4 >Spark Driver を介した分析クエリの実行 </h4 >
167+ <h4 >Spark ドライバーを介した分析クエリの実行 </h4 >
172168
173169適切に設定された Databricks クラスターで Spark アプリケーションを Databricks Notebook または Databricks Jobs で実行して、ScalarDB Analytics 内のテーブルにアクセスできます。Spark アプリケーションを実行するには、Pyspark、Scala、または Spark SQL アプリケーションを Databricks Notebook に移行するか、Databricks Jobs を使用して Spark アプリケーションを実行できます。ScalarDB Analytics は Notebook、Python、JAR、および SQL のタスクタイプで動作します。
174170
@@ -188,7 +184,7 @@ Databricks はクラスター上で SQL ジョブを実行するための JDBC
188184
189185# Target directories
190186TARGET_DIRECTORIES=(" /databricks/jars" " /databricks/hive_metastore_jars" )
191- JAR_PATH=" <PATH_TO_YOUR_JAR_FILE_IN_WORKSPACE>
187+ JAR_PATH=" <PATH_TO_YOUR_JAR_FILE_IN_WORKSPACE>"
192188
193189# Copy the JAR file to the target directories
194190for TARGET_DIR in " ${TARGET_DIRECTORIES[@]} " ; do
0 commit comments