こんばんは。今日は、SQL Serverのビッグデータクラスターについて少し調べてみたので、学んだことなどをまとめておきたいと思います。
これ、SQL Server 2019で登場した新しい機能にもかかわらず2025年2月28日に廃止されることが決まっているようで、これから使うことはないと思われますが、登場や廃止の経緯を理解する目的で調べてみました。
それではまいります。
ビッグデータクラスターとは
ビッグ データ クラスターの概要 – SQL Server Big Data Clusters | Microsoft Docs
- SQL Server 2019で登場したSQL Server用のアドオン
- Kubernetes 上で構成された SQL Server、Spark、 HDFS コンテナーのクラスター(いずれもLinuxコンテナ)
- クラスター内のコンポーネントに読み込み・書き込み・処理を並行して実行できるので、RDBMSのデータとビッグデータを簡単に組み合わせて分析できる
- PolyBaseを利用したデータの仮想化にも対応しているので、SQL Server外部のOracle、Teradata、MongoDB などのデータ ソースのデータも照会することもできる
- 上のアーキテクチャ図にある各コンポーネントがKubernetes上に構成される
- 利用するには、Kubernetesを構成した上で、「azdata bdc create」コマンドで展開する
- 2025年2月28日に廃止予定
利用シナリオ例は以下。
1,PolyBaseを利用したデータの仮想化
2,データレイク(HDFS)のデータをSparkやSQL Serverで分析
3,機械学習
ビッグデータクラスター廃止
さて、この機能は廃止されるようなので、動作の詳細を追いかけるよりは、廃止に伴う移行方法を理解しておきたいと思います。
こちらにまとまっています。
Microsoft SQL Server プラットフォームのビッグ データ オプション – SQL Server | Microsoft Docs
いくつかのオプションが紹介されていますが、要はAzure上のサービスの組み合わせでおきかえてね、ということのようですね。この記事を見ていると、この機能を早々に廃止したMicrosoftの意図も見えてきそうです。ビッグデータクラスター機能を使ってがんばって高度なクラスターを1から作りあげるよりも、クラウドを活用してより簡単に実現していこう、ということなのですかね。
- Azure Synapse Analytics
- Azure SQL Database + Azure Machine Learning
- Azure SQL Database + Azure Databricks
- SQL Server 2022(Synapse Link for SQLを利用) + Azure Synapse Analytics
- オンプレでがんばって構成(SQL Server + Apache Spark + オンプレストレージ)
以上、簡単ですが、SQL Serverのビッグデータクラスターの超概要でした。
少しでも参考になりましたら幸いです。
おしまい
コメントを残す