【3分で流し読み】SQL Serverのビッグデータクラスターでできることを理解する【廃止が決まってるけど】

こんばんは。今日は、SQL Serverのビッグデータクラスターについて少し調べてみたので、学んだことなどをまとめておきたいと思います。

これ、SQL Server 2019で登場した新しい機能にもかかわらず2025年2月28日に廃止されることが決まっているようで、これから使うことはないと思われますが、登場や廃止の経緯を理解する目的で調べてみました。

それではまいります。

ビッグデータクラスターとは

ビッグ データ クラスターの概要 – SQL Server Big Data Clusters | Microsoft Docs

ビッグデータクラスターのアーキテクチャ(公式Docより引用)
  • SQL Server 2019で登場したSQL Server用のアドオン
  • Kubernetes 上で構成された SQL Server、Spark、 HDFS コンテナーのクラスター(いずれもLinuxコンテナ)
  • クラスター内のコンポーネントに読み込み・書き込み・処理を並行して実行できるので、RDBMSのデータとビッグデータを簡単に組み合わせて分析できる
  • PolyBaseを利用したデータの仮想化にも対応しているので、SQL Server外部のOracle、Teradata、MongoDB などのデータ ソースのデータも照会することもできる
  • 上のアーキテクチャ図にある各コンポーネントがKubernetes上に構成される
  • 利用するには、Kubernetesを構成した上で、「azdata bdc create」コマンドで展開する
  • 2025年2月28日に廃止予定

利用シナリオ例は以下。

1,PolyBaseを利用したデータの仮想化

2,データレイク(HDFS)のデータをSparkやSQL Serverで分析

3,機械学習

ビッグデータクラスター廃止

さて、この機能は廃止されるようなので、動作の詳細を追いかけるよりは、廃止に伴う移行方法を理解しておきたいと思います。

こちらにまとまっています。

Microsoft SQL Server プラットフォームのビッグ データ オプション – SQL Server | Microsoft Docs

いくつかのオプションが紹介されていますが、要はAzure上のサービスの組み合わせでおきかえてね、ということのようですね。この記事を見ていると、この機能を早々に廃止したMicrosoftの意図も見えてきそうです。ビッグデータクラスター機能を使ってがんばって高度なクラスターを1から作りあげるよりも、クラウドを活用してより簡単に実現していこう、ということなのですかね。

  • Azure Synapse Analytics
  • Azure SQL Database + Azure Machine Learning
  • Azure SQL Database + Azure Databricks
  • SQL Server 2022(Synapse Link for SQLを利用) + Azure Synapse Analytics
  • オンプレでがんばって構成(SQL Server + Apache Spark + オンプレストレージ)

以上、簡単ですが、SQL Serverのビッグデータクラスターの超概要でした。

少しでも参考になりましたら幸いです。

おしまい

この記事を気に入っていただけたらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
Yuu113
初めまして。ゆうたろうと申します。 兵庫県出身、東京でシステムエンジニアをしております。現在は主にデータ分析、機械学習を活用してビジネスモデリングに取り組んでいます。 日々学んだことや経験したことを整理していきたいと思い、ブログを始めました。旅行、カメラ、IT技術、江戸文化が大好きですので、これらについても記事にしていきたいと思っています。