こんにちは。今日は、Azure DatabricksのUnitiy Catalogメタストアを作成する方法を試してみたので備忘メモしておきます。それではまいります。
Contents
Unitiy Catalog用のADLS Gen2コンテナの作成
Azure Data Lake Storage Gen2 のストレージ アカウントを作成する – Azure Storage | Microsoft Learn
最初に、Unity Catalogのデータを格納するためのAzure Datalake Storage Gen2リソースと、その中にコンテナを作成します。
階層型名前空間は、プレミアムレベル+ブロックBLOBか、Standard 汎用v2 SKUでサポートされているようなので、今回は前者で作成。
ADLS Gen2リソースを作成したらコンテナを作成しておきます。
ADLS Gen2コンテナへアクセスするためのコネクタの構成
次に、Databricksから先ほど作成したコンテナに接続できるように、コネクタを構成します。(Azureの他のリソースではコネクタなるものを作成をしたことがないのでちょっと馴染みない作業・・・)
Unity Catalog で Azure マネージド ID を使用してストレージにアクセスする – Azure Databricks | Microsoft Learn
コネクタを作成したら、先ほど作成したADLS Gen2のアクセス制御から、コネクタに対する”ストレージBLOBデータ共同作成者”権限を付与しておきます。
これで事前準備完了。
Unitiy Catalog メタストアを作成する
Unity Catalog メタストアを作成する – Azure Databricks | Microsoft Learn
ここからはDatabricks上の作業です。はじめにカタログの上位の概念である、メタストアを作成します。これは、Databricksアカウントコンソールから作業します。
ここでもハマったポイントがあるので以下にまとめています。
Azure DatabricksでUnity Catalogが作成できない!? | 煎茶 (simpletraveler.jp)
メタストアを作成するときは、以下の通り、先ほど作成したADLS Gen2コンテナのパスとアクセスコネクタのID情報を指定します。
メタストアが作成できたら、最後にこれをDatabricksワークスペースに「割り当て」します。
確認がでてくるので「有効化」へ進むと・・
無事、メタストアの作成と指定ワークスペースでのUnity Catalogの有効化が完了します。
カタログを作成したあとワークスペース>カタログエクスプローラーを除くと、先ほど作成したunitycatalogsample001メタストアの情報が参照できました。
なお、mainカタログについては以下の説明がありました。デフォルトのカタログのようですね。
すべてのユーザーは、
Unity Catalog とは – Azure Databricks | Microsoft Learnmain
カタログに対するUSE CATALOG
アクセス許可を持ちます。main
カタログは、Unity Catalog の使用を開始したばかりの組織を対象としています。 ユーザーとデータを追加するときに、アクセスを効率的に制御できるデータ階層を維持するためにカタログを追加する必要があります。
以上、メタストアを作成する手順でした。アクセスコネクタという他のAzureリソースでは見かけない慣れない概念がでてきたり、Databricksのアカウントコンソールとワークスペースの区別を理解しておかないといけなかったり、初見にはなかなか躓きが多かったです。。
今後は、Unity Catalogを使ってみた記事も増やしていければと思います。
少しでも参考になりましたら幸いです。
おしまい
コメントを残す