Azure Synapse Analytics で分析を行う - ②サーバーレスSQLプールで分析を行う

2022年6月13日

はじめに

Azure Synapse Analytics で分析を行っていきます。サーバーレスSQLプールを利用して分析を行います。

docs.microsoft.com

チュートリアル: サーバーレス SQL プールでデータ分析を始める方法 - Azure Synap...

https://docs.microsoft.com/ja-jp/azure/synapse-analytics/get-started-analyze-sql-on-demand

このチュートリアルでは、Spark データベース内のデータを使用して、サーバーレス SQL プールでデータを分析する方法について説明します。

すでにワークスペースが作成されていることをが前提条件です。

技術的な何か。

Azure Synapse Analytics で分析を行う - ①ワークスペースの作成

🕒️2022年6月13日

はじめにAzure Synapse Analyticsはデータ分析基盤のひとつとして利用できます。そこで分析を何回かに分けてチュートリアルを行っていきます。最初に行うのはワークスペースの作成を行っていきます。これはデータ、分析の種類に関わらず最初に行う作業です。ワークスペースの作成ワークスペースの作成は非常に簡単に行えます。本稿ではワークスペースの作成とサンプルデータの配置を行います。ワークスペースの作成を行います。情報を入力します。リソースグループ：任意マネージドリソースグループ：空白ワークスペース名：一意...

ワークスペースを作成するとサーバーレスSQLプールも組み込まれています。

データ分析

ニューヨーク市のタクシーデータを分析しておきます。

Synapse Studioを開きます。

開発から新しいSQLスクリプトを作成します。

下記のSQLが実行できることを確認します。
URLは作成した環境に合わせて変更します。

SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
        FORMAT='PARQUET'
    ) AS [result]

実行すると上位100行の結果が返ってきます。

データベースの作成

分析用のデータベースを作成します。

CREATE DATABASE DataExplorationDB 
                COLLATE Latin1_General_100_BIN2_UTF8

データベースが作成されていることを確認します。

使用するデータベースを変更します。SQLで変更するか、ポータルで変更します。

資格情報やデータソースなどのユーティリティオブジェクトを作成します

CREATE EXTERNAL DATA SOURCE ContosoLake
WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')

外部データにアクセスするためにDataExplorationDB でユーザを作成します。

CREATE LOGIN data_explorer WITH PASSWORD = 'パスワード';

DataExplorationDBに作成したユーザにADMINISTER DATABASE BULK OPERATIONS の権限を与えます。

CREATE USER data_explorer FOR LOGIN data_explorer;
GO
GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
GO

相対パスとデータソースを使用してファイルの内容を探索します。内容が表示されることを確認します。

SELECT
    TOP 100 *
FROM
    OPENROWSET(
            BULK '/users/NYCTripSmall.parquet',
            DATA_SOURCE = 'ContosoLake',
            FORMAT='PARQUET'
    ) AS [result]