Azure Synapse Analytics で分析を行う - ⑥ストレージアカウント内のデータを分析を行う

はじめに

ストレージアカウントにあるデータを分析行っていきたいと思います。

: クイックスタート: Spark を使用して分析を開始する - Azure Synapse Analytics | Microsoft Learn

このチュートリアルでは、Azure Synapse Analytics で Apache Spark を使用していくつかのサンプルデータを分析する方法について説明します。

docs.microsoft.com

Synapseワークスペースは構築されていることが前提です。

: Azure Synapse Analytics で分析を行う - ①ワークスペースの作成 - 技術的な何か。

はじめに Azure Synapse Analyticsはデータ分析基盤のひとつとして利用できます。そこで分析を何回かに分けてチュートリアルを行っていきます。最初に行うのはワークスペースの作成を行っ

level69.net

サーバーレス Apache Spark プールのクイックスタートでnyctaxi.passengercountstatsに分析結果が保存されていることが前提です。

: Azure Synapse Analytics で分析を行う - ④Apache Sparkで分析を行う - 技術的な何か。

はじめに Apache Spark for Azure Synapse で分析を行っていきたいと思います。 Synapseワークスペースは構築されていることが前提です。分析 Apache Spark

level69.net

分析

Synapse studioを開きます。

開発からノートブックを新規作成します。

以下のコードど実行し、分析用のファイルを作成します。

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

アタッチ先をSparkプールに設定し実行します。

実行後、データからリンク済みを開きます。2つのフォルダが作成されていることを確認します。

PassengerCountStats_parquetformatの中にあるファイルを右クリックして新しいノートブックを作成します。

DataFrameに読み込むを選択します。コードが自動生成されます。

生成されるコードを実行します。エラーが表示される場合は10分程度まってから再度実行します。

次に、再度ファイルを右クリックして新しいSQLスクリプトを作成します。

上位100行を選択します。

自動生成されるコードを実行します。これはドキュメントとは異なります。

以上で分析が完了です。

まとめ

ストレージアカウントのデータを分析することが出来ました。

月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Azure Synapse Analytics で分析を行う - ⑥ストレージアカウント内のデータを分析を行う

はじめに

クイックスタート: Spark を使用して分析を開始する - Azure Synapse Analytics | Microsoft Learn

Azure Synapse Analytics で分析を行う - ①ワークスペースの作成 - 技術的な何か。

Azure Synapse Analytics で分析を行う - ④Apache Sparkで分析を行う - 技術的な何か。

分析

まとめ