Kyota wrote a new post, JupyterLab上でのpyspark環境構築方法 1か月 3週間前
pysparkをライトに使用するため、JupyterLabでのpyspark環境構築方法を記載する。
1. JupyterLabを起動する
2. 以下のコマンドでpysparkとJDKをインストールする
!pip install –upgrade pip
!pip install pyspark
!conda install openjdk
3. pyspark.sqlのSparkSessio[…]
Kyota wrote a new post, pysparkのインストール方法 2か月 4週間前
業務でpysparkを使う機会があり、自宅の環境でも使えるように環境構築した際の手順を備忘録として記載する。
※OSはMac
JAVAのインストール(sparkはJVM上で動作するため)
$ brew search openjdk
condaをインストールしていれば以下でも可能
$ conda install[…]
Kyota wrote a new post, BigQueryではじめるSQL15 7か月 3週間前
今回はテーブルを結合について記載する。
テーブルの結合方法
テーブルの結合にはjoinという句を使用する。
結合の方法には様々あり、用途によってした図のようなjoinを使い分ける必要がある。※ 図の⚪︎はテーブルを表す
出典:https://developers.google.com/ads-data-hub/marketers/guides/best-practices?hl=ja
joinの[…]
Kyota wrote a new post, BigQueryではじめるSQL14 9か月前
今回はサンプルデータを使用したHAVING句の実行について記載する。
使用データ
無料で使用できるデータセット「chicago_crime」データセットのテーブル「crime」を使用する。
これは、シカゴで起こった犯罪のデータである。
カラム「primary_type」は犯罪種別を表しており、GROUP BY句で分類すると36種類に分類されていることが分かる。
HAVING句による条件指定
サンプ[…]
Kyota wrote a new post, BigQueryではじめるSQL13 10か月 2週間前
今回はHAVING句について記述する。
HAVING句とは
HAVING句はクエリの条件指定に使用する。
同じく条件指定に使用できるWHERE句との違いは実行のタイミングであり、HAVING句はGROUPBYの後に実行される。
HAVING句の使用用途
HAVING句は、上記の通りGROUP BYの後に実行されるため
WHERE句と異なり集計されたフィールドに対して条件指定可能で、
このとき、SELECT句で[…]
Kyota wrote a new post, ChatGPTの登録方法 1年前
少し前に話題になったチャット生成AIのChatGPTを業務で使用する機会があったので使用するまでの手順をまとめてみました。
手順1 ChatGPTの作成元であるOpenAIのサイトにアクセス
手順2 Try ChatGPTをクリック
手順3 アカウントを持っていない場合はSign UPをクリック
手順4 パスワードを入力するか、[…]
Kyota wrote a new post, BigQueryではじめるSQL12 1年 1か月前
今回は前回に引き続き集約関数について記述する
・COUNT
指定したカラムのカウントを取得(NULLは除く)
「*」を指定した場合はテーブルのレコード数を取得する(NULLを含む)
使用例1:商品テーブルのレコード数を取得する
SELECT COUNT(*) FROM 商品テーブル
使用例2:商品別のレコード数を取得する
SELECT 商品, COUNT(*) FROM 商品テーブル GROUP BY[…]
Kyota wrote a new post, BigQueryではじめるSQL11 1年 3か月前
今回は、テーブルの全レコードまたはグループ化されたグループごとの集約値を返す集約関数について記載する。
GROUP BYでグループ化した要素の様々な結果を取得する集約関数について記載する。
集約関数とは
指定したカラムの値の集合についての集約値を返却する関数。
集約関数には、様々な種類がありGROUP BY句が[…]
Kyota wrote a new post, BigQueryではじめるSQL10 1年 5か月前
今回は、データのグループ化を行うGROUP BY句について記載する。
使用するデータ
今回は、無料で使[…]
Kyota wrote a new post, BigQueryではじめるSQL9 1年 6か月前
今回は、ORDER BYによる並べ[…]
Kyota wrote a new post, BigQueryではじめるSQL8 1年 8か月前
今回は、クエリの実行結果を並べ替える方法を記載する
取得するデータ
今回は、無料で使用できるデータセット「bigquery-public-dataset」のテーブル「bigquery-public-data.google_ads.geotargets」からカラム「parent_id」「criteria_id」「en_name」を取得する。
上記を取得するクエリは以下。
SELECT
parent_id,[…]
Kyota wrote a new post, 初めての確定申告完了! 1年 9か月前
紆余曲折を経てようやく確定申告提出しました。
提出については、e-Taxに必用な利用者識別番号だとか会計ソフトのスマホアプリのインストールを事前
に準備できたのでスムーズに対応できました。e-Taxは各証明書の添付も省略でき、会計ソフトを使えば初めてでも数分で提出できました。(というか手書き郵送で対応している人本当にすごい。)
最後に資料をPDFで保存しつつ、来年に同じ目に遭わないように帳簿の作成方法を忘れずにメモして今[…]
Kyota wrote a new post, 確定申告の準備始めます 1年 11か月前
12月、サラリーマン時代なら今頃年末調整のための書類の提出していたなーとふと思い出し確定申告の準備について考え始める。
独立して9ヶ月毎月こつこつと帳簿を作っていれば楽だなと頭では理解しつつ、結局重い腰が上がらず今に至った訳だが、複式簿記の帳簿の付け方が全く分からず焦る。。
また経費も現金で購入したものの領収書は保存してあったが、ネットで購入したもの、口座から引き落とされるもの、家事按分とするものetc..いざ考え[…]
Kyota wrote a new post, BigQueryではじめるSQL7 2年前
前回は、WHERE句の条件を複数指定するための方法を記載したが、今回はWHERE句で条件指定の際に頻繁に使用する論理演算子について記載する。
論理積(AND)
「条件1 AND 条件2」のように使用し、条件1,2双方を満たすレコードが取得される。
論理和(OR)
「条件1 OR 条件2」のように使用し、条件1,2どちらかを満たすレコードが取得される。
論理否定(NOT)
「NOT 条件」のように使用し、条件の否定を[…]
Kyota wrote a new post, BigQueryではじめるSQL6 2年 1か月前
今回は、WHERE句の取得条件を複数指定する方法を記載する。
取得するデータ
前回同様無料で使用できるデータセット「bigquery-public-dataset」のテーブル「ga_sessions_20170801」を使用する。
WHERE句での複数条件指定
WHERE句の条件を複数指定するには、論理演算子(AND・ORなど)で条件を繋いで記述する。
例えば「条件AかつB」を満たすレコードのみを取得したい場合は以下[…]
Kyota wrote a new post, BigQueryではじめるSQL5 2年 3か月前
今回は、テーブルから取得するデータに条件を指定する方法を記載する。
取得するデータ
前回同様無料で使用できるデータセット「bigquery-public-dataset」のテーブル「ga_sessions_20170801」を使用する。
条件を指定してデータを取得
取得条件は、以下のようにSELECT句、FROM句の後にWHERE句を追加し、その中で条件を指定する。
SELECT
“カラム名”
FROM
“[…]
Kyota wrote a new post, BigQueryではじめるSQL4 2年 4か月前
今回は、テーブルからデータを取得する方法を記載する。
取得するデータ
無料で使用できるデータセット「bigquery-public-dataset」のテーブル「ga_sessions_20170801」を使用する。
テーブルの定義等の情報を確認するには、BigQuery上のエクスプローラから「ga_sessions_20170801」を選択することで確認することができる。
テーブルのデータを取得する
テー[…]
Kyota wrote a new post, BigQueryではじめるSQL3 2年 5か月前
今回はBigQueryでローカルのCSV等のファイルデータを投入するためのテーブル作成方法を記載する。
BigQueryの構成
BigQueryは大まかに「プロジェクト」「データセット」「テーブル」の構成になっており、イメージとしては、プロジェクトの中に複数のデータセットが存在し、データセットの中に複数のテーブルが存在すると考えるとわかりやすい。
プロジェクト
データセット、テーブルを格納している抽象的なコンテナ。[…]
Kyota wrote a new post, 【SQL】 BigQueryではじめるSQL2 2年 6か月前
前回サンドボックスの使用までの流れを記載したが、今回は実際にSQLの実行までの手順を記載する。
データの準備
まずは使用するデータの準備から行う。
BigQueryには、様々なデータを無料で使用できる「bigquery-public-dataset」という公開データセットが存在するので今回はこちらを以下の手順で入手。
1.https://console.cloud.google.com/marketplace/produ%5B…%5D