いつからmanual_sourceやmanual_mediumはUTMパラメータだけだと錯覚していた?
Google Analytics 4のExport時のカラムへの理解の難しさ
昨今ではGoogle Analytics 4(以下GA4)を使っている企業は非常に多いかと思います。
特にWEBサービスを主体としている会社の場合は、BigQueryへのExport機能などもあわせて使っているかもしれません。そこまでいかなくても、Looker Studioでの可視化など…色々と活用方法のオプションがありますので、それぞれ様々な対応をされているのではないでしょうか。
しかし、そこで課題になるのはなんといっても GA4の項目の多さ なのではないでしょうか。
しかも、説明を読んでもなんだかよくわからないものも多かったりして、しっかり腰を据えて取り組まないとなかなか把握できないこともあります。
今回はそんなパラメータの中から manual_source や manual_medium といった manual_ から始まる種類のパラメータについて触れていきます。
各カラム項目の把握方法について
そんな多数のカラムの内容を把握するためには、とりあえず公式ドキュメントを読むしかないですよね。
BigQueryの場合は、 [GA4] BigQuery Export スキーマ のページを参照することになると思います。
Looker Studio等で見る際もほとんどのパラメータはBigQuery Export時のカラムと同一かと思います。
ちなみにこのページは 仕様の各項目がトグルになっていて、開かないとページ内検索が出来ないという仕様 ですので「すべて開く」ボタンを毎回押すことになります。。
今回扱う manual_ 系のパラメータは collected_traffic_source の項目内にあります。

ここで触れたい罠が、基本はUTMパラメータをそのまま…という感じなのに、 manual_source manual_medium だけ後ろに一文足されているということです。
manual_source, manual_mediumの罠
たとえば、 manual_source は
イベントと同時に収集された手動キャンペーンのソース(utm_source)。UTM 値だけでなく、参照パラメータから解析されたパラメータも含まれます。
と書いてあります。 manual_medium も同様に、 「UTM 値だけでなく、参照パラメータから解析されたパラメータも含まれます。」 という文言が足されています。
ここで私は参照パラメータとはなんやねん…と思ってしまいましたが、実はこれは英語版の公式ドキュメントを読むと話が早いです。このページのURLの hl=ja を hl=en にします…すると
The manual campaign source (utm_source) that was collected with the event. Also includes parsed parameters from referral params, not just UTM values.
と書いてあります。含まれているのはUTMの値だけじゃなくて、 referral params と書いてあります。ここでリファラの話か…とわかります。
参照パラメータというより、 「参照元の情報をもとに」 くらいのほうが日本語としてはしっくりきますね。
というわけで、リファラの情報を活用していることがわかりました。実際調べてみると…

このように、参照元のホスト名がそのまま manual_source に付与されているパターンがたくさんみつかりました。
ここで注意したいのが、 必ずしもリファラのホスト名が付与されるわけではない ということです。リファラのホスト名が www.youtube.com の場合 manual_source に youtube.com が勝手に付与されています。
おそらく www は外される仕様のようです。 (ネイキッドドメインと www ドメインの両方でアクセスできるサイトの場合は有り難い仕様ともいえるかもしれません)
自動付与された manual_source のリファラ情報を修正したいなどのニーズがある場合はこの点に注意が必要です。自動付与されたものかどうかの確認の際はおそらく大元のドメイン名レベルでリファラのホスト名と manual_source の一致を確認するのが確実かと思います。
厄介なのが、 必ずしもリファラのホスト名をそのまま入れてくれるわけではなくて、普通に null のままにしてあるレコードもある ことです。
具体的には、 ページ自体のドメインとリファラのドメインの大元のドメイン名が一致している場合は null になる ようです。
例えば、朝日放送テレビのページ www.asahi.co.jp に、ABCラジオのページ abcradio.asahi.co.jp から飛んできた場合は null になっています。

このあたりがルールとして明文化されているページが欲しいところです…(あるのかもしれませんが見つけられませんでした…)
集計を行う際はSQLでいうところの COALESCE 等を使えばいいわけですが、 分析用途で整形加工を行う場合は特にデータを見ながら注意して実施する必要があるカラムと言えると思います。
manual_medium もこのような形で organic / referral 自動付与のものがありますので、注意が必要です。
まとめ
今回はGA4のExportデータの中で名前だけで判断すると確実にハマる罠、 manual_source や manual_medium が手動付与のものだけじゃないという話でした。
これはGA4のデータに限った話じゃないですが、データの整形加工を行う際はデータをちゃんと見て検証しながら行うしかないですね。
GA4のExportデータは検証すると色々と疑問が出てくる上にカラム数も多いのでかなり大変ですが…
