feat: add by_country_subdivision1_asn queries (#81)

bassosimone · web-flow · commit 4a002970db81 · 2025-12-05T13:41:36.000+01:00
This diff adds `by_country_subdivision1_asn` queries and starts adding
the results of some of these queries to the GitHub cache inside of the
v0.1.0 release.
diff --git a/data/generate_data.py b/data/generate_data.py
@@ -51,6 +51,7 @@ def generate_for_period(
         "country_city",
         "country_city_asn",
         "country_subdivision1",
+        "country_subdivision1_asn",
     )
 
     directions = ("downloads", "uploads")
diff --git a/data/ghcache.json b/data/ghcache.json
@@ -32,6 +32,14 @@
       "sha256": "87017d792903ef9a61c92db012e3705ca825c17b610459cb84fb80b6370e25a2",
       "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/87017d792903__cache__v1__20241001T000000Z__20241101T000000Z__downloads_by_country_subdivision1__stats.json"
     },
+    "cache/v1/20241001T000000Z/20241101T000000Z/downloads_by_country_subdivision1_asn/data.parquet": {
+      "sha256": "2e91a55c8dd3e6e45d9a6c3fbac0cf7c311b59a404526c0880c9ea17f4a6bd6c",
+      "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/2e91a55c8dd3__cache__v1__20241001T000000Z__20241101T000000Z__downloads_by_country_subdivision1_asn__data.parquet"
+    },
+    "cache/v1/20241001T000000Z/20241101T000000Z/downloads_by_country_subdivision1_asn/stats.json": {
+      "sha256": "81d08c5faa2a426bd072a3f666f7e117430f7a24578c821e5aa6d9687b06f75a",
+      "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/81d08c5faa2a__cache__v1__20241001T000000Z__20241101T000000Z__downloads_by_country_subdivision1_asn__stats.json"
+    },
     "cache/v1/20241001T000000Z/20241101T000000Z/uploads_by_country_asn/data.parquet": {
       "sha256": "fdace39ccd4a7a4036f454be102193472a3a67ef7d506c49e2afe2d3e959effc",
       "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/fdace39ccd4a__cache__v1__20241001T000000Z__20241101T000000Z__uploads_by_country_asn__data.parquet"
@@ -64,6 +72,14 @@
       "sha256": "3b144feca8d741cde0bc4c11a6fba0255f932869d9c9b9adc571a7385c9ed2e9",
       "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/3b144feca8d7__cache__v1__20241001T000000Z__20241101T000000Z__uploads_by_country_subdivision1__stats.json"
     },
+    "cache/v1/20241001T000000Z/20241101T000000Z/uploads_by_country_subdivision1_asn/data.parquet": {
+      "sha256": "1e363dfc4ccf552fe654b33f4d6615746e9892720c64e03dc7e34874e03a5e78",
+      "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/1e363dfc4ccf__cache__v1__20241001T000000Z__20241101T000000Z__uploads_by_country_subdivision1_asn__data.parquet"
+    },
+    "cache/v1/20241001T000000Z/20241101T000000Z/uploads_by_country_subdivision1_asn/stats.json": {
+      "sha256": "adbb8a8779ed8c1b787c12f7f6098b3d5617fa658abfad1011700d84ac74376a",
+      "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/adbb8a8779ed__cache__v1__20241001T000000Z__20241101T000000Z__uploads_by_country_subdivision1_asn__stats.json"
+    },
     "cache/v1/20251001T000000Z/20251101T000000Z/downloads_by_country_asn/data.parquet": {
       "sha256": "4900bb6b7eea84086d65afc8f593b759862d893bdeb694430178dca87217f1e3",
       "url": "https://github.com/m-lab/iqb/releases/download/v0.1.0/4900bb6b7eea__cache__v1__20251001T000000Z__20251101T000000Z__downloads_by_country_asn__data.parquet"
diff --git a/library/src/iqb/queries/downloads_by_country.sql b/library/src/iqb/queries/downloads_by_country.sql
@@ -64,8 +64,8 @@ SELECT
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_downloads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/downloads_by_country_asn.sql b/library/src/iqb/queries/downloads_by_country_asn.sql
@@ -66,8 +66,8 @@ SELECT
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_downloads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/downloads_by_country_city.sql b/library/src/iqb/queries/downloads_by_country_city.sql
@@ -67,8 +67,8 @@ SELECT
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_downloads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/downloads_by_country_city_asn.sql b/library/src/iqb/queries/downloads_by_country_city_asn.sql
@@ -69,8 +69,8 @@ SELECT
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_downloads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/downloads_by_country_subdivision1.sql b/library/src/iqb/queries/downloads_by_country_subdivision1.sql
@@ -66,8 +66,8 @@ SELECT
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
     APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_downloads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/downloads_by_country_subdivision1_asn.sql b/library/src/iqb/queries/downloads_by_country_subdivision1_asn.sql
@@ -0,0 +1,85 @@
+SELECT
+    client.Geo.CountryCode as country_code,
+    client.Geo.Subdivision1ISOCode as subdivision1_iso_code,
+    client.Geo.Subdivision1Name as subdivision1_name,
+    client.Network.ASNumber as asn,
+    client.Network.ASName as as_name,
+    COUNT(*) as sample_count,
+
+    -- ============================================================================
+    -- PERCENTILE LABELING CONVENTION FOR IQB QUALITY ASSESSMENT
+    -- ============================================================================
+    --
+    -- For "higher is better" metrics (throughput):
+    --   - Raw p95 = "95% of users have ≤ X Mbit/s"
+    --   - Label: OFFSET(95) → download_p95 (standard statistical definition)
+    --   - Interpretation: top ~5% of users have > p95 throughput
+    --
+    -- For "lower is better" metrics (latency, packet loss):
+    --   - Raw p95 = "95% of users have ≤ X ms latency" (worst-case typical)
+    --   - We want p95 to represent best-case typical (to match throughput semantics)
+    --   - Solution: Invert labels - use raw p5 labeled as p95
+    --   - Label: OFFSET(5) → latency_p95 (inverted!)
+    --   - Interpretation: top ~5% of users (best latency) have < p95
+    --
+    -- Result: Uniform comparison logic where p95 always means "typical best
+    -- performance" rather than "typical worst performance"
+    --
+    -- NOTE: This creates semantics where checking p95 thresholds asks
+    -- "Can the top ~5% of users perform this use case?" - empirical validation
+    -- against real data will determine if this interpretation is appropriate.
+    -- ============================================================================
+
+    -- Download throughput (higher is better - NO INVERSION)
+    -- Standard percentile labels matching statistical definition
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(1)] as download_p1,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(5)] as download_p5,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(10)] as download_p10,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(25)] as download_p25,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(50)] as download_p50,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(75)] as download_p75,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(90)] as download_p90,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as download_p95,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as download_p99,
+
+    -- Latency/MinRTT (lower is better - INVERTED LABELS!)
+    -- ⚠️  OFFSET(99) = worst latency = top 1% worst users → labeled as p1
+    -- ⚠️  OFFSET(5) = 5th percentile = best ~5% of users → labeled as p95
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(99)] as latency_p1,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(95)] as latency_p5,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(90)] as latency_p10,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(75)] as latency_p25,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(50)] as latency_p50,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(25)] as latency_p75,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(10)] as latency_p90,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(5)] as latency_p95,
+    APPROX_QUANTILES(a.MinRTT, 100)[OFFSET(1)] as latency_p99,
+
+    -- Packet Loss Rate (lower is better - INVERTED LABELS!)
+    -- ⚠️  OFFSET(99) = worst loss = top 1% worst users → labeled as p1
+    -- ⚠️  OFFSET(5) = 5th percentile = best ~5% of users → labeled as p95
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(99)] as loss_p1,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(95)] as loss_p5,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(90)] as loss_p10,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(75)] as loss_p25,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(50)] as loss_p50,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(25)] as loss_p75,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(10)] as loss_p90,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(5)] as loss_p95,
+    APPROX_QUANTILES(a.LossRate, 100)[OFFSET(1)] as loss_p99
+FROM
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
+    `measurement-lab.ndt.unified_downloads`
+WHERE
+    date >= "{START_DATE}" AND date < "{END_DATE}"
+    AND client.Geo.CountryCode IS NOT NULL
+    AND client.Geo.Subdivision1ISOCode IS NOT NULL
+    AND client.Geo.Subdivision1Name IS NOT NULL
+    AND client.Network.ASNumber IS NOT NULL
+    AND client.Network.ASName IS NOT NULL
+    AND a.MeanThroughputMbps IS NOT NULL
+    AND a.MinRTT IS NOT NULL
+    AND a.LossRate IS NOT NULL
+GROUP BY country_code, subdivision1_iso_code, subdivision1_name, asn, as_name
+ORDER BY country_code, subdivision1_iso_code, subdivision1_name, asn, as_name
diff --git a/library/src/iqb/queries/uploads_by_country.sql b/library/src/iqb/queries/uploads_by_country.sql
@@ -24,8 +24,8 @@ SELECT
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_uploads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/uploads_by_country_asn.sql b/library/src/iqb/queries/uploads_by_country_asn.sql
@@ -26,8 +26,8 @@ SELECT
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_uploads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/uploads_by_country_city.sql b/library/src/iqb/queries/uploads_by_country_city.sql
@@ -27,8 +27,8 @@ SELECT
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_uploads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/uploads_by_country_city_asn.sql b/library/src/iqb/queries/uploads_by_country_city_asn.sql
@@ -29,8 +29,8 @@ SELECT
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_uploads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/uploads_by_country_subdivision1.sql b/library/src/iqb/queries/uploads_by_country_subdivision1.sql
@@ -26,8 +26,8 @@ SELECT
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
     APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
 FROM
-    -- TODO(bassosimone): switch to union tables `measurement-lab.ndt.ndt7_union`
-    -- when they have been blessed as the new stable tables.
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
     `measurement-lab.ndt.unified_uploads`
 WHERE
     date >= "{START_DATE}" AND date < "{END_DATE}"
diff --git a/library/src/iqb/queries/uploads_by_country_subdivision1_asn.sql b/library/src/iqb/queries/uploads_by_country_subdivision1_asn.sql
@@ -0,0 +1,43 @@
+SELECT
+    client.Geo.CountryCode as country_code,
+    client.Geo.Subdivision1ISOCode as subdivision1_iso_code,
+    client.Geo.Subdivision1Name as subdivision1_name,
+    client.Network.ASNumber as asn,
+    client.Network.ASName as as_name,
+    COUNT(*) as sample_count,
+
+    -- ============================================================================
+    -- PERCENTILE LABELING CONVENTION FOR IQB QUALITY ASSESSMENT
+    -- ============================================================================
+    --
+    -- Upload throughput is "higher is better", so we use standard percentile
+    -- labels (no inversion).
+    --
+    -- See downloads_by_country.sql for detailed explanation and rationale.
+    -- ============================================================================
+
+    -- Upload throughput (higher is better - NO INVERSION)
+    -- Standard percentile labels matching statistical definition
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(1)] as upload_p1,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(5)] as upload_p5,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(10)] as upload_p10,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(25)] as upload_p25,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(50)] as upload_p50,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(75)] as upload_p75,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(90)] as upload_p90,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(95)] as upload_p95,
+    APPROX_QUANTILES(a.MeanThroughputMbps, 100)[OFFSET(99)] as upload_p99
+FROM
+    -- TODO(bassosimone): current unified_downloads/unified_uploads tables lack BYOS
+    -- support. We'll eventually need to switch to better tables.
+    `measurement-lab.ndt.unified_uploads`
+WHERE
+    date >= "{START_DATE}" AND date < "{END_DATE}"
+    AND client.Geo.CountryCode IS NOT NULL
+    AND client.Geo.Subdivision1ISOCode IS NOT NULL
+    AND client.Geo.Subdivision1Name IS NOT NULL
+    AND client.Network.ASNumber IS NOT NULL
+    AND client.Network.ASName IS NOT NULL
+    AND a.MeanThroughputMbps IS NOT NULL
+GROUP BY country_code, subdivision1_iso_code, subdivision1_name, asn, as_name
+ORDER BY country_code, subdivision1_iso_code, subdivision1_name, asn, as_name

Original file line number	Diff line number	Diff line change
`@@ -51,6 +51,7 @@ def generate_for_period(`
`51`	`51`	`"country_city",`
`52`	`52`	`"country_city_asn",`
`53`	`53`	`"country_subdivision1",`
	`54`	`+ "country_subdivision1_asn",`
`54`	`55`	`)`
`55`	`56`
`56`	`57`	`directions = ("downloads", "uploads")`