14_evaluation.ipynb: False positives for graph intervals

jnareb · jnareb · commit e6dbf7c60968 · 2021-01-10T02:13:20.000+01:00
Calculate the number of false positives for DFS post-order numbering
inexact graph interval labels (working as negative cut filter).  Those
are slightly more than topological order used as reachability label.

Add to a summary of findings in a Markdown cell.
diff --git a/14_evaluation.ipynb b/14_evaluation.ipynb
@@ -1489,6 +1489,218 @@
     "conn_sample_df['fn_intervals'].describe()"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### False positives for DFS inexact graph interval labels (negative cut)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "graph intervals u-~->v: 4640 of 10000 (0.464)\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>u</th>\n",
+       "      <th>v</th>\n",
+       "      <th>f_min(u)</th>\n",
+       "      <th>f_min(v)</th>\n",
+       "      <th>min(u)</th>\n",
+       "      <th>min(v)</th>\n",
+       "      <th>post(u)</th>\n",
+       "      <th>post(v)</th>\n",
+       "      <th>u-&gt;v</th>\n",
+       "      <th>v in [f_min(u),post(u)]</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>c7f34c180</td>\n",
+       "      <td>23c204455</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>9555</td>\n",
+       "      <td>55543</td>\n",
+       "      <td>9555</td>\n",
+       "      <td>55545</td>\n",
+       "      <td>False</td>\n",
+       "      <td>False</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>9dc527adb</td>\n",
+       "      <td>53ec551c8</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>35785</td>\n",
+       "      <td>459</td>\n",
+       "      <td>35785</td>\n",
+       "      <td>False</td>\n",
+       "      <td>False</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>5e3ce663b</td>\n",
+       "      <td>9affecbc8</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>23750</td>\n",
+       "      <td>1</td>\n",
+       "      <td>23770</td>\n",
+       "      <td>18771</td>\n",
+       "      <td>True</td>\n",
+       "      <td>True</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>6440fdbab</td>\n",
+       "      <td>c8c35f6a0</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>30197</td>\n",
+       "      <td>61062</td>\n",
+       "      <td>30202</td>\n",
+       "      <td>61067</td>\n",
+       "      <td>False</td>\n",
+       "      <td>False</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>f1a7082f2</td>\n",
+       "      <td>caac7a3ab</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>31397</td>\n",
+       "      <td>40137</td>\n",
+       "      <td>31397</td>\n",
+       "      <td>40150</td>\n",
+       "      <td>False</td>\n",
+       "      <td>False</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "           u          v  f_min(u)  f_min(v)  min(u)  min(v)  post(u)  post(v)  \\\n",
+       "0  c7f34c180  23c204455         1         1    9555   55543     9555    55545   \n",
+       "1  9dc527adb  53ec551c8         1         1       1   35785      459    35785   \n",
+       "2  5e3ce663b  9affecbc8         1         1   23750       1    23770    18771   \n",
+       "3  6440fdbab  c8c35f6a0         1         1   30197   61062    30202    61067   \n",
+       "4  f1a7082f2  caac7a3ab         1         1   31397   40137    31397    40150   \n",
+       "\n",
+       "    u->v  v in [f_min(u),post(u)]  \n",
+       "0  False                    False  \n",
+       "1  False                    False  \n",
+       "2   True                     True  \n",
+       "3  False                    False  \n",
+       "4  False                    False  "
+      ]
+     },
+     "execution_count": null,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "conn_sample_df['v in [f_min(u),post(u)]'] = \\\n",
+    "    (conn_sample_df['f_min(u)'] <= conn_sample_df['post(v)']) & \\\n",
+    "    (conn_sample_df['post(v)']  <= conn_sample_df['post(u)'])\n",
+    "print('graph intervals u-~->v: %d of %d (%g)' %\n",
+    "      (conn_sample_df['v in [f_min(u),post(u)]'].sum(),\n",
+    "       conn_sample_df['v in [f_min(u),post(u)]'].count(),\n",
+    "       conn_sample_df['v in [f_min(u),post(u)]'].mean()))\n",
+    "conn_sample_df[['u','v',\n",
+    "                'f_min(u)','f_min(v)',\n",
+    "                'min(u)','min(v)',\n",
+    "                'post(u)','post(v)',\n",
+    "                'u->v',\n",
+    "                'v in [f_min(u),post(u)]']].head()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "10000 total queries\n",
+      "graph intervals: true negatives  5360 out of 5485 negative queries (97.7211 %)\n",
+      "graph intervals: true negatives   421 not covered by level filter\n",
+      "levels:          true negatives   101 not covered by graph intervals\n",
+      "graph intervals: false positives  125 out of 5485 negative queries (2.27894 %)\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "count     10000\n",
+       "unique        2\n",
+       "top       False\n",
+       "freq       9875\n",
+       "Name: fp_intervals, dtype: object"
+      ]
+     },
+     "execution_count": null,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "conn_sample_df['fp_intervals'] = conn_sample_df['!u->v'] & conn_sample_df['v in [f_min(u),post(u)]']\n",
+    "\n",
+    "print('%d total queries' % conn_sample_df['u->v'].count())\n",
+    "print('graph intervals: true negatives  %4d out of %4d negative queries (%g %%)' %\n",
+    "      ((~conn_sample_df['v in [f_min(u),post(u)]']).sum(),\n",
+    "       conn_sample_df['!u->v'].sum(),\n",
+    "       100.0*(~conn_sample_df['v in [f_min(u),post(u)]']).sum()/conn_sample_df['!u->v'].sum()))\n",
+    "\n",
+    "print('graph intervals: true negatives  %4d not covered by level filter' %\n",
+    "      (~conn_sample_df['v in [f_min(u),post(u)]'] & conn_sample_df['l_v<l_u'] & conn_sample_df['!u->v']).sum())\n",
+    "print('levels:          true negatives  %4d not covered by graph intervals' %\n",
+    "      (conn_sample_df['l_v>l_u'] & conn_sample_df['v in [f_min(u),post(u)]'] & conn_sample_df['!u->v']).sum())\n",
+    "\n",
+    "print('graph intervals: false positives %4d out of %4d negative queries (%g %%)' %\n",
+    "      (conn_sample_df['fp_intervals'].sum(),\n",
+    "       conn_sample_df['!u->v'].sum(),\n",
+    "       100.0*conn_sample_df['fp_intervals'].sum()/conn_sample_df['!u->v'].sum()))\n",
+    "\n",
+    "conn_sample_df['fp_intervals'].describe()"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -1504,7 +1716,8 @@
     "- number of connected nodes: 4515 out of 10000 (45.15 % = 0.4515 +/- 0.00497667)\n",
     "- there were  918 out of 10000 ( 9.18 %) nodes for which have neither u->v nor v->u\n",
     "- level: false positives 445 out of 5485 negative queries (8.11304 %)\n",
-    "- intervals: false negatives 3298 out of 4515 positive queries (73.0454 %)"
+    "- inexact graph intervals: false positives  125 out of 5485 negative queries (2.27894 %), or topological sort\n",
+    "- exact tree intervals: false negatives 3298 out of 4515 positive queries (73.0454 %)"
    ]
   },
   {