Fedorov course notes [SENATOROVAI#4] (SENATOROVAI/DA#4)

callogan · callogan · commit c8d10184d390 · 2025-11-21T20:35:39.000+02:00
Closes SENATOROVAI/DA#4
diff --git a/probability_statistics/pandas/cybersecurity/chapter_04_fuzzy_hashing_in_python.ipynb b/probability_statistics/pandas/cybersecurity/chapter_04_fuzzy_hashing_in_python.ipynb
@@ -0,0 +1,300 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9658c1a1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\"\"\"Fuzzy hashing in Python.\"\"\""
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ec335297",
+   "metadata": {},
+   "source": [
+    "# Нечеткое хеширование на Python"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9af77692",
+   "metadata": {},
+   "source": [
+    "Сравнение подозрительного файла с ранее проанализированными образцами или образцами, хранящимися в публичном либо частном хранилище, может дать представление о семействе вредоносных программ, их характеристиках и сходстве с предварительно проанализированными образцами.\n",
+    "\n",
+    "Хотя криптографические хеш-функции (MD5/SHA1/SHA256) являются отличным методом для обнаружения идентичных образцов, они не помогают в идентификации схожих образцов. Очень часто авторы вредоносных программ меняют мелкие аспекты вредоносных программ, что полностью меняет значение хеш-функции."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "1ea64cae",
+   "metadata": {},
+   "source": [
+    "Нечеткое хеширование – отличный способ сравнить файлы на схожесть.\n",
+    "\n",
+    "[Ssdeep](https://ssdeep-project.github.io/ssdeep/) – полезный инструмент для создания нечеткого хеша для образца, и он также помогает в определении процентного сходства между\n",
+    "образцами. Этот метод полезен при сравнении подозрительного файла с образцами из хранилища для идентификации похожих. Это может помочь определить образцы, принадлежащие к одному семейству вредоносных программ или к одной и той же группе субъектов."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "33927f7d",
+   "metadata": {},
+   "source": [
+    "Исходные файлы для блокнота находятся по [ссылке](https://github.com/dm-fedorov/infosec/tree/master/re-tools/samples)."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "2f2bb79f",
+   "metadata": {},
+   "source": [
+    "Скачиваем весь архив с файлами для работы в Colab:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "7f44bc96",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!wget https://dfedorov.spb.ru/infosec/re/samples.zip"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e544f6c0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!unzip samples.zip"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "91c9b117",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!apt-get -y install libfuzzy-dev"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b61ee844",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!apt-get install ssdeep"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "045d9538",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip install ssdeep"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "82edfa7e",
+   "metadata": {},
+   "source": [
+    "Чтобы определить нечеткий хеш образца, выполните следующую команду:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8aed18af",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ssdeep samples/test"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8f62e536",
+   "metadata": {},
+   "source": [
+    "Чтобы продемонстрировать использование нечеткого хеширования, рассмотрим в качестве примера директорию, состоящую из трех образцов вредоносного ПО.\n",
+    "\n",
+    "В следующем фрагменте кода видно, что все три файла имеют совершенно разные значения хеш-функций MD5:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "fd381c29",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ls samples"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1bb9da6e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!md5sum samples/*"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bd3a99f2",
+   "metadata": {},
+   "source": [
+    "Режим *изящного сравнения* (опция ```-p```) в ```ssdeep``` может использоваться для определения процентного сходства. Из трех образцов два имеют сходство 93%, что предполагает, что они, вероятно, принадлежат к одному и тому же семейству вредоносных программ:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "668571e2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ssdeep -pb samples/test_01 samples/test_02 samples/test_03"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "302d6c42",
+   "metadata": {},
+   "source": [
+    "Как показано в предыдущем примере, криптографические хеш-функции не помогли установить связь между образцами, тогда как метод нечеткого хеширования выявил сходство.\n",
+    "\n",
+    "Можно запустить ```ssdeep``` для каталогов и подкаталогов, содержащих вредоносные образцы, используя рекурсивный режим (```-r```):"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "35888154",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ssdeep -lrpa samples/"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "37e64869",
+   "metadata": {},
+   "source": [
+    "В следующем примере ssdeep-хеши всех файлов были перенаправлены в текстовый файл (```all_hashes.txt```), а затем подозрительный файл (```test_03```) сопоставляется со всеми хешами в файле:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f80d9e84",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ssdeep samples/test_01 samples/test_02 samples/test_03 > samples/all_hashes.txt"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9798e326",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!cat samples/all_hashes.txt"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6cf68d93",
+   "metadata": {},
+   "source": [
+    "В следующем фрагменте кода видно, что подозрительный файл (```test_03```) идентичен ```test_03``` (соответствие – 100%) и имеет сходство 93% с ```test_02```. Можно использовать этот метод для сравнения любого нового файла с хешами ранее проанализированных образцов:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "31ca0cb6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!ssdeep -m samples/all_hashes.txt samples/test_03"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "219a0770",
+   "metadata": {},
+   "source": [
+    "В Python нечеткий хеш может быть вычислен с использованием ```python-ssdeep```:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "3e924371",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip3 install ssdeep"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c6cf0e9d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import ssdeep\n",
+    "\n",
+    "hash1 = ssdeep.hash_from_file(\"samples/test_03\")\n",
+    "print(hash1)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "692922cc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "hash2 = ssdeep.hash_from_file(\"samples/test_02\")\n",
+    "print(hash2)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "077be244",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ssdeep.compare(hash1, hash2)"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/probability_statistics/pandas/cybersecurity/chapter_04_fuzzy_hashing_in_python.py b/probability_statistics/pandas/cybersecurity/chapter_04_fuzzy_hashing_in_python.py
@@ -0,0 +1,71 @@
+"""Fuzzy hashing in Python."""
+
+# # Нечеткое хеширование на Python
+
+# Сравнение подозрительного файла с ранее проанализированными образцами или образцами, хранящимися в публичном либо частном хранилище, может дать представление о семействе вредоносных программ, их характеристиках и сходстве с предварительно проанализированными образцами.
+#
+# Хотя криптографические хеш-функции (MD5/SHA1/SHA256) являются отличным методом для обнаружения идентичных образцов, они не помогают в идентификации схожих образцов. Очень часто авторы вредоносных программ меняют мелкие аспекты вредоносных программ, что полностью меняет значение хеш-функции.
+
+# Нечеткое хеширование – отличный способ сравнить файлы на схожесть.
+#
+# [Ssdeep](https://ssdeep-project.github.io/ssdeep/) – полезный инструмент для создания нечеткого хеша для образца, и он также помогает в определении процентного сходства между
+# образцами. Этот метод полезен при сравнении подозрительного файла с образцами из хранилища для идентификации похожих. Это может помочь определить образцы, принадлежащие к одному семейству вредоносных программ или к одной и той же группе субъектов.
+
+# Исходные файлы для блокнота находятся по [ссылке](https://github.com/dm-fedorov/infosec/tree/master/re-tools/samples).
+
+# Скачиваем весь архив с файлами для работы в Colab:
+
+# !wget https://dfedorov.spb.ru/infosec/re/samples.zip
+
+# !unzip samples.zip
+
+# !apt-get -y install libfuzzy-dev
+
+# !apt-get install ssdeep
+
+# !pip install ssdeep
+
+# Чтобы определить нечеткий хеш образца, выполните следующую команду:
+
+# !ssdeep samples/test
+
+# Чтобы продемонстрировать использование нечеткого хеширования, рассмотрим в качестве примера директорию, состоящую из трех образцов вредоносного ПО.
+#
+# В следующем фрагменте кода видно, что все три файла имеют совершенно разные значения хеш-функций MD5:
+
+# !ls samples
+
+# !md5sum samples/*
+
+# Режим *изящного сравнения* (опция ```-p```) в ```ssdeep``` может использоваться для определения процентного сходства. Из трех образцов два имеют сходство 93%, что предполагает, что они, вероятно, принадлежат к одному и тому же семейству вредоносных программ:
+
+# !ssdeep -pb samples/test_01 samples/test_02 samples/test_03
+
+# Как показано в предыдущем примере, криптографические хеш-функции не помогли установить связь между образцами, тогда как метод нечеткого хеширования выявил сходство.
+#
+# Можно запустить ```ssdeep``` для каталогов и подкаталогов, содержащих вредоносные образцы, используя рекурсивный режим (```-r```):
+
+# !ssdeep -lrpa samples/
+
+# В следующем примере ssdeep-хеши всех файлов были перенаправлены в текстовый файл (```all_hashes.txt```), а затем подозрительный файл (```test_03```) сопоставляется со всеми хешами в файле:
+
+# !ssdeep samples/test_01 samples/test_02 samples/test_03 > samples/all_hashes.txt
+
+# !cat samples/all_hashes.txt
+
+# В следующем фрагменте кода видно, что подозрительный файл (```test_03```) идентичен ```test_03``` (соответствие – 100%) и имеет сходство 93% с ```test_02```. Можно использовать этот метод для сравнения любого нового файла с хешами ранее проанализированных образцов:
+
+# !ssdeep -m samples/all_hashes.txt samples/test_03
+
+# В Python нечеткий хеш может быть вычислен с использованием ```python-ssdeep```:
+
+# !pip3 install ssdeep
+
+import ssdeep
+hash1 = ssdeep.hash_from_file('samples/test_03')
+print(hash1)
+
+hash2 = ssdeep.hash_from_file('samples/test_02')
+print(hash2)
+
+ssdeep.compare(hash1, hash2)