Update DataModels-Databases.md

Max-Starling · web-flow · commit 41b434300f32 · 2025-03-14T17:23:44.000+07:00
diff --git a/DataModels-Databases.md b/DataModels-Databases.md
@@ -5,6 +5,7 @@
 - [Паттерны баз данных](#паттерны-баз-данных)
 - [Движки баз данных](#движки-баз-данных)
 - [Проблема n + 1](#проблема-n-1)
+- [Оптимизация SQL-запросов](#оптимизация-sql-запросов)
 
 <!--
 - [Резидентные базы данных](#резидентные-базы-данных)
@@ -144,22 +145,100 @@ START TRANSACTION;
 ## Индекс базы данных
 - [Об индексе базы данных](#об-индексе-базы-данных)
 - [Проблема дублирования данных](#проблема-дублирования-данных)
+- [Основные типы индексов](#основные-типы-индексов)
 
 ### Об индексе базы данных
 
 **Индекс базы данных** (англ. `database index`) — это структура данных, ускоряющая операции поиска (англ. `speed up querying`) в заданной таблице (или коллекции) базы данных за счёт хранения дополнительной информации в базе (говоря простыми словами, тех же данных таблицы, но в другом виде, в упорядоченном). 
 
-По умолчанию записи в таблице (коллекции) могут храниться произвольно (неупорядоченно). И если таблица довольно большая, то последовательный просмотр всех записей может занимать довольно продолжительное время. Индексы приводят данные в такой вид (упорядочивают их), чтобы это ускорило поиск. Например, структура индекста может быть представлена *сбалансированным деревом поиска*, и тогда скорость поиска будет логарифмичной `O(log n)` вместо линейной `O(n)`. 
+*Индекс* — это дополнительная структура данных, например, в виде дерева, которая позволяет быстро найти нужные строки, не перебирая всю таблицу (англ. `Full Table Scan`). Индексы хранят упорядоченные или быстро доступные ссылки на строки таблицы. Это похоже на оглавление в книге, которое позволяет быстро найти нужную страницу.
+
+
+По умолчанию записи в таблице (коллекции) могут храниться произвольно (неупорядоченно). И если таблица довольно большая, то последовательный просмотр всех записей может занимать довольно продолжительное время. Индексы приводят данные в такой вид (упорядочивают их), чтобы это ускорило поиск. Например, структура индекса может быть представлена *сбалансированным деревом поиска*, и тогда скорость поиска будет логарифмичной `O(log n)` вместо линейной `O(n)`. 
 
 Индекс формируется из значений одного или нескольких столбцов таблицы (полей документов коллекции) и указателя на соответствующие строки таблицы (документы коллекции). Также иногда индексы могут создаваться из выражений.
 
-Таким образом, если вы создаёте индекс по какому-то столбцу таблицы, скажем, по имени пользователя, вы можете быстрее найти (получить) данные пользователей из таблицы по заданному имени (выигрываете в скорости, во времени), но нужно учитывать, что индекс подразумевает дублирование некоторых данных (проигрываете в памяти).
+### Основные типы индексов:
+#### Бинарное дерево (B-дерево, B-tree)
+
+Наиболее распространённый тип индекса (чаще всего используется по умолчанию). Организован в виде сбалансированного дерева (англ. `AVL-Tree`).
+Когда использовать:
+	•	Поиск точных значений (например, `WHERE id = 10`)
+	•	Поиск диапазонов (`WHERE date BETWEEN x AND y`)
+	•	Сортировка (`ORDER BY`)
+	•	`JOIN` по индексированным полям
+Недостатки:
+	•	Менее эффективен при поиске текста по шаблону (например, с `LIKE '%search%'`)
+	•	Ненужное создание множества таких индексов может снизить производительность при вставке и обновлении записей
+
+#### Хеш-индексы (Hash Index)
+Используют хеш-функции для быстрого поиска по точному соответствию ключа.
+
+Когда использовать:
+	•	Очень быстрый поиск по точному совпадению (например, `WHERE username = 'user123'`)
+Недостатки:
+	•	Не поддерживают поиск по диапазону (`BETWEEN`, `<`, `>`) или сортировку
+	•	Не подходят для поиска частичных совпадений
+	•	Чаще используются в специализированных БД (например, in-memory хранилищах)
+
+#### Полнотекстовый индекс (Full-Text Index)
+
+Используются для поиска слов или фраз в тексте.
+Когда использовать:
+	•	Полнотекстовый поиск по большим текстовым полям (`LIKE` недостаточно эффективен)
+Примеры СУБД:
+	•	MySQL (MATCH AGAINST)
+	•	PostgreSQL (GIN, GIN индексы)
+
+#### Многоколоночные (композитные) индексы (Composite Index)
+
+Состоят из нескольких полей таблицы.
+
+Когда использовать:
+	•	Запросы, включающие несколько полей одновременно (WHERE name = X AND date = Y)
+	•	Частые сложные условия с множеством критериев
+Важно:
+	•	Порядок столбцов в индексе очень важен. Первым указывается поле, по которому чаще всего происходит поиск или фильтрация.
+
+#### Уникальный индекс (Unique Index)
+Не допускает повторяющихся значений.
 
-### Проблема дублирования данных
+Когда использовать:
+	•	Поля, значения которых должны быть уникальными (например, `email`, `phone`, `username`)
 
-Важно быть аккуратными с индексами, потому что за любым изменением в таблице (коллекции) должно последовать обновление индекса. Когда данных очень много, это может повлечь за собой очень трудоёмкие вычисления и большую нагрузку на сервер соответственно.
+#### Частичные индексы (Partial Index)
 
-Более того, индексы занимают дополнительное место, поэтому не стоит их создавать (хранить) без необходимости.
+Индексы, применяемые только к части строк таблицы (по условию).
+Когда использовать:
+	•	Если часто выбирается лишь небольшая часть данных (например, только активные пользователи)
+
+#### Многомерные индексы (R-Tree, GIN, GiST)
+
+Используются для специфических типов данных (пространственные данные, JSON и пр.).
+Когда использовать:
+	•	Геоданные (например, геолокации, поиск по карте)
+	•	JSON-данные с поиском по внутренним полям
+
+### Преимущества и недостатки индексов
+
+Количество индексов прямо влияет на производительность
+* Много индексов:
+➕ Ускоряет многие запросы на чтение
+➖ Значительно замедляет операции записи (`INSERT, UPDATE, DELETE`), увеличивает размер базы данных, повышает нагрузку на сервер.
+*	Недостаточно индексов:
+➕ Быстрая запись данных
+➖ Медленные запросы на чтение, полное сканирование таблиц, неоптимальная нагрузка на сервер.
+
+Таблица с 5 индексами при добавлении новой строки база данных должна обновить все 5 индексов, что занимает больше времени, чем без индексов или с одним индексом.
+
+Создавайте индексы только на те поля, которые часто используются в запросах.
+Избегайте индексов на полях с низкой селективностью (например, пол (мужчина/женщина) — плохой кандидат для индекса, так как пользы почти не принесёт).
+
+Правильное использование индексов — это баланс между скоростью чтения, скоростью вставки и обновления данных, а также объёмом используемого места.
+
+Индексы ускоряют чтение, но замедляют операции записи (INSERT, UPDATE, DELETE).
+	•	Используйте индексы осознанно: больше индексов ≠ всегда лучше.
+	•	Регулярно проверяйте производительность запросов (с помощью EXPLAIN) и оптимизируйте набор индексов.
 
 ## Курсор
 - [О курсоре](#о-курсоре)
@@ -1865,3 +1944,67 @@ GET /posts/_search
 }
 ```
 ## Mongoose, проблема n + 1 и populate
+
+
+# Оптимизация SQL-запросов
+
+## Анализ производительности запросов
+
+Команда `EXPLAIN` — основной инструмент анализа производительности запросов.
+```sql
+EXPLAIN SELECT * FROM users WHERE email = 'test@example.com';
+```
+Она позволяет смотреть
+* типы доступа к данным (Index Scan, Full table scan и тд)
+* используемые индексы и их эффективность
+* количество просматриваемых строк
+
+## Индексы
+**Индексы** – *важнейший инструмент ускорения поиска запроса*
+Создавай индекс для полей, которые используются в
+* `JOIN`
+* `WHERE`
+* `ORDER BY`
+* `GROUP BY`
+
+Учитывайте **селективность** (индексируй поля с высокой уникальностью).
+
+Пример создания индекса
+```sql
+CREATE INDEX idx_users_email ON users(email);
+```
+
+## Выбирайте только нужные поля таблицы и не используй `SELECT *`
+```sql
+# плохо
+SELECT *
+# хорошо
+SELECT id, username FROM users; # хорошо
+```
+
+## Избегайте лишних JOIN и подзапросов
+Используйте `JOIN` вместо подзапросов, если это возможно
+```sql
+# плохо - подзапрос
+SELECT id, (SELECT id FROM orders WHERE orders.user_id = users.id) FROM users;
+# хорошо - JOIN
+SELECT users.id, orders.id FROM users JOIN orders ON orders.user_id = users.id;
+```
+
+## Используйте пагинацию, когда это возможно
+Задайте `LIMIT` и `OFFSET`
+```sql
+SELECT id, username FROM users LIMIT 50 OFFSET 0;
+```
+
+## Грамотно используйте условия WHERE и агрегацию
+
+## Регулярно чистите базу, выполняйте оптимизацию таблиц и перестройку индексов
+```sql
+OPTIMIZE TABLE your_table
+```
+## Следите за производительностью запросов
+Например, в MySQL можно сделать так
+```sql
+SET GLOBAL slow_query_log = 'ON';
+```