@@ -211,9 +211,42 @@ Bluestore
211211Диски
212212-----
213213
214- * запрещено использовать аппаратные рейды. имеется в виду в режиме рейда. Опасность обмана
215- фсинков (например, включенный врайтбек на рейде без BBU). В рейдах цеф не нуждается в принципе.
216- в апп. рейде пока диск не просинкается рейд дегрейдед. Уж лучше цеф сам позаботится о репликах.
214+ * Не имеет никакого смысла использовать рэйды как хранилище для Ceph. Здесь
215+ имеется в виду какой-либо способ программного или аппаратного объединения
216+ дисков в один виртуальный. Потенциальные проблемы:
217+
218+ * Опасность обмана команд по сбросу кеша. Например, включенный Writeback на
219+ аппартаном RAID без BBU.
220+
221+ * Программный RAID (mdadm, зеркало) ПОВРЕЖДАЕТ данные при записи в режиме
222+ O_DIRECT если в процессе записи страница меняется в параллельном потоке.
223+ В этом случае ПОДТВЕРЖДЁННЫЕ данные будут различаться в половинках
224+ зеркального рэйда. При следующем (scrub?) рэйда будут проблемы.
225+ TODO: Нужен proof.
226+
227+ * Программные рэйды не защищают от сбоя питания -- да, разумеется вышестоящие
228+ FS/БД должны быть готовы к повреждению неподтверждённых данных, но при
229+ проверке (scrub?) различие данных на репликах приведёт к проблемам.
230+
231+ * Во время смерти диска RAID находится в состоянии degraded пока не добавят
232+ новый диск. Либо нужен spare-диск который в случае с Ceph глупо не
233+ использовать. Degraded RAID внезапно для Ceph будет давать худшие
234+ характеристики пока не восстановится. RAID не знает какие данные нужны а
235+ какие -- нет, поэтому процесс восстановления реплик -- долгий --
236+ синхронизирует мусор либо нули.
237+
238+ * Для RAID нужны диски одинакового размера. Для Ceph это не требуется.
239+
240+ * Аппаратные рэйды нужно отдельно мониторить и администрировать.
241+
242+ * Зеркало не нужно потому что Ceph сам сделает столько реплик сколько
243+ требуется. Страйпинг не нужен потому что повышение производительности
244+ делается другими способами (с помощью SSD). Raid 5,6 в случае дегрейда
245+ причиняет боль.
246+
247+ * В общем и целом, Ceph можно рассматривать как огромный распределённый RAID.
248+ Зачем делать RAID состоящий из RAID не понятно.
249+
217250* Акустик, хпа, паверсейвинг, настроить автотесты по смарту.
218251* отдискардить ссд перед использованием.
219252* fstrim -v -a (filestore on ssd), blkdiscard on LVM/Partition.
0 commit comments