6363 Смотрим по ``ceph -s `` какой менеджер активен и подключаемся туда на порт ???? (вписать).
6464
6565
66-
6766CephFS
6867------
6968
@@ -104,9 +103,9 @@ Bluestore
104103
105104* Какие размеры БД и вал нужны + средства как посмотреть текущее
106105* WAL находится в БД. БД находится в блюсторе. Если вынести БД то она вместе
107- с журналом выносится. Вроде БД так устроена что самое хот выносится в
108- начало. Часть БД может быть отдельно а часть в том же месте где основное
109- хранилище если БД слишком большая .
106+ с журналом выносится. Вроде (нужен пруф) БД устроена так что самые горячие
107+ данные хранятся в её начале. Если БД не вмещается под отведённое место (если
108+ она выносная) то часть БД хранится отдельно, а часть в основном хранилище .
110109* Нет возможности после создания БД встроенной вынести её отдельно. Аналогично
111110 с её WAL.
112111
@@ -122,14 +121,14 @@ Bluestore
122121 в т.ч. так как не понятно, понял ли что диск rotational.
123122
124123* По исходникам смотрел -- он определяет что диск rotational и из этого делает
125- вывод SSD или нет. В том числе при старте осд оно смотрит не назначен ли класс
126- осд и ставит ssd/hdd на основании этого. А ещё применяет настройки разные в
127- зависимости от этого. Bcache (всегда?) ставит что non-rotational ДАЖЕ ЕСЛИ
128- РЕАЛЬНЫЙ КЕШ НЕ ПРИАТТАЧЕН к кеш-девайсу.
124+ вывод SSD или нет. В том числе при старте OSD оно смотрит не назначен ли класс
125+ OSD и ставит ssd/hdd на основании этого. А ещё применяет разные настройки в
126+ зависимости от этого. Bcache (всегда?) ставит флаг что диск что non-rotational
127+ ДАЖЕ ЕСЛИ РЕАЛЬНЫЙ КЕШ НЕ ПРИАТТАЧЕН к кеш-девайсу.
129128
130129Как работает
131130------------
132-
131+ * Tiering vs bcache vs dm-cache + инструкции по дмкешу.
133132* почему дедупликация крайне затруднена в архитектуре Ceph
134133* в файлсторе всё полностью пишется в журнал. один врайт превращается в два сисколла врайт
135134 - один в журнал (с синком) и один в основное хранилище. Но основное хранилище фсинкается
@@ -237,10 +236,18 @@ Bluestore
237236Процессоры и память
238237-------------------
239238
240- * ECC - потому что сбой в памяти мастер-осд в актинг сете приведёт к повреждению данных
241- даже если это BlueStore со своим крк - данные могут быть испорчены до подсчёта крк и распространены
242- по слейвам.
243- * говернор и паверсейв.
239+ * Для Ceph-нодов требуется (не рекомендуется) память с ECC. Сбой в памяти
240+ мастер-OSD в acting set приведёт к необнаруживаемому повреждению данных
241+ даже если это BlueStore со своим CRC32c. Данные могут повредиться до
242+ подсчёта CRC32 и распространиться по slave-OSD.
243+
244+ Немного близкая тема и про клиентов. Если данные испорчены до подсчёта
245+ CRC32 в рамках протокола мессенджера Ceph, то они будут повреждены и это
246+ не обнаружится.
247+
248+ * CPU Governor & powersave mode. Отличная статья в арче:
249+ https://wiki.archlinux.org/index.php/CPU_frequency_scaling
250+
244251* CRC32 аппаратное в блюсторе (и в месенджере не с блюстором?)
245252* гипертрединг нинужен. потому что это просто доп-набор регистров. В цефе по идее нет цпу-боунд задач
246253 есть крк32 но оно реализуется через спец команду в sse4.3 а такой блок емнип один на ядро.
0 commit comments