|
146 | 146 | 'lr': 1e-1, |
147 | 147 | 'weight_decay': 1e-3, |
148 | 148 | 'start_preconditioning_step': 9, |
149 | | - 'preconditioning_compute_steps': 10, |
| 149 | + 'preconditioning_compute_steps': 9, |
150 | 150 | 'graft_type': 1, |
151 | 151 | }, |
152 | 152 | 10, |
|
157 | 157 | 'lr': 1e-1, |
158 | 158 | 'weight_decay': 1e-3, |
159 | 159 | 'start_preconditioning_step': 9, |
160 | | - 'preconditioning_compute_steps': 10, |
| 160 | + 'preconditioning_compute_steps': 9, |
161 | 161 | 'graft_type': 2, |
162 | 162 | }, |
163 | 163 | 10, |
|
168 | 168 | 'lr': 1e-2, |
169 | 169 | 'weight_decay': 1e-3, |
170 | 170 | 'start_preconditioning_step': 9, |
171 | | - 'preconditioning_compute_steps': 10, |
| 171 | + 'preconditioning_compute_steps': 9, |
172 | 172 | 'graft_type': 3, |
173 | 173 | }, |
174 | 174 | 10, |
|
179 | 179 | 'lr': 1e-1, |
180 | 180 | 'weight_decay': 1e-3, |
181 | 181 | 'start_preconditioning_step': 9, |
182 | | - 'preconditioning_compute_steps': 10, |
| 182 | + 'preconditioning_compute_steps': 9, |
183 | 183 | 'graft_type': 4, |
184 | 184 | }, |
185 | 185 | 10, |
|
190 | 190 | 'lr': 1e-1, |
191 | 191 | 'weight_decay': 1e-3, |
192 | 192 | 'start_preconditioning_step': 9, |
193 | | - 'preconditioning_compute_steps': 10, |
| 193 | + 'preconditioning_compute_steps': 9, |
194 | 194 | 'pre_conditioner_type': 0, |
195 | 195 | }, |
196 | 196 | 10, |
|
201 | 201 | 'lr': 1e-1, |
202 | 202 | 'weight_decay': 1e-3, |
203 | 203 | 'start_preconditioning_step': 9, |
204 | | - 'preconditioning_compute_steps': 10, |
| 204 | + 'preconditioning_compute_steps': 9, |
205 | 205 | 'pre_conditioner_type': 1, |
206 | 206 | }, |
207 | 207 | 10, |
|
212 | 212 | 'lr': 1e-1, |
213 | 213 | 'weight_decay': 1e-3, |
214 | 214 | 'start_preconditioning_step': 9, |
215 | | - 'preconditioning_compute_steps': 10, |
| 215 | + 'preconditioning_compute_steps': 9, |
216 | 216 | 'pre_conditioner_type': 2, |
217 | 217 | }, |
218 | 218 | 10, |
|
223 | 223 | 'lr': 1e-1, |
224 | 224 | 'weight_decay': 1e-3, |
225 | 225 | 'start_preconditioning_step': 9, |
226 | | - 'preconditioning_compute_steps': 10, |
| 226 | + 'preconditioning_compute_steps': 9, |
227 | 227 | 'inverse_exponent_override': 1, |
228 | 228 | }, |
229 | 229 | 10, |
|
234 | 234 | 'lr': 1e-1, |
235 | 235 | 'weight_decay': 1e-3, |
236 | 236 | 'start_preconditioning_step': 9, |
237 | | - 'preconditioning_compute_steps': 10, |
| 237 | + 'preconditioning_compute_steps': 9, |
238 | 238 | 'nesterov': False, |
239 | 239 | }, |
240 | 240 | 10, |
|
245 | 245 | 'lr': 1e-1, |
246 | 246 | 'weight_decay': 1e-3, |
247 | 247 | 'start_preconditioning_step': 9, |
248 | | - 'preconditioning_compute_steps': 10, |
| 248 | + 'preconditioning_compute_steps': 9, |
249 | 249 | 'decoupled_weight_decay': True, |
250 | 250 | }, |
251 | 251 | 10, |
|
256 | 256 | 'lr': 1e-0, |
257 | 257 | 'weight_decay': 1e-3, |
258 | 258 | 'start_preconditioning_step': 9, |
259 | | - 'preconditioning_compute_steps': 10, |
| 259 | + 'preconditioning_compute_steps': 9, |
260 | 260 | 'decoupled_learning_rate': False, |
261 | 261 | }, |
262 | 262 | 10, |
|
267 | 267 | 'lr': 1e-1, |
268 | 268 | 'weight_decay': 1e-3, |
269 | 269 | 'start_preconditioning_step': 9, |
270 | | - 'preconditioning_compute_steps': 10, |
| 270 | + 'preconditioning_compute_steps': 9, |
271 | 271 | 'moving_average_for_momentum': True, |
272 | 272 | }, |
273 | 273 | 10, |
|
0 commit comments