update

chen2021673 · chen2021673 · commit f51b1d554b4b · 2026-01-07T03:22:45.000Z
diff --git a/infini_train/include/autograd/accumulate.h b/infini_train/include/autograd/accumulate.h
@@ -18,6 +18,8 @@ class AccumulateGrad final : public Function {
 
     std::vector<std::shared_ptr<Tensor>> Backward(const std::vector<std::shared_ptr<Tensor>> &) override;
 
+    std::shared_ptr<Tensor> tensor() const { return tensor_; }
+
 private:
     std::shared_ptr<Tensor> tensor_ = nullptr;
     float learning_rate_ = 1.0f;
diff --git a/infini_train/include/autograd/function.h b/infini_train/include/autograd/function.h
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <functional>
 #include <memory>
 #include <utility>
 #include <vector>
@@ -9,6 +10,14 @@ class Tensor;
 }
 
 namespace infini_train::autograd {
+class HookHandle;
+using FunctionForwardPreHook = std::function<void(class Function*, const std::vector<std::shared_ptr<Tensor>>&)>;
+using FunctionForwardPostHook = std::function<void(class Function*, const std::vector<std::shared_ptr<Tensor>>&,
+                                                    const std::vector<std::shared_ptr<Tensor>>&)>;
+using FunctionBackwardPreHook = std::function<void(class Function*, const std::vector<std::shared_ptr<Tensor>>&)>;
+using FunctionBackwardPostHook = std::function<void(class Function*, const std::vector<std::shared_ptr<Tensor>>&,
+                                                     const std::vector<std::shared_ptr<Tensor>>&)>;
+
 class Function : public std::enable_shared_from_this<Function> {
 public:
     static constexpr char kUndefinedType[] = "Undefined";
@@ -28,6 +37,11 @@ class Function : public std::enable_shared_from_this<Function> {
 
     void IncreaseDependenciesNumber();
 
+    std::shared_ptr<HookHandle> RegisterForwardPreHook(FunctionForwardPreHook hook);
+    std::shared_ptr<HookHandle> RegisterForwardPostHook(FunctionForwardPostHook hook);
+    std::shared_ptr<HookHandle> RegisterBackwardPreHook(FunctionBackwardPreHook hook);
+    std::shared_ptr<HookHandle> RegisterBackwardPostHook(FunctionBackwardPostHook hook);
+
 protected:
     std::vector<std::shared_ptr<Tensor>> saved_tensors_;
 
@@ -38,5 +52,9 @@ class Function : public std::enable_shared_from_this<Function> {
     int grad_outputs_reached_ = 0;
     std::vector<std::shared_ptr<Tensor>> grad_outputs_;
     const std::string type_ = kUndefinedType;
+    std::vector<FunctionForwardPreHook> forward_pre_hooks_;
+    std::vector<FunctionForwardPostHook> forward_post_hooks_;
+    std::vector<FunctionBackwardPreHook> backward_pre_hooks_;
+    std::vector<FunctionBackwardPostHook> backward_post_hooks_;
 };
 } // namespace infini_train::autograd
diff --git a/infini_train/include/autograd/function_hook.h b/infini_train/include/autograd/function_hook.h
@@ -1,6 +1,8 @@
 #pragma once
 
+#include <functional>
 #include <memory>
+#include <vector>
 
 #include "infini_train/include/nn/parallel/reduce_op_type.h"
 
@@ -13,6 +15,8 @@ class ProcessGroup;
 } // namespace infini_train
 
 namespace infini_train::autograd {
+class Function;
+class HookHandle;
 class PostAccumulateGradHook {
 public:
     virtual void operator()(const std::shared_ptr<Tensor> &tensor) = 0;
@@ -30,4 +34,36 @@ class AllReducePostAccumulateHook : public PostAccumulateGradHook {
     infini_train::nn::parallel::function::ReduceOpType reduce_op_;
     const infini_train::nn::parallel::ProcessGroup *pg_ = nullptr;
 };
+
+// Forward pre-hook: called before forward pass
+using FunctionForwardPreHook = std::function<void(Function*, const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Forward post-hook: called after forward pass
+using FunctionForwardPostHook = std::function<void(Function*, const std::vector<std::shared_ptr<Tensor>>&,
+                                                    const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Backward pre-hook: called before backward pass
+using FunctionBackwardPreHook = std::function<void(Function*, const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Backward post-hook: called after backward pass
+using FunctionBackwardPostHook = std::function<void(Function*, const std::vector<std::shared_ptr<Tensor>>&,
+                                                     const std::vector<std::shared_ptr<Tensor>>&)>;
+
+template <typename HookType>
+class FunctionHookHandleImpl : public HookHandle {
+public:
+    FunctionHookHandleImpl(std::vector<HookType>* hooks, size_t id) : hooks_(hooks), id_(id) {}
+
+    void Remove() override {
+        if (!removed_ && hooks_ && id_ < hooks_->size()) {
+            (*hooks_)[id_] = nullptr;
+            removed_ = true;
+        }
+    }
+
+private:
+    std::vector<HookType>* hooks_;
+    size_t id_;
+    bool removed_ = false;
+};
 } // namespace infini_train::autograd
diff --git a/infini_train/include/autograd/tensor_hook.h b/infini_train/include/autograd/tensor_hook.h
@@ -0,0 +1,37 @@
+#pragma once
+
+#include <functional>
+#include <memory>
+#include <vector>
+
+namespace infini_train {
+class Tensor;
+
+namespace autograd {
+
+// Hook handle for removing hooks
+class HookHandle {
+public:
+    virtual ~HookHandle() = default;
+    virtual void Remove() = 0;
+};
+
+// Tensor backward hook: modifies gradient during backward pass
+// Returns modified gradient or nullptr to keep original
+using TensorBackwardHook = std::function<std::shared_ptr<Tensor>(const std::shared_ptr<Tensor>&)>;
+
+class TensorBackwardHookHandle : public HookHandle {
+public:
+    TensorBackwardHookHandle(std::vector<TensorBackwardHook>* hooks, size_t id)
+        : hooks_(hooks), id_(id) {}
+
+    void Remove() override;
+
+private:
+    std::vector<TensorBackwardHook>* hooks_;
+    size_t id_;
+    bool removed_ = false;
+};
+
+} // namespace autograd
+} // namespace infini_train
diff --git a/infini_train/include/nn/module_hook.h b/infini_train/include/nn/module_hook.h
@@ -0,0 +1,56 @@
+#pragma once
+
+#include <functional>
+#include <memory>
+#include <vector>
+
+namespace infini_train {
+class Tensor;
+
+namespace nn {
+class Module;
+
+// Forward pre-hook: called before forward pass
+// Args: (module, input_tensors)
+using ForwardPreHook = std::function<void(Module*, const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Forward post-hook: called after forward pass
+// Args: (module, input_tensors, output_tensors)
+using ForwardPostHook = std::function<void(Module*, const std::vector<std::shared_ptr<Tensor>>&,
+                                           const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Backward pre-hook: called before backward pass
+// Args: (module, grad_output)
+using BackwardPreHook = std::function<void(Module*, const std::vector<std::shared_ptr<Tensor>>&)>;
+
+// Backward post-hook: called after backward pass
+// Args: (module, grad_input, grad_output)
+using BackwardPostHook = std::function<void(Module*, const std::vector<std::shared_ptr<Tensor>>&,
+                                            const std::vector<std::shared_ptr<Tensor>>&)>;
+
+class ModuleHookHandle {
+public:
+    virtual ~ModuleHookHandle() = default;
+    virtual void Remove() = 0;
+};
+
+template <typename HookType>
+class ModuleHookHandleImpl : public ModuleHookHandle {
+public:
+    ModuleHookHandleImpl(std::vector<HookType>* hooks, size_t id) : hooks_(hooks), id_(id) {}
+
+    void Remove() override {
+        if (!removed_ && hooks_ && id_ < hooks_->size()) {
+            (*hooks_)[id_] = nullptr;
+            removed_ = true;
+        }
+    }
+
+private:
+    std::vector<HookType>* hooks_;
+    size_t id_;
+    bool removed_ = false;
+};
+
+} // namespace nn
+} // namespace infini_train
diff --git a/infini_train/include/nn/modules/module.h b/infini_train/include/nn/modules/module.h
@@ -7,6 +7,7 @@
 #include <vector>
 
 #include "infini_train/include/datatype.h"
+#include "infini_train/include/nn/module_hook.h"
 
 namespace infini_train {
 class Tensor;
@@ -50,6 +51,10 @@ class Module : public std::enable_shared_from_this<Module> {
 
     std::unordered_map<std::string, std::shared_ptr<Tensor>> StateDict() const;
 
+    // operator() calls hooks and Forward
+    std::vector<std::shared_ptr<Tensor>> operator()(const std::vector<std::shared_ptr<Tensor>> &input_tensors);
+
+    // Forward to be overridden by subclasses
     virtual std::vector<std::shared_ptr<Tensor>> Forward(const std::vector<std::shared_ptr<Tensor>> &input_tensors);
 
     virtual float TrainStep(const std::vector<std::shared_ptr<Tensor>> &input_tensors,
@@ -66,13 +71,24 @@ class Module : public std::enable_shared_from_this<Module> {
 
     virtual std::shared_ptr<Module> ReplicateForDataParallel(int device_idx) const;
 
+    // Hook registration methods
+    std::shared_ptr<ModuleHookHandle> RegisterForwardPreHook(ForwardPreHook hook);
+    std::shared_ptr<ModuleHookHandle> RegisterForwardPostHook(ForwardPostHook hook);
+    std::shared_ptr<ModuleHookHandle> RegisterBackwardPreHook(BackwardPreHook hook);
+    std::shared_ptr<ModuleHookHandle> RegisterBackwardPostHook(BackwardPostHook hook);
+
 protected:
     const Device *device_ = nullptr;
     const std::string type_ = kUndefinedType;
     std::unordered_map<std::string, std::shared_ptr<Module>> modules_;
     std::unordered_map<std::string, std::shared_ptr<Tensor>> parameters_;
     std::unordered_map<std::string, std::shared_ptr<Tensor>> buffers_;
 
+    std::vector<ForwardPreHook> forward_pre_hooks_;
+    std::vector<ForwardPostHook> forward_post_hooks_;
+    std::vector<BackwardPreHook> backward_pre_hooks_;
+    std::vector<BackwardPostHook> backward_post_hooks_;
+
 private:
     std::unordered_map<std::string, std::shared_ptr<Module>>
     NamedModules(const std::string &prefix = "", bool remove_duplicate = true,
diff --git a/infini_train/include/utils/precision_checker.h b/infini_train/include/utils/precision_checker.h
@@ -0,0 +1,47 @@
+#pragma once
+
+#include <memory>
+#include <string>
+#include <vector>
+
+namespace infini_train {
+class Tensor;
+
+namespace autograd {
+class Function;
+class HookHandle;
+} // namespace autograd
+
+namespace nn {
+class Module;
+} // namespace nn
+
+namespace utils {
+
+class PrecisionChecker {
+public:
+    struct Config {
+        bool check_nan = true;
+        bool check_inf = true;
+        bool print_stats = true;
+        bool abort_on_error = false;
+    };
+
+    static void RegisterForFunction(autograd::Function* func, const std::string& name = "",
+                                    const Config& config = Config());
+
+    static void RegisterForAllFunctions(const std::vector<std::shared_ptr<autograd::Function>>& functions,
+                                       const Config& config = Config());
+
+    // Register hooks for a Module (checks forward inputs/outputs)
+    static void RegisterForModule(nn::Module* module, const std::string& name = "",
+                                 const Config& config = Config());
+
+private:
+    static void CheckTensors(const std::string& stage, const std::string& name,
+                           const std::vector<std::shared_ptr<Tensor>>& tensors,
+                           const Config& config);
+};
+
+} // namespace utils
+} // namespace infini_train
diff --git a/infini_train/src/autograd/function.cc b/infini_train/src/autograd/function.cc
diff --git a/infini_train/src/nn/modules/module.cc b/infini_train/src/nn/modules/module.cc
diff --git a/infini_train/src/utils/precision_checker.cc b/infini_train/src/utils/precision_checker.cc