Merge branch 'main' of https://github.com/satishgsonwane/Video-Depth-Anything into main

satishgsonwane · satishgsonwane · commit aaf43f7b988e · 2025-02-10T13:54:13.000+05:30
diff --git a/run.py b/run.py
@@ -16,6 +16,7 @@
 import os
 import torch
 import time
+import cv2
 
 from video_depth_anything.video_depth import VideoDepthAnything
 from utils.dc_utils import read_video_frames, save_video
@@ -51,14 +52,59 @@
     video_depth_anything = video_depth_anything.to(DEVICE).eval()
     model_load_time = time.time() - start_time
 
-    # Video reading
+    # Video reading and processing in batches
     read_start = time.time()
-    frames, target_fps = read_video_frames(args.input_video, args.max_len, args.target_fps, args.max_res)
+    inference_start = time.time()  # Add timing marker here
+    batch_size = 300  # Process 300 frames at a time
+    total_depths = []
+    total_frames = []
+    
+    # Initialize video capture
+    cap = cv2.VideoCapture(args.input_video)
+    original_fps = cap.get(cv2.CAP_PROP_FPS)
+    target_fps = args.target_fps if args.target_fps > 0 else original_fps
+    frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    
+    if args.max_len > 0:
+        frame_count = min(frame_count, args.max_len)
+    
+    batch_frames = []
+    frame_idx = 0
+    
+    while frame_idx < frame_count:
+        ret, frame = cap.read()
+        if not ret:
+            break
+            
+        if args.max_res > 0:
+            h, w = frame.shape[:2]
+            scale = min(args.max_res / h, args.max_res / w)
+            if scale < 1:
+                new_h, new_w = int(h * scale), int(w * scale)
+                frame = cv2.resize(frame, (new_w, new_h))
+        
+        batch_frames.append(frame)
+        frame_idx += 1
+        
+        # Process batch when it reaches batch_size or end of video
+        if len(batch_frames) == batch_size or frame_idx == frame_count:
+            # Convert batch_frames list to numpy array
+            batch_frames_array = np.array(batch_frames)
+            depths, _ = video_depth_anything.infer_video_depth(
+                batch_frames_array, target_fps, input_size=args.input_size, 
+                device=DEVICE, fp32=args.fp32
+            )
+            total_depths.extend(depths)
+            total_frames.extend(batch_frames)
+            batch_frames = []  # Clear batch
+            print(f"Processed {frame_idx}/{frame_count} frames")
+    
+    cap.release()
+    frames = total_frames
+    depths = total_depths
     read_time = time.time() - read_start
 
-    # Depth inference
-    inference_start = time.time()
-    depths, fps = video_depth_anything.infer_video_depth(frames, target_fps, input_size=args.input_size, device=DEVICE, fp32=args.fp32)
+    # Remove redundant inference
     inference_time = time.time() - inference_start
     
     # Video saving
@@ -110,8 +156,4 @@
     num_frames = len(frames)
     print(f"\nPer-frame Statistics:")
     print(f"Number of Frames: {num_frames}")
-    print(f"Average Processing Time per Frame: {inference_time/num_frames:.3f}s ({(num_frames/inference_time):.1f} FPS)")
-
-    
-
-
+    print(f"Average Processing Time per Frame: {inference_time/num_frames:.3f}s ({(num_frames/inference_time):.1f} FPS)")