Made changes according to pull request comments.

ajaysaini725 · ajaysaini725 · commit 1980bceefe53 · 2017-06-21T18:17:43.000-07:00
diff --git a/python/spark_sklearn/grid_search.py b/python/spark_sklearn/grid_search.py
@@ -5,7 +5,7 @@
 import sys
 
 from itertools import product
-from collections import defaultdict
+from collections import defaultdict, Sized
 from functools import partial
 import warnings
 
@@ -242,8 +242,9 @@ def __init__(self, sc, estimator, param_grid, scoring=None, fit_params=None,
                  n_jobs=1, iid=True, refit=True, cv=None, verbose=0,
                  pre_dispatch='2*n_jobs', error_score='raise', return_train_score=True):
         super(GridSearchCV, self).__init__(
-            estimator, scoring, fit_params, n_jobs, iid,
-            refit, cv, verbose, pre_dispatch, error_score, return_train_score)
+            estimator=estimator, scoring=scoring, fit_params=fit_params, n_jobs=n_jobs, iid=iid,
+            refit=retfit, cv=cv, verbose=verbose, pre_dispatch=pre_dispatch, error_score=error_score,
+            return_train_score=return_train_score)
         self.sc = sc
         self.param_grid = param_grid
 
@@ -280,15 +281,16 @@ def _fit(self, X, y, groups, parameter_iterable):
         X, y, groups = indexable(X, y, groups)
         n_splits = cv.get_n_splits(X, y, groups)
         
-        if self.verbose > 0:
+        if self.verbose > 0 and isinstance(parameter_iterable, Sized):
             n_candidates = len(parameter_iterable)
             print("Fitting {0} folds for each of {1} candidates, totalling"
                   " {2} fits".format(n_splits, n_candidates,
                                      n_candidates * n_splits))
 
         base_estimator = clone(self.estimator)
 
-        param_grid = [(parameters, train, test) for parameters in parameter_iterable for train, test in list(cv.split(X, y, groups))]
+        param_grid = [(parameters, train, test) for parameters in parameter_iterable
+                                                for train, test in list(cv.split(X, y, groups))]
         # Because the original python code expects a certain order for the elements, we need to
         # respect it.
         indexed_param_grid = list(zip(range(len(param_grid)), param_grid))
@@ -309,10 +311,10 @@ def fun(tup):
             local_X = X_bc.value
             local_y = y_bc.value
             res = fas(local_estimator, local_X, local_y, scorer, train, test, verbose,
-                                  parameters, fit_params,
-                                  return_train_score=return_train_score,
-                                  return_n_test_samples=True, return_times=True,
-                                  return_parameters=True, error_score=error_score)
+                      parameters, fit_params,
+                      return_train_score=return_train_score,
+                      return_n_test_samples=True, return_times=True,
+                      return_parameters=True, error_score=error_score)
             return (index, res)
         indexed_out0 = dict(par_param_grid.map(fun).collect())
         out = [indexed_out0[idx] for idx in range(len(param_grid))]