Adjust so works under Windows

rrlyman · rrlyman · commit b1a9bf9625b6 · 2016-08-09T15:53:50.000-07:00
Adjust for windows
diff --git a/p124_random_forest.py b/p124_random_forest.py
@@ -22,31 +22,33 @@
 import ocr_utils
 from sklearn.preprocessing import StandardScaler
 
-y_train, X_train, y_test,  X_test, labels  = ocr_utils.load_E13B(chars_to_train = (48,49,50) , columns=(9,17), test_size=0.3, nChars=300, random_state=0) 
-
-
-sc = StandardScaler()
-sc.fit(X_train)
-X_train_std = sc.transform(X_train)
-X_test_std = sc.transform(X_test)
-X_combined_std = np.vstack((X_train_std, X_test_std))
-y_combined = np.hstack((y_train, y_test))
-X_combined = np.vstack((X_train, X_test))
-y_combined = np.hstack((y_train, y_test))
-
-from sklearn.ensemble import RandomForestClassifier
-
-forest = RandomForestClassifier(criterion='entropy',
-                                n_estimators=10, 
-                                random_state=1,
-                                n_jobs=2)
-forest.fit(X_train, y_train)
-
-ocr_utils.plot_decision_regions(X=X_combined, 
-                                         y=y_combined, 
-                                         classifier=forest, 
-                                         labels=labels,                                         
-                                         test_idx=range(len(X_test_std),len(X_combined_std)),
-                                         title='random_forest')
-
-print ('\n########################### No Errors ####################################')
+if __name__ == '__main__':
+    
+    y_train, X_train, y_test,  X_test, labels  = ocr_utils.load_E13B(chars_to_train = (48,49,50) , columns=(9,17), test_size=0.3, nChars=300, random_state=0) 
+
+
+    sc = StandardScaler()
+    sc.fit(X_train)
+    X_train_std = sc.transform(X_train)
+    X_test_std = sc.transform(X_test)
+    X_combined_std = np.vstack((X_train_std, X_test_std))
+    y_combined = np.hstack((y_train, y_test))
+    X_combined = np.vstack((X_train, X_test))
+    y_combined = np.hstack((y_train, y_test))
+
+    from sklearn.ensemble import RandomForestClassifier
+
+    forest = RandomForestClassifier(criterion='entropy',
+                                    n_estimators=10, 
+                                    random_state=1,
+                                    n_jobs=2)
+    forest.fit(X_train, y_train)
+
+    ocr_utils.plot_decision_regions(X=X_combined, 
+                                             y=y_combined, 
+                                             classifier=forest, 
+                                             labels=labels,                                         
+                                             test_idx=range(len(X_test_std),len(X_combined_std)),
+                                             title='random_forest')
+
+    print ('\n########################### No Errors ####################################')
diff --git a/p131_principal_component_analysis.py b/p131_principal_component_analysis.py
@@ -39,10 +39,10 @@
                             output_feature_list=output_feature_list, 
                             test_size=.2,
                             random_state=0)
-   
-y_train = ds.train.features[0]
-X_train_image = ds.train.features[1]
-X_train = ds.train.features[2]
+windows_limit = 5000 # uses too much memory for my 32 bit windows computer so limit size of sample   
+y_train = ds.train.features[0][:windows_limit]
+X_train_image = ds.train.features[1][:windows_limit]
+X_train = ds.train.features[2][:windows_limit]
 
 y_test = ds.test.features[0]
 X_test_image = ds.test.features[1]
diff --git a/p181_learning_curves.py b/p181_learning_curves.py
@@ -27,97 +27,101 @@
 from sklearn.linear_model import LogisticRegression
 from sklearn.pipeline import Pipeline
 
-y_train, X_train, y_test,  X_test, labels  = ocr_utils.load_E13B(chars_to_train = (48,51) , columns=(9,17), random_state=0) 
-      
-pipe_lr = Pipeline([('scl', StandardScaler()),
-            ('clf', LogisticRegression(penalty='l2', random_state=0))])
-
-train_sizes, train_scores, test_scores =\
-                learning_curve(estimator=pipe_lr, 
-                X=X_train, 
-                y=y_train, 
-                train_sizes=np.linspace(0.1, 1.0, 10), 
-                cv=10,
-                n_jobs=8)
-
-train_mean = np.mean(train_scores, axis=1)
-train_std = np.std(train_scores, axis=1)
-test_mean = np.mean(test_scores, axis=1)
-test_std = np.std(test_scores, axis=1)
-
-plt.plot(train_sizes, train_mean, 
-         color='blue', marker='o', 
-         markersize=5, label='training accuracy')
-
-plt.fill_between(train_sizes, 
-                 train_mean + train_std,
-                 train_mean - train_std, 
-                 alpha=0.15, color='blue')
-
-plt.plot(train_sizes, test_mean, 
-         color='green', linestyle='--', 
-         marker='s', markersize=5, 
-         label='validation accuracy')
-
-plt.fill_between(train_sizes, 
-                 test_mean + test_std,
-                 test_mean - test_std, 
-                 alpha=0.15, color='green')
-
-plt.grid()
-plt.xlabel('Number of training samples')
-plt.ylabel('Accuracy')
-plt.legend(loc='lower right')
-plt.ylim([0.8, 1.0])
-title='learning_curve'
-plt.title(title)
-plt.tight_layout()
-ocr_utils.show_figures(plt,title)
-
-from sklearn.learning_curve import validation_curve
-
-param_range = [0.001, 0.01, 0.1, 1.0, 10.0, 100.0]
-train_scores, test_scores = validation_curve(
-                estimator=pipe_lr, 
-                X=X_train, 
-                y=y_train, 
-                param_name='clf__C', 
-                param_range=param_range,
-                cv=10,
-                n_jobs=8)
-
-train_mean = np.mean(train_scores, axis=1)
-train_std = np.std(train_scores, axis=1)
-test_mean = np.mean(test_scores, axis=1)
-test_std = np.std(test_scores, axis=1)
-
-plt.plot(param_range, train_mean, 
-         color='blue', marker='o', 
-         markersize=5, label='training accuracy')
-
-plt.fill_between(param_range, train_mean + train_std,
-                 train_mean - train_std, alpha=0.15,
-                 color='blue')
-
-plt.plot(param_range, test_mean, 
-         color='green', linestyle='--', 
-         marker='s', markersize=5, 
-         label='validation accuracy')
-
-plt.fill_between(param_range, 
-                 test_mean + test_std,
-                 test_mean - test_std, 
-                 alpha=0.15, color='green')
-
-plt.grid()
-plt.xscale('log')
-plt.legend(loc='lower right')
-plt.xlabel('Parameter C')
-plt.ylabel('Accuracy')
-plt.ylim([0.8, 1.0])
-title='validation_curve'
-plt.title(title)
-plt.tight_layout()
-ocr_utils.show_figures(plt,title)
-
-print ('\n########################### No Errors ####################################')        
+if __name__ == '__main__':
+    
+
+    y_train, X_train, y_test,  X_test, labels  = ocr_utils.load_E13B(chars_to_train = (48,51) , columns=(9,17), random_state=0) 
+          
+    pipe_lr = Pipeline([('scl', StandardScaler()),
+                ('clf', LogisticRegression(penalty='l2', random_state=0))])
+
+    train_sizes, train_scores, test_scores =\
+                    learning_curve(estimator=pipe_lr, 
+                    X=X_train, 
+                    y=y_train, 
+                    train_sizes=np.linspace(0.1, 1.0, 10), 
+                    cv=10,
+                    n_jobs=8)
+
+    train_mean = np.mean(train_scores, axis=1)
+    train_std = np.std(train_scores, axis=1)
+    test_mean = np.mean(test_scores, axis=1)
+    test_std = np.std(test_scores, axis=1)
+
+    plt.plot(train_sizes, train_mean, 
+             color='blue', marker='o', 
+             markersize=5, label='training accuracy')
+
+    plt.fill_between(train_sizes, 
+                     train_mean + train_std,
+                     train_mean - train_std, 
+                     alpha=0.15, color='blue')
+
+    plt.plot(train_sizes, test_mean, 
+             color='green', linestyle='--', 
+             marker='s', markersize=5, 
+             label='validation accuracy')
+
+    plt.fill_between(train_sizes, 
+                     test_mean + test_std,
+                     test_mean - test_std, 
+                     alpha=0.15, color='green')
+
+    plt.grid()
+    plt.xlabel('Number of training samples')
+    plt.ylabel('Accuracy')
+    plt.legend(loc='lower right')
+    plt.ylim([0.8, 1.0])
+    title='learning_curve'
+    plt.title(title)
+    plt.tight_layout()
+    ocr_utils.show_figures(plt,title)
+
+    from sklearn.learning_curve import validation_curve
+
+    param_range = [0.001, 0.01, 0.1, 1.0, 10.0, 100.0]
+    train_scores, test_scores = validation_curve(
+                    estimator=pipe_lr, 
+                    X=X_train, 
+                    y=y_train, 
+                    param_name='clf__C', 
+                    param_range=param_range,
+                    cv=10,
+                    n_jobs=8)
+
+    train_mean = np.mean(train_scores, axis=1)
+    train_std = np.std(train_scores, axis=1)
+    test_mean = np.mean(test_scores, axis=1)
+    test_std = np.std(test_scores, axis=1)
+
+    plt.plot(param_range, train_mean, 
+             color='blue', marker='o', 
+             markersize=5, label='training accuracy')
+
+    plt.fill_between(param_range, train_mean + train_std,
+                     train_mean - train_std, alpha=0.15,
+                     color='blue')
+
+    plt.plot(param_range, test_mean, 
+             color='green', linestyle='--', 
+             marker='s', markersize=5, 
+             label='validation accuracy')
+
+    plt.fill_between(param_range, 
+                     test_mean + test_std,
+                     test_mean - test_std, 
+                     alpha=0.15, color='green')
+
+    plt.grid()
+    plt.xscale('log')
+    plt.legend(loc='lower right')
+    plt.xlabel('Parameter C')
+    plt.ylabel('Accuracy')
+    plt.ylim([0.8, 1.0])
+    title='validation_curve'
+    plt.title(title)
+    plt.tight_layout()
+    ocr_utils.show_figures(plt,title)
+
+    print ('\n########################### No Errors ####################################')        
+