xihuishawpy
diff --git a/‎.gitignore
+3 b/‎.gitignore
+3
diff --git a/‎chapter6/RNN_naive_implement.py
+33 b/‎chapter6/RNN_naive_implement.py
+33
diff --git a/‎chapter6/character_level_one_hot.py
+19 b/‎chapter6/character_level_one_hot.py
+19
diff --git a/‎chapter6/conv1D_imdb.py
+65 b/‎chapter6/conv1D_imdb.py
+65
diff --git a/‎chapter6/inspect_jena_weather_dataset.py
+194 b/‎chapter6/inspect_jena_weather_dataset.py
+194
@@ -1,3 +1,6 @@
+chapter6/aclImdb*
+chapter6/glove.6B*
+
 # Byte-compiled / optimized / DLL files
 __pycache__/
 *.py[cod]
 
@@ -0,0 +1,33 @@
+import numpy as np
+
+# 时间步数
+timesteps = 100
+# 输入特征维度
+inputs_features = 32
+# 输出特征维度
+output_features = 64
+
+# 输入数据
+inputs = np.random.random((timesteps, inputs_features))
+
+# 初始状态
+state_t = np.zeros((output_features,))
+
+# 创建权重矩阵
+W = np.random.random((inputs_features, output_features))
+U = np.random.random((output_features, output_features))
+b = np.random.random((output_features,))
+
+successive_outputs = []
+for input_t in inputs:
+    # 使用当前输入和当前状态（前一个输出）去得到当前输出
+    output_t = np.tanh(np.dot(W, input_t) + np.dot(U, state_t) + b)
+
+    # 存储输出
+    successive_outputs.append(output_t)
+
+    # 更新状态
+    state_t = output_t
+
+# 最终的输出（timesteps, output_features）
+final_output_sequence = np.concatenate(successive_outputs, axis=0)
@@ -0,0 +1,19 @@
+import string
+import numpy as np
+
+samples = ['The cat sat on the mat.', 'The dog ate my homework.']
+
+# 所有可以打印出来的ASCII编码的字符
+characters = string.printable
+
+# 得到符号->索引的对应字典
+token_index = dict(zip(characters, range(1, len(characters) + 1)))
+
+max_length = 50
+results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
+for i, sample in enumerate(samples):
+    for j, character in enumerate(sample[:max_length]):
+        index = token_index.get(character)
+        results[i, j, index] = 1.
+
+print(results)
@@ -0,0 +1,65 @@
+from keras.datasets import imdb
+from keras.preprocessing import sequence
+from keras.models import Sequential
+from keras import layers
+from keras.optimizers import RMSprop
+import matplotlib.pyplot as plt
+
+# 预处理IMDB数据
+max_features = 10000  # 考虑作为特征的词数
+maxlen = 500  # 考虑每句中的前500个词
+
+print('Loading data...')
+(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
+print(len(x_train), 'train sequences')
+print(len(x_test), 'test sequences')
+
+print('Pad sequences (samples x time)')
+x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
+x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
+print('x_train shape:', x_train.shape)
+print('x_test shape:', x_test.shape)
+
+# 训练一个简单的一维卷积网络
+model = Sequential()
+model.add(layers.Embedding(max_features, 128, input_length=maxlen))
+model.add(layers.Conv1D(32, 7, activation='relu'))
+model.add(layers.MaxPooling1D(5))
+model.add(layers.Conv1D(32, 7, activation='relu'))
+model.add(layers.GlobalMaxPool1D())
+model.add(layers.Dense(1))
+
+model.summary()
+
+model.compile(optimizer=RMSprop(lr=1e-4),
+              loss='binary_crossentropy',
+              metrics=['acc'])
+history = model.fit(x_train, y_train,
+                    epochs=10,
+                    batch_size=128,
+                    validation_split=0.2)
+
+# 画出训练过程中损失函数值和准确率值的变化曲线
+acc = history.history['acc']
+val_acc = history.history['val_acc']
+loss = history.history['loss']
+val_loss = history.history['val_loss']
+
+epochs = range(1, len(acc) + 1)
+
+plt.plot(epochs, acc, 'bo', label='Training acc')
+plt.plot(epochs, val_acc, 'b', label='Validation acc')
+plt.title('Training and validation accuracy')
+plt.legend()
+
+plt.figure()
+
+plt.plot(epochs, loss, 'bo', label='Training loss')
+plt.plot(epochs, val_loss, 'b', label='Validation loss')
+plt.title('Training and validation loss')
+plt.legend()
+
+plt.show()
+print('end')
+
+
@@ -0,0 +1,194 @@
+import os
+import numpy as np
+from matplotlib import pyplot as plt
+from keras.models import Sequential
+from keras import layers
+from keras.optimizers import RMSprop
+
+data_dir = ''
+fname = os.path.join(data_dir, 'jena_climate_2009_2016.csv')
+
+f = open(fname)
+data = f.read()
+f.close()
+
+lines = data.split('\n')
+header = lines[0].split(',')
+lines = lines[1:]
+
+print(header)
+print(len(lines))
+
+# 解析数据
+float_data = np.zeros((len(lines), len(header) - 1))
+for i, line in enumerate(lines):
+    values = [float(x) for x in line.split(',')[1:]]
+    float_data[i, :] = values
+
+# 画出温度序列
+temp = float_data[:, 1]  # 温度序列
+plt.plot(range(len(temp)), temp)
+plt.show()
+
+# 画出前10天的温度序列
+plt.plot(range(1440), temp[:1440])
+plt.show()
+
+# 把前200000个序列作为训练数据,正规化
+mean = float_data[:200000].mean(axis=0)
+float_data -= mean
+std = float_data[:200000].std(axis=0)
+float_data /= std
+
+
+# 定义一个生成序列样本和目标序列的生成器
+# data：正则化后的原始数据
+# lookback：往前看多少步
+# delay：往后看第多少步
+# min_index和max_index：限制序列的选择区间
+# shuffle：是否打乱数据
+# batch_size：每个样本多少数据
+# step：多少一个周期，设置为6表示一小时一个数据点
+def generator(data, lookback, delay, min_index, max_index, shuffle=False, batch_size=128, step=6):
+    if max_index is None:
+        max_index = len(data) - delay - 1
+    i = min_index + lookback
+    while 1:
+        if shuffle:
+            rows = np.random.randint(min_index + lookback, max_index, size=batch_size)
+        else:
+            if i + batch_size >= max_index:
+                i = min_index + lookback
+            rows = np.arange(i, min(i + batch_size, max_index))
+            i += len(rows)
+
+        samples = np.zeros((len(rows), lookback // step, data.shape[-1]))
+        targets = np.zeros((len(rows),))
+        for j, row in enumerate(rows):
+            indices = range(rows[j] - lookback, rows[j], step)
+            samples[j] = data[indices]
+            targets[j] = data[rows[j] + delay][1]
+        yield samples, targets
+
+
+# 准备训练、验证和测试数据生成器
+lookback = 1440
+step = 6
+delay = 144
+batch_size = 128
+
+train_gen = generator(float_data,
+                      lookback=lookback,
+                      delay=delay,
+                      min_index=0,
+                      max_index=200000,
+                      shuffle=True,
+                      step=step,
+                      batch_size=batch_size)
+val_gen = generator(float_data,
+                    lookback=lookback,
+                    delay=delay,
+                    min_index=200001,
+                    max_index=300000,
+                    shuffle=True,
+                    step=step,
+                    batch_size=batch_size)
+test_gen = generator(float_data,
+                     lookback=lookback,
+                     delay=delay,
+                     min_index=300001,
+                     max_index=None,
+                     shuffle=True,
+                     step=step,
+                     batch_size=batch_size)
+
+# 看到所有验证数据需要生成的次数
+val_steps = (300000 - 200001 - lookback) // batch_size
+
+# 看到所有测试数据需要生成的次数
+test_steps = (len(float_data) - 300001 - lookback) // batch_size
+
+'''
+# 用一个只使用两个全连接层的模型去训练
+model = Sequential()
+model.add(layers.Flatten(input_shape=(lookback // step, float_data.shape[-1])))
+model.add(layers.Dense(32, activation='relu'))
+model.add(layers.Dense(1))
+
+model.compile(optimizer=RMSprop(), loss='mae')
+history = model.fit_generator(train_gen, steps_per_epoch=500,
+                              epochs=20,
+                              validation_data=val_gen,
+                              validation_steps=val_steps)
+'''
+'''
+# 使用一个GRU模型
+model = Sequential()
+model.add(layers.GRU(32, input_shape=(None, float_data.shape[-1])))
+model.add(layers.Dense(1))
+
+model.compile(optimizer=RMSprop(), loss='mae')
+history = model.fit_generator(train_gen, steps_per_epoch=500,
+                              epochs=20,
+                              validation_data=val_gen,
+                              validation_steps=val_steps)
+'''
+'''
+# 使用一个正则化后的GRU模型
+model = Sequential()
+model.add(layers.GRU(32,
+          dropout=0.2,
+          recurrent_dropout=0.2,
+          input_shape=(None, float_data.shape[-1])))
+model.add(layers.Dense(1))
+
+model.compile(optimizer=RMSprop(), loss='mae')
+history = model.fit_generator(train_gen, steps_per_epoch=500,
+                              epochs=40,
+                              validation_data=val_gen,
+                              validation_steps=val_steps)
+'''
+'''
+# 使用一个正则化后多层的GRU模型
+model = Sequential()
+model.add(layers.GRU(32,
+          dropout=0.1,
+          recurrent_dropout=0.5,
+          return_sequences=True,
+          input_shape=(None, float_data.shape[-1])))
+model.add(layers.GRU(64, activation='relu', dropout=0.1, recurrent_dropout=0.5))
+model.add(layers.Dense(1))
+
+model.compile(optimizer=RMSprop(), loss='mae')
+history = model.fit_generator(train_gen, steps_per_epoch=500,
+                              epochs=40,
+                              validation_data=val_gen,
+                              validation_steps=val_steps)
+'''
+
+# 使用一个双向的GRU模型
+model = Sequential()
+model.add(layers.Bidirectional(layers.GRU(32), input_shape=(None, float_data.shape[-1])))
+model.add(layers.Dense(1))
+
+model.compile(optimizer=RMSprop(), loss='mae')
+history = model.fit_generator(train_gen, steps_per_epoch=500,
+                              epochs=40,
+                              validation_data=val_gen,
+                              validation_steps=val_steps)
+
+# 画出训练过程中损失函数值的变化曲线
+loss = history.history['loss']
+val_loss = history.history['val_loss']
+
+epochs = range(1, len(loss) + 1)
+
+plt.figure()
+
+plt.plot(epochs, loss, 'bo', label='Training loss')
+plt.plot(epochs, val_loss, 'b', label='Validation loss')
+plt.title('Training and validation loss')
+plt.legend()
+
+plt.show()
+print('end')