From a2c586632eb162a90ed4a2b4b79a2c43a2082da0 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=9D=A8=E5=9F=B9=E6=96=87=20=28Yang=20Peiwen=29?=
 <915505626@qq.com>
Date: Fri, 24 Mar 2017 12:27:44 +0800
Subject: [PATCH] Create README.md

---
 README.md | 303 ++++++++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 303 insertions(+)
 create mode 100644 README.md

diff --git a/README.md b/README.md
new file mode 100644
index 0000000..856ce77
--- /dev/null
+++ b/README.md
@@ -0,0 +1,303 @@
+# 猫狗大战
+
+数据集来自 kaggle 上的一个竞赛：[Dogs vs. Cats](https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition)，训练集有25000张，猫狗各占一半。测试集12500张，没有标定是猫还是狗。
+
+```
+➜  猫狗大战 ls train | head
+cat.0.jpg
+cat.1.jpg
+cat.10.jpg
+cat.100.jpg
+cat.1000.jpg
+cat.10000.jpg
+cat.10001.jpg
+cat.10002.jpg
+cat.10003.jpg
+cat.10004.jpg
+➜  猫狗大战 ls test | head
+1.jpg
+10.jpg
+100.jpg
+1000.jpg
+10000.jpg
+10001.jpg
+10002.jpg
+10003.jpg
+10004.jpg
+10005.jpg
+```
+
+下面是训练集的一部分例子：
+
+![](https://raw.githubusercontent.com/ypwhs/resources/master/dataset.png)
+
+# 数据预处理
+
+由于我们的数据集的文件名是以`type.num.jpg`这样的方式命名的，比如`cat.0.jpg`，但是使用 Keras 的 ImageDataGenerator 需要将不同种类的图片分在不同的文件夹中，因此我们需要对数据集进行预处理。这里我们采取的思路是创建符号链接(symbol link)，这样的好处是不用复制一遍图片，占用不必要的空间。
+
+```py
+import os
+import shutil
+
+train_filenames = os.listdir('train')
+train_cat = filter(lambda x:x[:3] == 'cat', train_filenames)
+train_dog = filter(lambda x:x[:3] == 'dog', train_filenames)
+
+def rmrf_mkdir(dirname):
+    if os.path.exists(dirname):
+        shutil.rmtree(dirname)
+    os.mkdir(dirname)
+
+rmrf_mkdir('train2')
+os.mkdir('train2/cat')
+os.mkdir('train2/dog')
+
+rmrf_mkdir('test2')
+os.symlink('../test/', 'test2/test')
+
+for filename in train_cat:
+    os.symlink('../../train/'+filename, 'train2/cat/'+filename)
+
+for filename in train_dog:
+    os.symlink('../../train/'+filename, 'train2/dog/'+filename)
+```
+
+我们可以从下面看到文件夹的结构，train2里面有两个文件夹，分别是猫和狗，每个文件夹里是12500张图。
+
+```
+├── test [12500 images]
+├── test.zip
+├── test2
+│   └── test -> ../test/
+├── train [25000 images]
+├── train.zip
+└── train2
+    ├── cat [12500 images]
+    └── dog [12500 images]
+```
+
+# 导出特征向量
+
+对于这个题目来说，使用预训练的网络是最好不过的了，经过前期的测试，我们测试了 ResNet50 等不同的网络，但是排名都不高，现在看来只有一两百名的样子，所以我们需要提高我们的模型表现。那么一种有效的方法是综合各个不同的模型，从而得到不错的效果，兼听则明。如果是直接在一个巨大的网络后面加我们的全连接，那么训练10代就需要跑十次巨大的网络，而且我们的卷积层都是不可训练的，那么这个计算就是浪费的。所以我们可以将多个不同的网络输出的特征向量先保存下来，以便后续的训练，这样做的好处是我们一旦保存了特征向量，即使是在普通笔记本上也能轻松训练。
+
+```py
+from keras.models import *
+from keras.layers import *
+from keras.applications import *
+from keras.preprocessing.image import *
+
+import h5py
+
+def write_gap(MODEL, image_size, lambda_func=None):
+    width = image_size[0]
+    height = image_size[1]
+    input_tensor = Input((height, width, 3))
+    x = input_tensor
+    if lambda_func:
+        x = Lambda(lambda_func)(x)
+    
+    base_model = MODEL(input_tensor=x, weights='imagenet', include_top=False)
+    model = Model(base_model.input, GlobalAveragePooling2D()(base_model.output))
+
+    gen = ImageDataGenerator()
+    train_generator = gen.flow_from_directory("train2", image_size, shuffle=False, 
+                                              batch_size=16)
+    test_generator = gen.flow_from_directory("test2", image_size, shuffle=False, 
+                                             batch_size=16, class_mode=None)
+
+    train = model.predict_generator(train_generator, train_generator.nb_sample)
+    test = model.predict_generator(test_generator, test_generator.nb_sample)
+    with h5py.File("gap_%s.h5"%MODEL.func_name) as h:
+        h.create_dataset("train", data=train)
+        h.create_dataset("test", data=test)
+        h.create_dataset("label", data=train_generator.classes)
+
+write_gap(ResNet50, (224, 224))
+write_gap(InceptionV3, (299, 299), inception_v3.preprocess_input)
+write_gap(Xception, (299, 299), xception.preprocess_input)
+
+```
+
+为了复用代码，我觉得写一个函数是非常有必要的，那么我们的函数就需要输入模型，输入图片的大小，以及[预处理函数](https://github.com/fchollet/keras/blob/master/keras/applications/inception_v3.py#L389-L393)，因为 Xception 和 Inception V3 都需要将数据限定在 `(-1, 1)` 的范围内，然后我们利用 `GlobalAveragePooling2D` 将卷积层输出的每个激活图直接求平均值，不然输出的文件会非常大，且容易过拟合。然后我们定义了两个 generator，利用 `model.predict_generator` 函数来导出特征向量，最后我们选择了 ResNet50, Xception, Inception V3 这三个模型（如果有兴趣也可以导出 VGG 的特征向量）。每个模型导出的时间都挺长的，在 aws p2.xlarge 上大概需要用**十分钟到二十分钟**。 这三个模型都是在 [ImageNet](http://www.image-net.org/) 上面预训练过的，所以每一个模型都可以说是身经百战，通过这三个老司机导出的特征向量，可以高度概括一张图片有哪些内容。
+
+最后导出的 h5 文件包括三个 numpy 数组：
+
+* train (25000, 2048)
+* test (12500, 2048)
+* label (25000,)
+
+参考资料：
+
+* [ResNet](https://arxiv.org/abs/1512.03385) 15.12
+* [Inception v3](https://arxiv.org/abs/1512.00567) 15.12
+* [Xception](https://arxiv.org/abs/1610.02357) 16.10
+
+# 载入特征向量
+
+经过上面的代码以后，我们获得了三个特征向量文件，分别是：
+
+* gap_ResNet50.h5
+* gap_InceptionV3.h5
+* gap_Xception.h5
+
+我们需要载入这些特征向量，并且将它们合成一条特征向量，然后记得把 X 和 y 打乱，不然之后我们设置`validation_split`的时候会出问题。这里设置了 numpy 的随机数种子为2017，这样可以确保每个人跑这个代码，输出都能是一样的结果。
+
+```py
+import h5py
+import numpy as np
+from sklearn.utils import shuffle
+np.random.seed(2017)
+
+X_train = []
+X_test = []
+
+for filename in ["gap_ResNet50.h5", "gap_Xception.h5", "gap_InceptionV3.h5"]:
+    with h5py.File(filename, 'r') as h:
+        X_train.append(np.array(h['train']))
+        X_test.append(np.array(h['test']))
+        y_train = np.array(h['label'])
+
+X_train = np.concatenate(X_train, axis=1)
+X_test = np.concatenate(X_test, axis=1)
+
+X_train, y_train = shuffle(X_train, y_train)
+```
+
+# 构建模型
+
+模型的构建很简单，直接 dropout 然后分类就好了。
+
+```py
+from keras.models import *
+from keras.layers import *
+
+np.random.seed(2017)
+
+input_tensor = Input(X_train.shape[1:])
+x = Dropout(0.5)(input_tensor)
+x = Dense(1, activation='sigmoid')(x)
+model = Model(input_tensor, x)
+
+model.compile(optimizer='adadelta',
+              loss='binary_crossentropy',
+              metrics=['accuracy'])
+```
+
+我们还可以对模型进行可视化：
+
+```dot
+digraph G{
+    node [shape=record]
+    a[label="ResNet50|{input:|output:}|{(224, 224, 3)|(2048)}"]
+    b[label="InceptionV3|{input:|output:}|{(299, 299, 3)|(2048)}"]
+    c[label="Xception|{input:|output:}|{(299, 299, 3)|(2048)}"]
+    Merge[label="Merge|{input:|output:}|{(3, 2048)|(6144)}"]
+    Dropout[label="Dropout|Rate:|0.5"]
+    Output[label="Output|{input:|output:}|{(6144)|(1)}"]
+    Image -> a -> Merge
+    Image -> b -> Merge
+    Image -> c -> Merge
+    Merge -> Dropout -> Output
+}
+```
+
+![](https://raw.githubusercontent.com/ypwhs/resources/master/model.png)
+
+# 训练模型
+
+模型构件好了以后，我们就可以进行训练了，这里我们设置验证集大小为 20% ，也就是说训练集是20000张图，验证集是5000张图。
+
+```py
+model.fit(X_train, y_train, batch_size=128, nb_epoch=8, validation_split=0.2)
+```
+
+```
+Train on 20000 samples, validate on 5000 samples
+Epoch 1/8
+20000/20000 [==============================] - 1s - loss: 0.1193 - acc: 0.9591 - val_loss: 0.0283 - val_acc: 0.9936
+Epoch 2/8
+20000/20000 [==============================] - 0s - loss: 0.0319 - acc: 0.9898 - val_loss: 0.0181 - val_acc: 0.9952
+Epoch 3/8
+20000/20000 [==============================] - 0s - loss: 0.0252 - acc: 0.9916 - val_loss: 0.0172 - val_acc: 0.9934
+Epoch 4/8
+20000/20000 [==============================] - 0s - loss: 0.0214 - acc: 0.9936 - val_loss: 0.0140 - val_acc: 0.9956
+Epoch 5/8
+20000/20000 [==============================] - 0s - loss: 0.0200 - acc: 0.9926 - val_loss: 0.0139 - val_acc: 0.9954
+Epoch 6/8
+20000/20000 [==============================] - 0s - loss: 0.0189 - acc: 0.9933 - val_loss: 0.0129 - val_acc: 0.9956
+Epoch 7/8
+20000/20000 [==============================] - 0s - loss: 0.0170 - acc: 0.9946 - val_loss: 0.0123 - val_acc: 0.9960
+Epoch 8/8
+20000/20000 [==============================] - 0s - loss: 0.0163 - acc: 0.9945 - val_loss: 0.0119 - val_acc: 0.9958
+Out[4]:
+
+```
+
+我们可以看到，训练的过程很快，十秒以内就能训练完，准确率也很高，在验证集上最高达到了99.6%的准确率，这相当于一千张图只错了4张，可以说比我还厉害。
+
+# 预测测试集
+
+模型训练好以后，我们就可以对测试集进行预测，然后提交到 kaggle 上看看最终成绩了。
+
+```py
+y_pred = model.predict(X_test, verbose=1)
+y_pred = y_pred.clip(min=0.005, max=0.995)
+
+import pandas as pd
+from keras.preprocessing.image import *
+
+df = pd.read_csv("sample_submission.csv")
+
+gen = ImageDataGenerator()
+test_generator = gen.flow_from_directory("test2", (224, 224), shuffle=False, 
+                                         batch_size=16, class_mode=None)
+
+for i, fname in enumerate(test_generator.filenames):
+    index = int(fname[fname.rfind('/')+1:fname.rfind('.')])
+    df.set_value(index-1, 'label', y_pred[i])
+
+df.to_csv('pred.csv', index=None)
+df.head(10)
+```
+
+预测这里我们用到了一个小技巧，我们将每个预测值限制到了 [0.005, 0.995] 个区间内，这个原因很简单，kaggle 官方的评估标准是 [LogLoss](https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/details/evaluation)，对于预测正确的样本，0.995 和 1 相差无几，但是对于预测错误的样本，0 和 0.005 的差距非常大，是 15 和 2 的差别。参考 [LogLoss 如何处理无穷大问题](https://www.kaggle.com/wiki/LogLoss)，下面的表达式就是二分类问题的 LogLoss 定义。
+
+$$\textrm{LogLoss} = - \frac{1}{n} \sum_{i=1}^n \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)\right]$$
+
+![](https://raw.githubusercontent.com/ypwhs/resources/master/logloss.png)
+
+还有一个值得一提的地方就是测试集的文件名不是按 1, 2, 3 这样排的，而是按下面的顺序排列的：
+
+```
+['test/1.jpg',
+ 'test/10.jpg',
+ 'test/100.jpg',
+ 'test/1000.jpg',
+ 'test/10000.jpg',
+ 'test/10001.jpg',
+ 'test/10002.jpg',
+ 'test/10003.jpg',
+ ......
+```
+
+因此我们需要对每个文件名进行处理，然后赋值到 df 里，最后导出为 csv 文件。
+
+```
+	id	label
+0	1	0.995
+1	2	0.995
+2	3	0.995
+3	4	0.995
+4	5	0.005
+5	6	0.005
+6	7	0.005
+7	8	0.005
+8	9	0.005
+9	10	0.005
+```
+
+# 总结
+
+我们可以从上图中看到，模型对于前十个样本都给出了很肯定的预测，提交到 kaggle 以后，得分也是很棒，0.04141，在全球排名中可以排到20/1314。我们如果要继续优化模型表现，可以使用更棒的预训练模型来导出特征向量，或者对预训练模型进行微调（fine-tune），或者进行数据增强（data augmentation）等。
+
+参考链接：[面向小数据集构建图像分类模型](http://keras-cn.readthedocs.io/en/latest/blog/image_classification_using_very_little_data/)