diff --git a/boston_housing.ipynb b/boston_housing.ipynb index beab562..3f3eb99 100644 --- a/boston_housing.ipynb +++ b/boston_housing.ipynb @@ -35,10 +35,8 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, + "execution_count": 8, + "metadata": {}, "outputs": [], "source": [ "# 载入此项目所需要的库\n", @@ -57,11 +55,17 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Boston housing dataset has 489 data points with 4 variables each.\n" + ] + } + ], "source": [ "# 载入波士顿房屋的数据集\n", "data = pd.read_csv('housing.csv')\n", @@ -100,28 +104,50 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Statistics for Boston housing dataset:\n", + "\n", + "Minimum price: $105,000.00\n", + "Maximum price: $1,024,800.00\n", + "Mean price: $454,342.94\n", + "Median price $438,900.00\n", + "Standard deviation of prices: $165,171.13\n" + ] + } + ], "source": [ "#TODO 1\n", "\n", "#目标:计算价值的最小值\n", - "minimum_price = None\n", + "# minimum_price = None\n", + "minimum_price = min(prices)\n", + "\n", "\n", "#目标:计算价值的最大值\n", - "maximum_price = None\n", + "# maximum_price = None\n", + "maximum_price = max(prices)\n", + "\n", "\n", "#目标:计算价值的平均值\n", - "mean_price = None\n", + "# mean_price = None\n", + "mean_price = np.mean(prices)\n", + "\n", "\n", "#目标:计算价值的中值\n", - "median_price = None\n", + "# median_price = None\n", + "median_price = np.median(prices)\n", + "\n", "\n", "#目标:计算价值的标准差\n", - "std_price = None\n", + "# std_price = None\n", + "std_price = np.std(prices)\n", + "\n", "\n", "#目标:输出计算的结果\n", "print \"Statistics for Boston housing dataset:\\n\"\n", @@ -152,7 +178,20 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 1 - 回答:" + "### 问题 1 - 回答:\n", + "- RM 增大,MEDV 会增大。\n", + " \n", + " 理由:平均房间数量增大,整体来说,房屋的平均面积会增大(房间的面积不会特别小,但可以比较大),而房屋的价格是和房屋的面积成正比例的关系。\n", + "\n", + "\n", + "- LSTAT 增大,MEDV 会降低。\n", + "\n", + " 理由:如果该地区的业主属于是低收入阶层,工资是无法承担较高的房价的,说明这个地区的房价相对较低,可以被他们承受。但也不排除波士顿有没有分配住房的情况发生,如果有这样的情况,那么关系就不是特别大了。\n", + "\n", + "\n", + "- PTRATTO 增大,MEDV 会减小。\n", + "\n", + " 理由:越是精英的阶层,家庭里面的孩子上学更偏重于精英学校,精英学校的管理偏向学生较少;反而普通学校里面,一个老师带的学生会更多。所以,PTRATTO 增大,说明这个地区普通家庭人口更多,所能承担的房价也会下降。" ] }, { @@ -170,17 +209,16 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, + "execution_count": 11, + "metadata": {}, "outputs": [], "source": [ "# TODO 2\n", "\n", "# 提示: 导入train_test_split\n", + "from sklearn.cross_validation import train_test_split\n", "\n", - "X_train, X_test, y_train, y_test = None" + "X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=30)" ] }, { @@ -199,7 +237,11 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 2 - 回答:" + "### 问题 2 - 回答:\n", + "\n", + "使用一定的数据进行训练,来外的一部分数据进行测试,可以保证得到的算法模型具有一定的泛化能力。\n", + "\n", + "如果用模型已经见过的数据,则无法验证得到的模型是否具有推广性,极有可能出现 **过拟合** 的现象,这样,模型无法应用在其他没有见过的数据上,也就没有应用价值了。\n" ] }, { @@ -231,10 +273,8 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, + "execution_count": 12, + "metadata": {}, "outputs": [], "source": [ "# TODO 3\n", @@ -243,8 +283,9 @@ "\n", "def performance_metric(y_true, y_predict):\n", " \"\"\"计算并返回预测值相比于预测值的分数\"\"\"\n", + " from sklearn.metrics import r2_score\n", " \n", - " score = None\n", + " score = r2_score(y_true, y_predict)\n", "\n", " return score" ] @@ -291,11 +332,17 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model has a coefficient of determination, R^2, of 0.923.\n" + ] + } + ], "source": [ "# 计算这个模型的预测结果的决定系数\n", "score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])\n", @@ -306,7 +353,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 3 - 回答:" + "### 问题 3 - 回答:\n", + "\n", + "我觉得这个模型已经相当成功地莫属了目标变量的变化,因为预测的结果的决定系数 R2 为0.923,相当接近1(决定系数越接近1,说明模型越完美)" ] }, { @@ -330,12 +379,22 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 14, "metadata": { - "collapsed": true, "scrolled": false }, - "outputs": [], + "outputs": [ + { + "data": { + "image/png": "\n", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], "source": [ "# 根据不同的训练集大小,和最大深度,生成学习曲线\n", "vs.ModelLearning(X_train, y_train)" @@ -355,7 +414,15 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 4 - 回答:" + "### 问题 4 - 回答:\n", + "\n", + "选择:最大深度 max_depth = 3。\n", + "\n", + "随着训练数据量的增加,训练集曲线的评分逐渐下降,但是下降的趋势越来越平缓,最后像是趋近于一个值,不会低于这个数值。\n", + "\n", + "随着训练数据量的增加,验证曲线的评分越来越高,但是上升的趋势也是越来越平缓,最后不会高于一个数值。\n", + "\n", + "如果有更多的训练数据,不要不能有效提升模型的表现。因为从图上可以看到,数据量达到一定程度后,比如我选择的 max_depth = 3 这个图形,数据量在150以后,增加相同的数据量,训练曲线的下降十分平缓、验证集曲线上升得也十分平缓。所以,当数据量达到一定的程度,额外增加的数据量,不要不能想前期那样提高模型表现。" ] }, { @@ -370,11 +437,20 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 15, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "\n", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], "source": [ "# 根据不同的最大深度参数,生成复杂度曲线\n", "vs.ModelComplexity(X_train, y_train)" @@ -394,7 +470,15 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 5 - 回答:" + "### 问题 5 - 回答:\n", + "\n", + "当模型以最大深度1训练时,模型的预测是出现很大的偏差。\n", + "\n", + "理由:当模型以最大深度1训练时,训练和预测的决定系数都很小(即训练误差和预测误差都很大),但是两者比较接近,说明模型复杂度不够,导致欠拟合,无法比较正确表示数据关系。\n", + "\n", + "当模型以最大深度10训练时,模型的预测是出现很大的方差。\n", + "\n", + "理由:当模型以最大深度10训练时,训练和预测的决定系数都得到了较大的提高(即训练误差和预测误差都相对较小),但是,两者的差值最大,且训练的决定系数相比预测决定系数大很多,说明模型存在这过拟合的情况,所以是出现很大方差的情况。" ] }, { @@ -409,7 +493,11 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 6 - 回答:" + "### 问题 6 - 回答:\n", + "\n", + "根据问题5 中的图,我认为最大深度是4(或者3)的模型能够最好地对未见过的数据进行预测。\n", + "\n", + "依据:当最大深度是4(或者3)的时候,预测的决定系数最大,即预测的误差最小,这时候的偏差是最小的,过大或过小的最大深度数值对应的预测误差都增大;并且,这个时候训练和预测的决定系数差别保持一个相对较小的差别,说明方差是相对较小的。总之,最大深度为4时,偏差和方差都达到相对最低的情况,能够最好地预测未见过的数据。" ] }, { @@ -432,7 +520,11 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 7 - 回答:" + "### 问题 7 - 回答:\n", + "\n", + "网格搜索法:选择需要调整的参数,对于每个参数确定需要测试的数值,计算机自动历遍所有组合,并且得到对应的参数。\n", + "\n", + "模型中对于最终预测结果有影响的不同的参数,设定一组大致最优的数值组,通过网格搜索法观察预测结果的最佳时的参数组合,这时候就一定程度上通过参数的设定来优化模型了。" ] }, { @@ -452,7 +544,23 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 8 - 回答:" + "### 问题 8 - 回答:\n", + "\n", + "- K折交叉验证法:\n", + "\n", + " 1. 将给定的数据分为 K 份(一般 K = 10)\n", + " 2. 选取一份作为测试数据,其他的 K-1 份作为训练数据,然后按照给定的评估标准,得出模型分数。\n", + " 3. 对于每一份,进行 步骤2 的操作。\n", + " 4. 对于一个模型的参数组,得到 K 个测试结果。\n", + " 5. 对于 K 个结果取平均值作为这个参数组的最终模型得分\n", + " \n", + "- GridSearchCV 如何结合交叉验证\n", + "\n", + " 对于 GrideSearchCV 中的每个参数组合进行的测试,进行交叉验证得到模型的得分,次得分作为改组参数组合的最终得分。\n", + " \n", + "- cv_results 属性\n", + "\n", + " cv_results 属性告诉我们每种参数组的取值情况和最后算法得到的结果。" ] }, { @@ -475,29 +583,30 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, + "execution_count": 23, + "metadata": {}, "outputs": [], "source": [ "# TODO 4\n", "\n", "#提示: 导入 'KFold' 'DecisionTreeRegressor' 'make_scorer' 'GridSearchCV' \n", - "\n", + "from sklearn.model_selection import KFold\n", + "from sklearn.tree import DecisionTreeRegressor\n", + "from sklearn.metrics import make_scorer\n", + "from sklearn.model_selection import GridSearchCV\n", "\n", "def fit_model(X, y):\n", " \"\"\" 基于输入数据 [X,y],利于网格搜索找到最优的决策树模型\"\"\"\n", " \n", - " cross_validator = None\n", + " cross_validator = KFold(n_splits=10)\n", " \n", - " regressor = None\n", + " regressor = DecisionTreeRegressor()\n", "\n", - " params = None\n", + " params = {'max_depth':[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}\n", "\n", - " scoring_fnc = None\n", + " scoring_fnc = make_scorer(performance_metric)\n", "\n", - " grid = None\n", + " grid = GridSearchCV(regressor, params, scoring_fnc, cv=cross_validator )\n", "\n", " # 基于输入数据 [X,y],进行网格搜索\n", " grid = grid.fit(X, y)\n", @@ -562,12 +671,19 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 24, "metadata": { - "collapsed": true, "scrolled": true }, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Parameter 'max_depth' is 5 for the optimal model.\n" + ] + } + ], "source": [ "# 基于训练数据,获得最优模型\n", "optimal_reg = fit_model(X_train, y_train)\n", @@ -580,7 +696,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 9 - 回答:" + "### 问题 9 - 回答:\n", + "\n", + "最优模型的最大深度(maximum depth)是5,和我在问题6所做的猜测不同。" ] }, { @@ -613,11 +731,19 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 26, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Predicted selling price for Client 1's home: $417,169.57\n", + "Predicted selling price for Client 2's home: $212,520.00\n", + "Predicted selling price for Client 3's home: $889,350.00\n" + ] + } + ], "source": [ "# 生成三个客户的数据\n", "client_data = [[5, 17, 15], # 客户 1\n", @@ -626,6 +752,7 @@ "\n", "# 进行预测\n", "predicted_price = optimal_reg.predict(client_data)\n", + "# print predicted_price\n", "for i, price in enumerate(predicted_price):\n", " print \"Predicted selling price for Client {}'s home: ${:,.2f}\".format(i+1, price)" ] @@ -634,7 +761,11 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 10 - 回答:" + "### 问题 10 - 回答:\n", + "\n", + "建议每位客户的房屋销售的价格如上。这样的价格是合理的。\n", + "\n", + "因为所有的预测的价格介于获得的数据里面的最低价格 \\$105,000.00 与最高价格 \\$1,024,800.00 之间,且在平均价格 \\$454,342.94 ± 标准差 \\$165,171.13 附近,相对来说是合理的。" ] }, { @@ -647,19 +778,26 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 28, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Optimal model has R^2 score 0.80 on test data\n" + ] + } + ], "source": [ "#TODO 5\n", "\n", "# 提示:你可能需要用到 X_test, y_test, optimal_reg, performance_metric\n", "# 提示:你可能需要参考问题10的代码进行预测\n", "# 提示:你可能需要参考问题3的代码来计算R^2的值\n", + "test_predicted_price = optimal_reg.predict(X_test)\n", + "r2 = performance_metric(y_test, test_predicted_price)\n", "\n", - "r2 = 1\n", "\n", "print \"Optimal model has R^2 score {:,.2f} on test data\".format(r2)" ] @@ -677,7 +815,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题11 - 回答" + "### 问题11 - 回答\n", + "\n", + "最优模型在测试集上的决定系数为0.80,还是很高的,预测的结果比较接近真是的情况,这个模型基本达到要求。" ] }, { @@ -697,11 +837,28 @@ }, { "cell_type": "code", - "execution_count": null, - "metadata": { - "collapsed": true - }, - "outputs": [], + "execution_count": 29, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Trial 1: $391,183.33\n", + "Trial 2: $411,417.39\n", + "Trial 3: $415,800.00\n", + "Trial 4: $420,622.22\n", + "Trial 5: $418,377.27\n", + "Trial 6: $411,931.58\n", + "Trial 7: $399,663.16\n", + "Trial 8: $407,232.00\n", + "Trial 9: $402,531.82\n", + "Trial 10: $413,700.00\n", + "\n", + "Range in prices: $29,438.89\n" + ] + } + ], "source": [ "# 请先注释掉 fit_model 函数里的所有 print 语句\n", "vs.PredictTrials(features, prices, fit_model, client_data)" @@ -711,7 +868,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 12 - 回答:" + "### 问题 12 - 回答:\n", + "\n", + "对于一个特定的客户来说,随着训练数据的变化,预测的结果会不同,但是总体上来说,在一个相对较小的范围内波动变化。" ] }, { @@ -732,7 +891,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 问题 13 - 回答:" + "### 问题 13 - 回答:\n", + "\n", + "我认为在现实世界中无法使用:\n", + "\n", + "- 这个是上世纪七十年代的数据,无论是经济还是人口,都有巨大的变化,这个预测的模型对于现在的社会情况已经发生巨大的脱节了。\n", + "- 数据中呈现的特征并不足够以刻画一个房屋价格,其他的一些条件缺少对于预测有相当大的影响,比如房屋所处的地带(距离市中心的距离)、房屋的新旧程度、房屋所在的楼层、房屋的装修程度等等,这些都是比较重要的参考要素。\n", + "- 波士顿是大都市,人口密集,经济条件相对来说比较优越,其他乡镇地区,人口、经济、思想观念等等和波士顿地区有很大的差别,因此不具有推广性。\n", + "- 仅凭房屋所在的社会环境来判断房屋价值不合理,房屋的价格还严重受到房屋自身条件情况、时代的经济变化、当地人们对于购房的趋势等等因素的影响,房屋所处的社会环境只是一个影响方面。" ] }, { @@ -806,7 +972,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython2", - "version": "2.7.13" + "version": "2.7.14" } }, "nbformat": 4, diff --git a/litlle_test.ipynb b/litlle_test.ipynb new file mode 100644 index 0000000..20f2302 --- /dev/null +++ b/litlle_test.ipynb @@ -0,0 +1,137 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [], + "source": [ + "a = [1, 2, 3, 4, 5, 6]" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "33\n" + ] + } + ], + "source": [ + "print sum(a)" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [], + "source": [ + "import numpy as np" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "4.71428571429\n" + ] + } + ], + "source": [ + "print np.mean(a)" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "3.5\n" + ] + } + ], + "source": [ + "print np.median(a)" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "1.70782512766\n" + ] + } + ], + "source": [ + "print np.std(a)" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [], + "source": [ + "para = {1, 2}" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "set([1, 2])\n" + ] + } + ], + "source": [ + "print para" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 2", + "language": "python", + "name": "python2" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 2 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython2", + "version": "2.7.14" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/report.html b/report.html new file mode 100644 index 0000000..497e1eb --- /dev/null +++ b/report.html @@ -0,0 +1,12932 @@ + + + +boston_housing + + + + + + + + + + + + + + + + + + + +
+
+ +
+
+
+
+

机器学习工程师纳米学位

模型评价与验证

项目 1: 预测波士顿房价

欢迎来到机器学习工程师纳米学位的第一个项目!在此文件中,有些示例代码已经提供给你,但你还需要实现更多的功能来让项目成功运行。除非有明确要求,你无须修改任何已给出的代码。以编程练习开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以TODO标出。请仔细阅读所有的提示!

+

除了实现代码外,你还必须回答一些与项目和实现有关的问题。每一个需要你回答的问题都会以'问题 X'为标题。请仔细阅读每个问题,并且在问题后的'回答'文字框中写出完整的答案。你的项目将会根据你对问题的回答和撰写代码所实现的功能来进行评分。

+

提示:Code 和 Markdown 区域可通过 Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。

+
+ +
+
+
+
+
+
+
+
+

第一步. 导入数据

在这个项目中,你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说,这样的预测模型被证明非常有价值。

+

此项目的数据集来自UCI机器学习知识库(数据集已下线)。波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:

+
    +
  • 有16个'MEDV' 值为50.0的数据点被移除。 这很可能是由于这些数据点包含遗失看不到的值
  • +
  • 有1个数据点的 'RM' 值为8.78. 这是一个异常值,已经被移除。
  • +
  • 对于本项目,房屋的'RM''LSTAT''PTRATIO'以及'MEDV'特征是必要的,其余不相关特征已经被移除。
  • +
  • 'MEDV'特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。
  • +
+

运行下面区域的代码以载入波士顿房屋数据集,以及一些此项目所需的Python库。如果成功返回数据集的大小,表示数据集已载入成功。

+ +
+
+
+
+
+
In [8]:
+
+
+
# 载入此项目所需要的库
+import numpy as np
+import pandas as pd
+import visuals as vs # Supplementary code
+
+# 检查你的Python版本
+from sys import version_info
+if version_info.major != 2 and version_info.minor != 7:
+    raise Exception('请使用Python 2.7来完成此项目')
+    
+# 让结果在notebook中显示
+%matplotlib inline
+
+ +
+
+
+ +
+
+
+
In [9]:
+
+
+
# 载入波士顿房屋的数据集
+data = pd.read_csv('housing.csv')
+prices = data['MEDV']
+features = data.drop('MEDV', axis = 1)
+    
+# 完成
+print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Boston housing dataset has 489 data points with 4 variables each.
+
+
+
+ +
+
+ +
+
+
+
+
+
+

第二步. 分析数据

在项目的第一个部分,你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。

+

由于这个项目的最终目标是建立一个预测房屋价值的模型,我们需要将数据集分为特征(features)目标变量(target variable)

+
    +
  • 特征 'RM''LSTAT',和 'PTRATIO',给我们提供了每个数据点的数量相关的信息。
  • +
  • 目标变量'MEDV',是我们希望预测的变量。
  • +
+

他们分别被存在featuresprices两个变量名中。

+ +
+
+
+
+
+
+
+

编程练习 1:基础统计运算

你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy,你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。 +在下面的代码中,你要做的是:

+
    +
  • 计算prices中的'MEDV'的最小值、最大值、均值、中值和标准差;
  • +
  • 将运算结果储存在相应的变量中。
  • +
+ +
+
+
+
+
+
In [10]:
+
+
+
#TODO 1
+
+#目标:计算价值的最小值
+# minimum_price = None
+minimum_price = min(prices)
+
+
+#目标:计算价值的最大值
+# maximum_price = None
+maximum_price = max(prices)
+
+
+#目标:计算价值的平均值
+# mean_price = None
+mean_price = np.mean(prices)
+
+
+#目标:计算价值的中值
+# median_price = None
+median_price = np.median(prices)
+
+
+#目标:计算价值的标准差
+# std_price = None
+std_price = np.std(prices)
+
+
+#目标:输出计算的结果
+print "Statistics for Boston housing dataset:\n"
+print "Minimum price: ${:,.2f}".format(minimum_price)
+print "Maximum price: ${:,.2f}".format(maximum_price)
+print "Mean price: ${:,.2f}".format(mean_price)
+print "Median price ${:,.2f}".format(median_price)
+print "Standard deviation of prices: ${:,.2f}".format(std_price)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Statistics for Boston housing dataset:
+
+Minimum price: $105,000.00
+Maximum price: $1,024,800.00
+Mean price: $454,342.94
+Median price $438,900.00
+Standard deviation of prices: $165,171.13
+
+
+
+ +
+
+ +
+
+
+
+
+

问题 1 - 特征观察

如前文所述,本项目中我们关注的是其中三个值:'RM''LSTAT''PTRATIO',对每一个数据点:

+
    +
  • 'RM' 是该地区中每个房屋的平均房间数量;
  • +
  • 'LSTAT' 是指该地区有多少百分比的业主属于是低收入阶层(有工作但收入微薄);
  • +
  • 'PTRATIO' 是该地区的中学和小学里,学生和老师的数目比(学生/老师)。
  • +
+

凭直觉,上述三个特征中对每一个来说,你认为增大该特征的数值,'MEDV'的值会是增大还是减小呢?每一个答案都需要你给出理由。

+

提示:你预期一个'RM' 值是6的房屋跟'RM' 值是7的房屋相比,价值更高还是更低呢?

+ +
+
+
+
+
+
+
+

问题 1 - 回答:

    +
  • RM 增大,MEDV 会增大。

    +

    理由:平均房间数量增大,整体来说,房屋的平均面积会增大(房间的面积不会特别小,但可以比较大),而房屋的价格是和房屋的面积成正比例的关系。

    +
  • +
+
    +
  • LSTAT 增大,MEDV 会降低。

    +

    理由:如果该地区的业主属于是低收入阶层,工资是无法承担较高的房价的,说明这个地区的房价相对较低,可以被他们承受。但也不排除波士顿有没有分配住房的情况发生,如果有这样的情况,那么关系就不是特别大了。

    +
  • +
+
    +
  • PTRATTO 增大,MEDV 会减小。

    +

    理由:越是精英的阶层,家庭里面的孩子上学更偏重于精英学校,精英学校的管理偏向学生较少;反而普通学校里面,一个老师带的学生会更多。所以,PTRATTO 增大,说明这个地区普通家庭人口更多,所能承担的房价也会下降。

    +
  • +
+ +
+
+
+
+
+
+
+

编程练习 2: 数据分割与重排

接下来,你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中,数据也会被重排列,以消除数据集中由于顺序而产生的偏差。 +在下面的代码中,你需要

+

使用 sklearn.model_selection 中的 train_test_split, 将featuresprices的数据都分成用于训练的数据子集和用于测试的数据子集。

+
    +
  • 分割比例为:80%的数据用于训练,20%用于测试;
  • +
  • 选定一个数值以设定 train_test_split 中的 random_state ,这会确保结果的一致性;
  • +
+ +
+
+
+
+
+
In [11]:
+
+
+
# TODO 2
+
+# 提示: 导入train_test_split
+from sklearn.cross_validation import train_test_split
+
+X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=30)
+
+ +
+
+
+ +
+
+
+
+
+

问题 2 - 训练及测试

将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处?

+

如果用模型已经见过的数据,例如部分训练集数据进行测试,又有什么坏处?

+

提示: 如果没有数据来对模型进行测试,会出现什么问题?

+ +
+
+
+
+
+
+
+

问题 2 - 回答:

使用一定的数据进行训练,来外的一部分数据进行测试,可以保证得到的算法模型具有一定的泛化能力。

+

如果用模型已经见过的数据,则无法验证得到的模型是否具有推广性,极有可能出现 过拟合 的现象,这样,模型无法应用在其他没有见过的数据上,也就没有应用价值了。

+ +
+
+
+
+
+
+
+
+

第三步. 模型衡量标准

在项目的第三步中,你需要了解必要的工具和技巧来让你的模型进行预测。用这些工具和技巧对每一个模型的表现做精确的衡量可以极大地增强你预测的信心。

+ +
+
+
+
+
+
+
+

编程练习3:定义衡量标准

如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中,你将通过运算决定系数 R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。

+

R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0还不如直接用平均值来预测效果好;而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。模型也可能出现负值的R2,这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。

+

在下方代码的 performance_metric 函数中,你要实现:

+
    +
  • 使用 sklearn.metrics 中的 r2_score 来计算 y_truey_predict的R2值,作为对其表现的评判。
  • +
  • 将他们的表现评分储存到score变量中。
  • +
+

+
    +
  • (可选) 不使用任何外部库,参考决定系数的定义进行计算,这也可以帮助你更好的理解决定系数在什么情况下等于0或等于1。
  • +
+ +
+
+
+
+
+
In [12]:
+
+
+
# TODO 3
+
+# 提示: 导入r2_score
+
+def performance_metric(y_true, y_predict):
+    """计算并返回预测值相比于预测值的分数"""
+    from sklearn.metrics import r2_score
+    
+    score = r2_score(y_true, y_predict)
+
+    return score
+
+ +
+
+
+ +
+
+
+
In [ ]:
+
+
+
# TODO 3 可选
+
+# 不允许导入任何计算决定系数的库
+
+def performance_metric2(y_true, y_predict):
+    """计算并返回预测值相比于预测值的分数"""
+    
+    score = None
+
+    return score
+
+ +
+
+
+ +
+
+
+
+
+

问题 3 - 拟合程度

假设一个数据集有五个数据且一个模型做出下列目标变量的预测:

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + +
真实数值预测数值
3.02.5
-0.50.0
2.02.1
7.07.8
4.25.3
+

你觉得这个模型已成功地描述了目标变量的变化吗?如果成功,请解释为什么,如果没有,也请给出原因。

+

提示:运行下方的代码,使用performance_metric函数来计算模型的决定系数。

+ +
+
+
+
+
+
In [13]:
+
+
+
# 计算这个模型的预测结果的决定系数
+score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])
+print "Model has a coefficient of determination, R^2, of {:.3f}.".format(score)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Model has a coefficient of determination, R^2, of 0.923.
+
+
+
+ +
+
+ +
+
+
+
+
+

问题 3 - 回答:

我觉得这个模型已经相当成功地莫属了目标变量的变化,因为预测的结果的决定系数 R2 为0.923,相当接近1(决定系数越接近1,说明模型越完美)

+ +
+
+
+
+
+
+
+
+

第四步. 分析模型的表现

在项目的第四步,我们来看一下不同参数下,模型在训练集和验证集上的表现。这里,我们专注于一个特定的算法(带剪枝的决策树,但这并不是这个项目的重点),和这个算法的一个参数 'max_depth'。用全部训练集训练,选择不同'max_depth' 参数,观察这一参数的变化如何影响模型的表现。画出模型的表现来对于分析过程十分有益,这可以让我们看到一些单看结果看不到的行为。

+ +
+
+
+
+
+
+
+

学习曲线

下方区域内的代码会输出四幅图像,它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观得显示了随着训练数据量的增加,模型学习曲线的在训练集评分和验证集评分的变化,评分使用决定系数R2。曲线的阴影区域代表的是该曲线的不确定性(用标准差衡量)。

+

运行下方区域中的代码,并利用输出的图形回答下面的问题。

+ +
+
+
+
+
+
In [14]:
+
+
+
# 根据不同的训练集大小,和最大深度,生成学习曲线
+vs.ModelLearning(X_train, y_train)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + + + +
+ +
+ +
+ +
+
+ +
+
+
+
+
+

问题 4 - 学习曲线

选择上述图像中的其中一个,并给出其最大深度。随着训练数据量的增加,训练集曲线的评分有怎样的变化?验证集曲线呢?如果有更多的训练数据,是否能有效提升模型的表现呢?

+

提示:学习曲线的评分是否最终会收敛到特定的值?

+ +
+
+
+
+
+
+
+

问题 4 - 回答:

选择:最大深度 max_depth = 3。

+

随着训练数据量的增加,训练集曲线的评分逐渐下降,但是下降的趋势越来越平缓,最后像是趋近于一个值,不会低于这个数值。

+

随着训练数据量的增加,验证曲线的评分越来越高,但是上升的趋势也是越来越平缓,最后不会高于一个数值。

+

如果有更多的训练数据,不要不能有效提升模型的表现。因为从图上可以看到,数据量达到一定程度后,比如我选择的 max_depth = 3 这个图形,数据量在150以后,增加相同的数据量,训练曲线的下降十分平缓、验证集曲线上升得也十分平缓。所以,当数据量达到一定的程度,额外增加的数据量,不要不能想前期那样提高模型表现。

+ +
+
+
+
+
+
+
+

复杂度曲线

下列代码内的区域会输出一幅图像,它展示了一个已经经过训练和验证的决策树模型在不同最大深度条件下的表现。这个图形将包含两条曲线,一个是训练集的变化,一个是验证集的变化。跟学习曲线相似,阴影区域代表该曲线的不确定性,模型训练和测试部分的评分都用的 performance_metric 函数。

+

运行下方区域中的代码,并利用输出的图形并回答下面的两个问题。

+ +
+
+
+
+
+
In [15]:
+
+
+
# 根据不同的最大深度参数,生成复杂度曲线
+vs.ModelComplexity(X_train, y_train)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + + + +
+ +
+ +
+ +
+
+ +
+
+
+
+
+

问题 5 - 偏差(bias)与方差(variance)之间的权衡取舍

当模型以最大深度 1训练时,模型的预测是出现很大的偏差还是出现了很大的方差?当模型以最大深度10训练时,情形又如何呢?图形中的哪些特征能够支持你的结论?

+

提示: 你如何得知模型是否出现了偏差很大或者方差很大的问题?

+ +
+
+
+
+
+
+
+

问题 5 - 回答:

当模型以最大深度1训练时,模型的预测是出现很大的偏差。

+

理由:当模型以最大深度1训练时,训练和预测的决定系数都很小(即训练误差和预测误差都很大),但是两者比较接近,说明模型复杂度不够,导致欠拟合,无法比较正确表示数据关系。

+

当模型以最大深度10训练时,模型的预测是出现很大的方差。

+

理由:当模型以最大深度10训练时,训练和预测的决定系数都得到了较大的提高(即训练误差和预测误差都相对较小),但是,两者的差值最大,且训练的决定系数相比预测决定系数大很多,说明模型存在这过拟合的情况,所以是出现很大方差的情况。

+ +
+
+
+
+
+
+
+

问题 6- 最优模型的猜测

结合问题 5 中的图,你认为最大深度是多少的模型能够最好地对未见过的数据进行预测?你得出这个答案的依据是什么?

+ +
+
+
+
+
+
+
+

问题 6 - 回答:

根据问题5 中的图,我认为最大深度是4(或者3)的模型能够最好地对未见过的数据进行预测。

+

依据:当最大深度是4(或者3)的时候,预测的决定系数最大,即预测的误差最小,这时候的偏差是最小的,过大或过小的最大深度数值对应的预测误差都增大;并且,这个时候训练和预测的决定系数差别保持一个相对较小的差别,说明方差是相对较小的。总之,最大深度为4时,偏差和方差都达到相对最低的情况,能够最好地预测未见过的数据。

+ +
+
+
+
+
+
+
+
+

第五步. 选择最优参数

+
+
+
+
+
+
+
+

问题 7- 网格搜索(Grid Search)

什么是网格搜索法?如何用它来优化模型?

+ +
+
+
+
+
+
+
+

问题 7 - 回答:

网格搜索法:选择需要调整的参数,对于每个参数确定需要测试的数值,计算机自动历遍所有组合,并且得到对应的参数。

+

模型中对于最终预测结果有影响的不同的参数,设定一组大致最优的数值组,通过网格搜索法观察预测结果的最佳时的参数组合,这时候就一定程度上通过参数的设定来优化模型了。

+ +
+
+
+
+
+
+
+

问题 8 - 交叉验证

    +
  • 什么是K折交叉验证法(k-fold cross-validation)?
  • +
  • GridSearchCV是如何结合交叉验证来完成对最佳参数组合的选择的?
  • +
  • GridSearchCV中的'cv_results_'属性能告诉我们什么?
  • +
  • 网格搜索时如果不使用交叉验证会有什么问题?交叉验证又是如何解决这个问题的?
  • +
+

提示: 在下面 fit_model函数最后加入 print pd.DataFrame(grid.cv_results_) 可以帮你查看更多信息。

+ +
+
+
+
+
+
+
+

问题 8 - 回答:

    +
  • K折交叉验证法:

    +
      +
    1. 将给定的数据分为 K 份(一般 K = 10)
    2. +
    3. 选取一份作为测试数据,其他的 K-1 份作为训练数据,然后按照给定的评估标准,得出模型分数。
    4. +
    5. 对于每一份,进行 步骤2 的操作。
    6. +
    7. 对于一个模型的参数组,得到 K 个测试结果。
    8. +
    9. 对于 K 个结果取平均值作为这个参数组的最终模型得分
    10. +
    +
  • +
  • GridSearchCV 如何结合交叉验证

    +

    对于 GrideSearchCV 中的每个参数组合进行的测试,进行交叉验证得到模型的得分,次得分作为改组参数组合的最终得分。

    +
  • +
  • cv_results 属性

    +

    cv_results 属性告诉我们每种参数组的取值情况和最后算法得到的结果。

    +
  • +
+ +
+
+
+
+
+
+
+

编程练习 4:训练最优模型

在这个练习中,你将需要将所学到的内容整合,使用决策树算法训练一个模型。为了得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth' 参数。你可以把'max_depth' 参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。

+

在下方 fit_model 函数中,你需要做的是:

+
    +
  1. 定义 'cross_validator' 变量: 使用 sklearn.model_selection 中的 KFold 创建一个交叉验证生成器对象;
  2. +
  3. 定义 'regressor' 变量: 使用 sklearn.tree 中的 DecisionTreeRegressor 创建一个决策树的回归函数;
  4. +
  5. 定义 'params' 变量: 为 'max_depth' 参数创造一个字典,它的值是从1至10的数组;
  6. +
  7. 定义 'scoring_fnc' 变量: 使用 sklearn.metrics 中的 make_scorer 创建一个评分函数; +将 ‘performance_metric’ 作为参数传至这个函数中;
  8. +
  9. 定义 'grid' 变量: 使用 sklearn.model_selection 中的 GridSearchCV 创建一个网格搜索对象;将变量'regressor', 'params', 'scoring_fnc''cross_validator' 作为参数传至这个对象构造函数中;
  10. +
+

如果你对python函数的默认参数定义和传递不熟悉,可以参考这个MIT课程的视频

+ +
+
+
+
+
+
In [23]:
+
+
+
# TODO 4
+
+#提示: 导入 'KFold' 'DecisionTreeRegressor' 'make_scorer' 'GridSearchCV' 
+from sklearn.model_selection import KFold
+from sklearn.tree import DecisionTreeRegressor
+from sklearn.metrics import make_scorer
+from sklearn.model_selection import GridSearchCV
+
+def fit_model(X, y):
+    """ 基于输入数据 [X,y],利于网格搜索找到最优的决策树模型"""
+    
+    cross_validator = KFold(n_splits=10)
+    
+    regressor = DecisionTreeRegressor()
+
+    params = {'max_depth':[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
+
+    scoring_fnc = make_scorer(performance_metric)
+
+    grid = GridSearchCV(regressor, params, scoring_fnc, cv=cross_validator )
+
+    # 基于输入数据 [X,y],进行网格搜索
+    grid = grid.fit(X, y)
+
+    # 返回网格搜索后的最优模型
+    return grid.best_estimator_
+
+ +
+
+
+ +
+
+
+
+
+

编程练习 4:训练最优模型 (可选)

在这个练习中,你将需要将所学到的内容整合,使用决策树算法训练一个模型。为了得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth' 参数。你可以把'max_depth' 参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。

+

在下方 fit_model 函数中,你需要做的是:

+
    +
  • 遍历参数‘max_depth’的可选值 1~10,构造对应模型
  • +
  • 计算当前模型的交叉验证分数
  • +
  • 返回最优交叉验证分数对应的模型
  • +
+ +
+
+
+
+
+
In [ ]:
+
+
+
# TODO 4 可选
+
+'''
+不允许使用 DecisionTreeRegressor 以外的任何 sklearn 库
+
+提示: 你可能需要实现下面的 cross_val_score 函数
+
+def cross_val_score(estimator, X, y, scoring = performance_metric, cv=3):
+    """ 返回每组交叉验证的模型分数的数组 """
+    scores = [0,0,0]
+    return scores
+'''
+
+def fit_model2(X, y):
+    """ 基于输入数据 [X,y],利于网格搜索找到最优的决策树模型"""
+    
+    #最优交叉验证分数对应的最优模型
+    best_estimator = None
+    
+    return best_estimator
+
+ +
+
+
+ +
+
+
+
+
+

问题 9 - 最优模型

最优模型的最大深度(maximum depth)是多少?此答案与你在问题 6所做的猜测是否相同?

+

运行下方区域内的代码,将决策树回归函数代入训练数据的集合,以得到最优化的模型。

+ +
+
+
+
+
+
In [24]:
+
+
+
# 基于训练数据,获得最优模型
+optimal_reg = fit_model(X_train, y_train)
+
+# 输出最优模型的 'max_depth' 参数
+print "Parameter 'max_depth' is {} for the optimal model.".format(optimal_reg.get_params()['max_depth'])
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Parameter 'max_depth' is 5 for the optimal model.
+
+
+
+ +
+
+ +
+
+
+
+
+

问题 9 - 回答:

最优模型的最大深度(maximum depth)是5,和我在问题6所做的猜测不同。

+ +
+
+
+
+
+
+
+

第六步. 做出预测

当我们用数据训练出一个模型,它现在就可用于对新的数据进行预测。在决策树回归函数中,模型已经学会对新输入的数据提问,并返回对目标变量的预测值。你可以用这个预测来获取数据未知目标变量的信息,这些数据必须是不包含在训练数据之内的。

+ +
+
+
+
+
+
+
+

问题 10 - 预测销售价格

想像你是一个在波士顿地区的房屋经纪人,并期待使用此模型以帮助你的客户评估他们想出售的房屋。你已经从你的三个客户收集到以下的资讯:

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + +
特征客戶 1客戶 2客戶 3
房屋内房间总数5 间房间4 间房间8 间房间
社区贫困指数(%被认为是贫困阶层)17%32%3%
邻近学校的学生-老师比例15:122:112:1
+

你会建议每位客户的房屋销售的价格为多少?从房屋特征的数值判断,这样的价格合理吗?为什么?

+

提示:用你在分析数据部分计算出来的统计信息来帮助你证明你的答案。

+

运行下列的代码区域,使用你优化的模型来为每位客户的房屋价值做出预测。

+ +
+
+
+
+
+
In [26]:
+
+
+
# 生成三个客户的数据
+client_data = [[5, 17, 15], # 客户 1
+               [4, 32, 22], # 客户 2
+               [8, 3, 12]]  # 客户 3
+
+# 进行预测
+predicted_price = optimal_reg.predict(client_data)
+# print predicted_price
+for i, price in enumerate(predicted_price):
+    print "Predicted selling price for Client {}'s home: ${:,.2f}".format(i+1, price)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Predicted selling price for Client 1's home: $417,169.57
+Predicted selling price for Client 2's home: $212,520.00
+Predicted selling price for Client 3's home: $889,350.00
+
+
+
+ +
+
+ +
+
+
+
+
+

问题 10 - 回答:

建议每位客户的房屋销售的价格如上。这样的价格是合理的。

+

因为所有的预测的价格介于获得的数据里面的最低价格 \$105,000.00 与最高价格 \$1,024,800.00 之间,且在平均价格 \$454,342.94 ± 标准差 \$165,171.13 附近,相对来说是合理的。

+ +
+
+
+
+
+
+
+

编程练习 5

你刚刚预测了三个客户的房子的售价。在这个练习中,你将用你的最优模型在整个测试数据上进行预测, 并计算相对于目标变量的决定系数 R2的值**。

+ +
+
+
+
+
+
In [28]:
+
+
+
#TODO 5
+
+# 提示:你可能需要用到 X_test, y_test, optimal_reg, performance_metric
+# 提示:你可能需要参考问题10的代码进行预测
+# 提示:你可能需要参考问题3的代码来计算R^2的值
+test_predicted_price = optimal_reg.predict(X_test)
+r2 = performance_metric(y_test, test_predicted_price)
+
+
+print "Optimal model has R^2 score {:,.2f} on test data".format(r2)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Optimal model has R^2 score 0.80 on test data
+
+
+
+ +
+
+ +
+
+
+
+
+

问题11 - 分析决定系数

你刚刚计算了最优模型在测试集上的决定系数,你会如何评价这个结果?

+ +
+
+
+
+
+
+
+

问题11 - 回答

最优模型在测试集上的决定系数为0.80,还是很高的,预测的结果比较接近真是的情况,这个模型基本达到要求。

+ +
+
+
+
+
+
+
+

模型健壮性

一个最优的模型不一定是一个健壮模型。有的时候模型会过于复杂或者过于简单,以致于难以泛化新增添的数据;有的时候模型采用的学习算法并不适用于特定的数据结构;有的时候样本本身可能有太多噪点或样本过少,使得模型无法准确地预测目标变量。这些情况下我们会说模型是欠拟合的。

+

问题 12 - 模型健壮性

模型是否足够健壮来保证预测的一致性?

+

提示: 执行下方区域中的代码,采用不同的训练和测试集执行 fit_model 函数10次。注意观察对一个特定的客户来说,预测是如何随训练数据的变化而变化的。

+ +
+
+
+
+
+
In [29]:
+
+
+
# 请先注释掉 fit_model 函数里的所有 print 语句
+vs.PredictTrials(features, prices, fit_model, client_data)
+
+ +
+
+
+ +
+
+ + +
+ +
+ + +
+
Trial 1: $391,183.33
+Trial 2: $411,417.39
+Trial 3: $415,800.00
+Trial 4: $420,622.22
+Trial 5: $418,377.27
+Trial 6: $411,931.58
+Trial 7: $399,663.16
+Trial 8: $407,232.00
+Trial 9: $402,531.82
+Trial 10: $413,700.00
+
+Range in prices: $29,438.89
+
+
+
+ +
+
+ +
+
+
+
+
+

问题 12 - 回答:

对于一个特定的客户来说,随着训练数据的变化,预测的结果会不同,但是总体上来说,在一个相对较小的范围内波动变化。

+ +
+
+
+
+
+
+
+

问题 13 - 实用性探讨

简单地讨论一下你建构的模型能否在现实世界中使用?

+

提示:回答以下几个问题,并给出相应结论的理由:

+
    +
  • 1978年所采集的数据,在已考虑通货膨胀的前提下,在今天是否仍然适用?
  • +
  • 数据中呈现的特征是否足够描述一个房屋?
  • +
  • 在波士顿这样的大都市采集的数据,能否应用在其它乡镇地区?
  • +
  • 你觉得仅仅凭房屋所在社区的环境来判断房屋价值合理吗?
  • +
+ +
+
+
+
+
+
+
+

问题 13 - 回答:

我认为在现实世界中无法使用:

+
    +
  • 这个是上世纪七十年代的数据,无论是经济还是人口,都有巨大的变化,这个预测的模型对于现在的社会情况已经发生巨大的脱节了。
  • +
  • 数据中呈现的特征并不足够以刻画一个房屋价格,其他的一些条件缺少对于预测有相当大的影响,比如房屋所处的地带(距离市中心的距离)、房屋的新旧程度、房屋所在的楼层、房屋的装修程度等等,这些都是比较重要的参考要素。
  • +
  • 波士顿是大都市,人口密集,经济条件相对来说比较优越,其他乡镇地区,人口、经济、思想观念等等和波士顿地区有很大的差别,因此不具有推广性。
  • +
  • 仅凭房屋所在的社会环境来判断房屋价值不合理,房屋的价格还严重受到房屋自身条件情况、时代的经济变化、当地人们对于购房的趋势等等因素的影响,房屋所处的社会环境只是一个影响方面。
  • +
+ +
+
+
+
+
+
+
+

可选问题 - 预测北京房价

(本题结果不影响项目是否通过)通过上面的实践,相信你对机器学习的一些常用概念有了很好的领悟和掌握。但利用70年代的波士顿房价数据进行建模的确对我们来说意义不是太大。现在你可以把你上面所学应用到北京房价数据集中 bj_housing.csv

+

免责声明:考虑到北京房价受到宏观经济、政策调整等众多因素的直接影响,预测结果仅供参考。

+

这个数据集的特征有:

+
    +
  • Area:房屋面积,平方米
  • +
  • Room:房间数,间
  • +
  • Living: 厅数,间
  • +
  • School: 是否为学区房,0或1
  • +
  • Year: 房屋建造时间,年
  • +
  • Floor: 房屋所处楼层,层
  • +
+

目标变量:

+
    +
  • Value: 房屋人民币售价,万
  • +
+

你可以参考上面学到的内容,拿这个数据集来练习数据分割与重排、定义衡量标准、训练模型、评价模型表现、使用网格搜索配合交叉验证对参数进行调优并选出最佳参数,比较两者的差别,最终得出最佳模型对验证集的预测分数。

+ +
+
+
+
+
+
In [ ]:
+
+
+
# TODO 6
+
+# 你的代码
+
+ +
+
+
+ +
+
+
+
+
+

问题14 - 北京房价预测

你成功的用新的数据集构建了模型了吗?他能对测试数据进行验证吗?它的表现是否符合你的预期?交叉验证是否有助于提升你模型的表现?

+

提示:如果你是从零开始构建机器学习的代码会让你一时觉得无从下手。这时不要着急,你要做的只是查看之前写的代码,把每一行都看明白,然后逐步构建你的模型。当中遇到什么问题也可以在我们论坛寻找答案。也许你会发现你所构建的模型的表现并没有达到你的预期,这说明机器学习并非是一项简单的任务,构建一个表现良好的模型需要长时间的研究和测试。这也是我们接下来的课程中会逐渐学到的。

+ +
+
+
+
+
+
+
+

问题14 - 回答

+
+
+
+
+
+ + + + + +