diff --git a/finding_donors.ipynb b/finding_donors.ipynb index 7b1da30..62221e8 100644 --- a/finding_donors.ipynb +++ b/finding_donors.ipynb @@ -285,14 +285,14 @@ "metadata": {}, "source": [ "### 评价方法和朴素的预测器\n", - "*CharityML*通过他们的研究人员知道被调查者的年收入大于\\$50,000最有可能向他们捐款。因为这个原因*CharityML*对于准确预测谁能够获得\\$50,000以上收入尤其有兴趣。这样看起来使用**准确率**作为评价模型的标准是合适的。另外,把*没有*收入大于\\$50,000的人识别成年收入大于\\$50,000对于*CharityML*来说是有害的,因为他想要找到的是有意愿捐款的用户。这样,我们期望的模型具有准确预测那些能够年收入大于\\$50,000的能力比模型去**召回**这些被调查者*更重要*。我们能够使用**F-beta score**作为评价指标,这样能够同时考虑准确率和召回率:\n", + "*CharityML*通过他们的研究得知,年收入大于\\$50,000的被调查者最有可能向他们捐款。因为这个原因,*CharityML*对于准确预测谁能够获得\\$50,000以上收入尤其有兴趣。这样看来,在评估某些特定的模型时,使用**准确率**作为评价标准很合适。另外,把收入*没有*大于\\$50,000的人识别成年收入大于\\$50,000对于*CharityML*来说是不可接受的,因为他想要找到的是有捐款倾向的被调查者。因此,我们期望的模型**精确预测**年收入大于\\$50,000的调查者的能力要比**预测所有**年收入大于\\$50,000的的调查者的能力更重要。综上所述,我们在这里使用**F-beta score**作为评价指标,这样能够同时考虑精确率和召回率:\n", "\n", "$$ F_{\\beta} = (1 + \\beta^2) \\cdot \\frac{precision \\cdot recall}{\\left( \\beta^2 \\cdot precision \\right) + recall} $$\n", "\n", "\n", - "尤其是,当$\\beta = 0.5$的时候更多的强调准确率,这叫做**F$_{0.5}$ score** (或者为了简单叫做F-score)。\n", + "尤其是,当$\\beta = 0.5$的时候更多的强调精确率,这叫做**F$_{0.5}$ score** (或者为了简单叫做F-score)。\n", "\n", - "通过查看不同类别的数据分布(那些最多赚\\$50,000和那些能够赚更多的),我们能发现:很明显的是很多的被调查者年收入没有超过\\$50,000。这点会显著地影响**准确率**,因为我们可以简单地预测说*“这个人的收入没有超过\\$50,000”*,这样我们甚至不用看数据就能做到我们的预测在一般情况下是正确的!做这样一个预测被称作是**朴素的**,因为我们没有任何信息去证实这种说法。通常考虑对你的数据使用一个*朴素的预测器*是十分重要的,这样能够帮助我们建立一个模型的表现是否好的基准。那有人说,使用这样一个预测是没有意义的:如果我们预测所有人的收入都低于\\$50,000,那么*CharityML*就不会有人捐款了。" + "通过查看不同类别的数据分布(那些最多赚\\$50,000和那些能够赚更多的),我们能发现:很明显,很多的被调查者年收入没有超过\\$50,000。这点会显著地影响**准确率**,因为我们可以简单地预测说*“这个人的收入没有超过\\$50,000”*,这样我们甚至不用看数据就能做到我们的预测在一般情况下是正确的!做这样一个预测被称作是**朴素的**,因为我们没有任何信息去证实这种说法。通常考虑对你的数据使用一个*朴素的预测器*是十分重要的,这样能够帮助我们建立一个模型的表现是否好的基准。那有人说,使用这样一个预测是没有意义的:如果我们预测所有人的收入都低于\\$50,000,那么*CharityML*就不会有人捐款了。" ] }, {