Skip to content

Commit

Permalink
Update catalog.md
Browse files Browse the repository at this point in the history
  • Loading branch information
zhimin-z committed Sep 25, 2024
1 parent a26a057 commit 2053de3
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions docs/catalog.md
Original file line number Diff line number Diff line change
Expand Up @@ -44,11 +44,11 @@

## 关于机器学习理论与实践

随着机器学习的蓬勃发展,SOTA(State-of-the-art,最先进技术)几乎成了评判算法优劣的唯一标准。这种对表面表现的单一追求,常常忽视了支撑其背后的基础理论。正如硅谷投资人吴军曾指出的,最顶尖的科学家通过理论设定学科的边界,赋予未来研究者方向和框架。1936年,图灵在其著名的论文中为可计算性理论奠定了基础,定义了哪些问题可以通过算法解决。同样,机器学习领域的研究者只有具备深厚的理论根基,才能在实践中面对瓶颈时不至于迷失,而是继续探索,甚至开拓新的领域。
随着机器学习的蓬勃发展,**SOTA(State-of-the-art,最先进技术)**几乎成了评判算法优劣的唯一标准。这种对表面表现的单一追求,常常忽视了支撑其背后的基础理论。正如硅谷投资人吴军曾指出的,最顶尖的科学家通过理论设定学科的边界,赋予未来研究者方向和框架。1936年,图灵在其著名的论文中为可计算性理论奠定了基础,定义了哪些问题可以通过算法解决。同样,机器学习领域的研究者只有具备深厚的理论根基,才能在实践中面对瓶颈时不至于迷失,而是继续探索,甚至开拓新的领域。

没有免费午餐定理(No Free Lunch Theorem)便是一个鲜明的例子。该定理告诉我们,不存在一种能够应对所有问题的通用算法。尽管许多算法在特定领域或时间点看似“无敌”,如神经网络的兴起,但每个算法的优势往往局限于特定的任务和环境。因此,过度依赖某一种算法的短期成功,可能导致长期陷入困境。通过理论学习,研究者能够意识到这种局限,并避免在实践中过分追逐SOTA,而忽视更为长远的技术路线。
**没有免费午餐定理(No Free Lunch Theorem)**便是一个鲜明的例子。该定理告诉我们,不存在一种能够应对所有问题的通用算法。尽管许多算法在特定领域或时间点看似“无敌”,如神经网络的兴起,但每个算法的优势往往局限于特定的任务和环境。因此,过度依赖某一种算法的短期成功,可能导致长期陷入困境。通过理论学习,研究者能够意识到这种局限,并避免在实践中过分追逐SOTA,而忽视更为长远的技术路线。

掌握机器学习理论不仅能为初学者提供坚定的信心,还能帮助他们在面对外界质疑时保持清醒的认知。例如,关于数据质量的忧虑、对算力需求的增长以及能源消耗的批评声从未停止。但理论的学习让我们明白,这些挑战并非不可逾越,反而是通向通用人工智能(AGI)的必经之路。神经网络的通用近似定理(Universal Approximation Theorem)便为我们提供了希望:理论证明神经网络能够以任意精度逼近复杂的非线性函数,正是这个理论基础,支撑了研究者继续探索神经网络模拟人类智能的可能性。即使面对外界的质疑,研究者们依然凭借理论信仰,寻找突破算力、数据和能源等方面的瓶颈,努力推动技术的进步
掌握机器学习理论不仅能够为初学者奠定坚实的基础,增强他们的信心,还能帮助他们在面对外界质疑时保持理性和清醒的判断。一个鲜明的例子是,近期在 ICLR 2024 大会上,斯隆奖得主马腾宇及其团队通过数学方法证明了Transformer 模型具备模拟任意多项式规模数字电路的能力。这一成果表明,随着**思维链(Chain of Thought, CoT)**的不断延展,Transformer能够有效地处理更为复杂的问题。 这项研究不仅展示了理论在推动前沿技术进步中的重要性,还让我们认识到,尽管外界对数据质量不足、模型的算力需求以及能源消耗提出了诸多质疑,但这些问题并非不可逾越。通过深入学习机器学习理论,我们可以更好地理解这些挑战,意识到它们实际上是迈向**通用人工智能(AGI)**过程中必须面对和解决的关键节点

不仅如此,理论学习还有助于我们建立对算法泛化能力的深刻理解。通过对机器学习理论的深入研究,我们能够推导出在不同假设条件下,算法的性能极限。比如,我们可以评估某一算法的收敛速度,预测其在不同数据量和模型复杂度下的表现。这些理论工具不仅提高了研究的严谨性,还为实际应用提供了有力的指导。例如,正是通过理论推导,我们能够理解大规模语言模型的训练为何需要如此庞大的数据集,同时又能预见在某些任务上微调模型的效果。

Expand Down

0 comments on commit 2053de3

Please sign in to comment.