王家卫的电影《一代宗师》中有段经典比武的桥段,宫会长对叶问说“今天我们不比武术,比想法”,好的想法、点子或者IDEA也是一篇优秀研究成果的灵魂。计算机领域也流行着一句话“IDEA is cheap, show me the code”,说明对于重视实践的计算机学科而言,IDEA的好坏还取决于它的实际效能。这里就来谈下好的研究IDEA从哪里来。
2015年我在微博上写过一个小段子:
ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然成江湖第一大名门正派,门内有三套入门武功,曰:图模型加圈,神经网加层,优化目标加正则。有童谣为证:熟练ML入门功,不会作文也会诌。
到2018年我又续了一小段:
不期数年,北方DL神教异军突起,内修表示学习,外练神经网络,心法众多,曰门,曰注意,曰记忆,曰对抗,曰增强。经ImageNet一役威震武林,豢Alpha犬一匹无人可近。一时家家筑丹炉,人人炼丹忙,门徒云集,依附者众,有一统江湖之势。有童谣为证:左手大数据,右手英伟达,每逢顶会炼丹忙。
这里面提到的图模型加圈、神经网络加层、优化目标加正则,神经网络中的门、注意、记忆等,都是一些改进模型性能的创新思路,被各大NLP任务广泛使用并发表论文,也许就是被不同NLP任务的重复使用和发表,多少有些审美疲劳而缺少更深的创新思想,会被有些网友和学者诟病为“灌水”,好像都是不够好的IDEA。那么什么才是好的IDEA呢?
在我看来,IDEA好坏并不是非黑即白的二分问题,而是像光谱一样呈连续分布,而且因时而异,因人而宜。现在的学术研究已经成为高度专业化的职业,有庞大的研究者群体,鲁迅说过“天才并不是自生自长在深林荒野里的怪物,是由可以使天才生长的民众产生,长育出来的,所以没有这种民众,就没有天才”,这个庞大研究者群体正是天才成长的群众基础。而且,在同学创新研究的训练过程中,也是不断磨砺自己寻找好IDEA能力的过程,如鲁迅说的“即使天才,在生下来的时候的第一声啼哭,也和平常的儿童的一样,决不会就是一首好诗”。计算机科技领域的发展有积累的过程,也有跃迁的奇点,没有量变就不会有质变,也不能因为吃第三个馒头饱了就认为前面两个馒头不重要。所以不能要求每个研究者的每份工作都是“诺贝尔奖”、“图灵奖”级的才值得发表。只要对研究领域的发展有所助力,就值得发表出来帮助同行前进。
那么,评判什么算好的IDEA的标准是什么呢,我总结关键在一个“新”字。
之前听几位老师有这么一个说法,人工智能学科有个魔咒,凡是人工智能被解决(或者有解决方案)的部分,就不再被认为代表“人类智能”。计算机视觉、自然语言处理、机器学习、机器人之所以还被列为人工智能主要方向,也许正是因为它们尚未被解决,尚能代表“人类智能”的尊严?
很多答案其实是在说顶尖“科研成果”,我感觉“顶尖科研”更关乎科研态度。著名历史学家、清华校友何炳棣先生曾在自传《读史阅世六十年》中提及著名数学家林家翘的一句嘱咐:“要紧的是不管搞哪一行,千万不要做第二等的题目。” 具体到每个领域,什么是一等的题目本身见仁见智,其实更指向内心“求真”的态度,是否将从事科研的题目作为自己的“责任”,而非仅为谋生的“工作”,我感觉这也许就是做“顶尖科研”的体现,也是做出“顶尖科研成果”的必要条件。那些兢兢业业、为了内心使命而奋斗的科研工作者们,在我心目中都在从事着顶尖科研。
我感觉,产业界开始集团化搞的问题,说明其中主要的开放性难题已经被解决得差不多了,如语言识别、人脸识别等,在过去20年里面都陆续被广泛商业应用。看最近的BERT、GPT-2,我理解更多的是将深度学习对大规模数据拟合的能力发挥到极致,在深度学习技术路线基本成熟的前提下,大公司有强大计算能力支持,自然可以数据用得更多,模型做得更大,效果拟合更好。
成熟高新技术进入商用竞争,就大致会符合摩尔定律的发展规律。现在BERT等训练看似遥不可及,但随着计算能力等因素的发展普及,说不定再过几年,人人都能轻易训练BERT和GPT-2,大家又会在同一个起跑线上,把目光转移到下一个挑战性难题上。
所以不如提前考虑,哪些问题是纯数据驱动技术无法解决的。NLP和AI中的困难任务,如常识和知识推理,复杂语境和跨模态理解,可解释智能,都还没有可行的解决方案,我个人也不看好数据驱动方法能够彻底解决。更高层次的联想、创造、顿悟等认知能力,更是连边还没碰到。这些正是有远见的研究者们应该开始关注的方向。