AI-Rank是一个面向AI产业界的,对AI系统进行综合评价的基准体系。
随着AI技术的发展,各类AI计算设备(如:CPU、GPU、移动端芯片等)、各类AI框架(如:PaddlePaddle、TensorFlow、PyTorch)等应运而生。产业界在制定符合自身的深度学习应用方案时,难免在软件、硬件选型上缺少对比数据。
AI-Rank本着公开、公正、公平的原则,制定尽可能全面的综合评估体系,并广纳各类AI产品性能数据。希望能够切实挖掘人工智能产业发展过程中的需求与痛点,探究AI未来的趋势,助力全产业AI相关企业的发展和AI技术的进步。通过基准测试体系的建立,进行科学的测评,达到公开、公正、公平的要求,测评结果可定量,可复现,可对比。基准所采用的评价体系能够客观全面系统的反映人工智能产业的现状及其发展方向。
AI-Rank主要面向产业应用,为应用方提供决策所需的参考数据,因此在硬件评估中,会更多聚焦于企业应用中广泛使用的硬件。在制定评估体系上,会更加全面的考虑普适性、实用性、落地能力等方面,因此,在指标选取上与业界已有的性能评估系统有所差别,AI-Rank提供的数据将更实用、更贴近应用,希望能够起到促进产业研发,并为应用方提供较为权威的参考作用。
- 多条赛车道:目前业界已有的的评测大多集中在对Time2Train等几个指标的优化上,逐渐演变为对纯硬件性能和大规模集群计算能力的测试,而AI-Rank设立了多个细分赛道,对算法、硬件、生态等方面进行全面的测评
- 硬件赛道:在给定的软件环境和AI任务上,针对不同硬件进行多方位指标的测试,以评价不同硬件的性能表现,并为不同需求的企业提供较为全面的参考。
- 软件赛道:在同样的硬件设置上,综合考虑多种典型硬件配置,考察各种深度学习框架的综合表现, 例如模型覆盖率、性能表现等。
- 特色赛道:针对特殊场景设置的评测,可能有更多的限制和特定指标,例如整体方案对国产化的支持情况等。目前该赛道中尚未设置具体任务,会在未来版本中发起。
- 多场景测试:以上每个赛道中又对AI的主要使用场景进行了覆盖
- 云端训练:评价被测AI方案,在云端环境下,进行模型训练的整体表现。
- 云端推理:评价被测AI方案,在云端环境下,进行模型推理的整体表现。
- 终端推理:评价被测AI方案,在终端设备上,进行模型推理的整体表现。
随着对产业需求的不断收集和理解,AI-Rank也将不断对任务设置和评测指标进行更新迭代,逐步完善以上各种评估场景。
参与AI-Rank的评估,分为提交、审核、公布三个阶段。
提交阶段,参与方首先将所有评审资料按照提交数据的目录结构进行组织,并打包计算签名。之后,向AI-Rank官方邮箱([email protected])发送申请评估邮件,附上包和签名。AI-Rank将在5个工作日内予以回复是否受理,并在回复后10个工作日内启动审核工作。 不同赛道所需提交的评审资料和目录结构可具体参考如下链接(目前仅针对软件和硬件赛道设置了具体任务,特色赛道任务会在未来进行设置):
审核阶段分为3个子阶段:初审、答辩、确认
AI-Rank将组织领域专家,对提交放提供的资料进行审核,确保提交的代码及相关数据真实可靠。 经过初审,专家组将整理问题清单,反馈给提交方。
由提交方根据问题清单,准备答辩材料。由AI-Rank组织提交方与专家组进行现场讨论。现场,专家组也可再补充新的问题。问题清单所有问题,均需有明确结论。 答辩内容已纪要形式,伴随最终数据共同公布。
答辩后,可能部分数据有所调整,AI-Rank将出具确认数据的书面文件,提交方确认后方可发布。
所有数据经确认并整理后,由AI-Rank在本Repo中进行发布。