PaddleSports是飞桨面向体育场景的端到端开发套件,实现人工智能技术与体育行业的深度融合,目标打造“AI+Sports”的标杆案例集。PaddleSports的特色如下:
-
整体采用“5W1H”的产品架构,即:when(什么时间),where(什么位置),who(是谁),what(发生了什么),why(为什么),how(怎么样)。系统梳理人工智能技术在体育行业的研究、应用、落地。
-
AI模型:从精度、速度、集成度三个维度进行性能评测。AI技术不仅是深度学习,同时整理了经典3D建模,SLAM,机器学习,以及硬件集成开发等工作,目标打造软硬一体的“AI+Sports”开发套件。
-
数据:除了各个已有的公开数据集来评测深度模型的性能外,将首次推出SportsBenchmark,力争能够用一个数据集来评测所有算法模型。
-
工具:面向体育场景的工具集,比如标注工具、检测工具、识别工具等,具有All-in-One,AutoRun的特点。
-
应用:涵盖足球、跳水、乒乓球、花样滑冰、健身、篮球、蹦床、大跳台、速度滑冰、跑步等热门的体育运动。
该部分详细介绍“5W1H”各个模块的内容。
“when”模块重点从时域角度回答以下问题:
1)输入一段视频,首先判断是什么体育运动;
2)从一段视频中,精确分割出体育运动的起止时间;
3)判断每一帧属于哪个动作,以跳水三米板为例,动作过程分为:走板、起跳、空中、入水等阶段。
4)时间同步,针对多相机同步问题,整理了硬件同步和软件同步两种控制方法。
5)编解码,包括视频编解码和音频编解码。
“where”模块重点分析:前景(运动员)、背景(场馆)、相机,这三类对象的位置/位姿的信息:
1)运动员整体位姿:图像/视频中运动员的2D/3D定位,包含:2D/3D检测、2D分割、2D/3D跟踪等;
2)运动员局部位姿:运动员的骨骼姿态的分析,从粗粒度到细粒度,包含:2D骨骼关键点、2D骨骼姿态、3D骨骼姿态、2D-3D稠密映射、3D人体重建、3D人体动画等;
3)背景3D重建:利用多维传感器数据,1比1重建场馆的3D信息,相关技术包含:Simultaneous Localization and Mapping (SLAM)、Structure-from-Motion (SfM) 等;
4)相机6-DoF位姿:恢复相机的6-DoF位姿(位置xyz,旋转αβγ),有经典的PNP算法,以及深度模型算法。
“who”模块重点分析:图像/视频中有哪几类人员,分别是谁,特定人员在整场比赛的集锦等信息:
1)人员分类:把图像/视频中运动员、观众、裁判、后勤工作人员进行区分;
2)运动员识别:识别出特定运动员,包含:人脸识别、人体识别、号码簿识别等;
3)运动员比赛集锦:自动生成该运动员整场比赛的视频集锦。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
3.who | 3.1) 人员分类 | 运动员、裁判、观众、后勤人员 | PP-LCNetV2.md | https://github.com/PaddlePaddle/PaddleClas/blob/release/2.4/docs/zh_CN/models/PP-LCNetV2.md | 王成 |
3.2) 运动员识别 | 人脸检测 | BlazeFace | https://github.com/PaddlePaddle/PaddleDetection/tree/release/2.4/configs/face_detection | 王成 | |
人脸识别 | Dlib | http://dlib.net/ | 王成 | ||
基于人体的运动员识别 | 王成 | ||||
3.3) “一人一档” | 运动员Re-ID | MultiSports | https://github.com/MCG-NJU/MultiSports | 王成 | |
“what”模块重点分析体育比赛画面中呈现的信息,包含:运动、语音、视觉、多模态等:
1)运动属性,从视频前后帧信息推断运动信息,包含2D光流以及3D场景流相关技术;
2)语义属性,包含:图像/视频检索识别,视频动作识别,image/video caption等;
3)视觉属性,包含:画质增强,超分辨率,2D转3D,3D实时交互等;
4)多模态属性,视觉数据与语音数据、文本数据联合分析。
“why”模块重点分析影响运动表现的因素,并尝试预测伤病的可能性、比赛成绩等:
1)采集生理、心理、体能相关数据,并与运动表现进行关联性分析;
2)从生物力学的角度,对动作细节进行纠正;
3)从内负荷、外负荷的角度,在确保训练强度的情况下,尽可能减少伤病发生的可能性。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
5.why | 5.1) 分析 | 技术、生理、心理、体能 | 卢飞翔 | ||
5.2) 推理 | 生物力学 | 卢飞翔 | |||
5.3) 预测 | 内负荷、外负荷 | 卢飞翔 | |||
“how”模块重点分析影响“AI+Sports”技术落地的因素:
1)费用,取决于数据标注数量和网络训练需要的GPU费用;
2)人力,重新训练模型所需的人力数量;
3)时间,配置、测试、重训练、重开发等所需要的时间。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
6.how | 6.1) much | 经费 | 卢飞翔 | ||
6.2) many | 人力 | 卢飞翔 | |||
6.3) long | 时间 | 卢飞翔 | |||
“data”模块重点梳理生成训练数据的6种主流方式:
1)人工标注:已标注的公开数据集,用于网络训练;
2)迁移学习:未标注的大量数据,做非监督学习和迁移学习;
3)合成数据:2D图像直接编辑,copy-paste的方式合成训练数据;
4)合成数据:3D模型渲染生成2D数据以及标注信息;
5)合成数据:3D模型部件指导的2D图像编辑;
6)合成数据:GAN系列网络模型合成训练数据。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
7.data | 7.1) 已标注的数据集 | 王庆忠 | |||
7.2) 未标注的数据集 | 卢飞翔 | ||||
7.3) 2D Copy-Paste | 卢飞翔 | ||||
7.4) 3D Rendering | 卢飞翔 | ||||
7.5) 3D-2D Editing | 卢飞翔 | ||||
7.6) GAN | 卢飞翔 | ||||
“benchmark”模块将构建第一个体育类的benchmark,尽可能让所有算法在一个数据集上进行评测,特点是小而精,包含以下信息:
1)when:时域信息标注,回合起止节点;
2)where:2D/3D检测,2D分割,2D跟踪,2D/3D骨架;
3)who:人员分类,姓名;
4)what:运动,语义,视觉信息。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
8.benchmark | 8.1) 训练数据集 | 卢飞翔 | |||
8.2) 测试数据集 | 卢飞翔 | ||||
8.3) 评估脚本 | 卢飞翔 | ||||
面向体育场景的工具集,比如标注工具、检测工具、识别工具等,具有All-in-One,AutoRun的特点。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
9.tools | 9.1) 标注工具 | 张孟希 | |||
9.2) 检测工具 | 卢飞翔 | ||||
9.3) 识别工具 | 卢飞翔 | ||||
9.4) 深度图生成工具 | 卢飞翔 | ||||
涵盖足球、跳水、乒乓球、花样滑冰、健身、篮球、蹦床、大跳台、速度滑冰、跑步等热门的体育运动。
任务 | 技术方向 | 技术细分 | 算法模型 | 链接 | 人力安排 |
---|---|---|---|---|---|
10.applications | 10.1) 足球 | 卢飞翔 | |||
10.2) 跳水 | 卢飞翔 | ||||
10.3) 乒乓球 | 张孟希 | ||||
10.4) 花样滑冰 | 卢飞翔 | ||||
10.5) 健身 | 卢飞翔 | ||||
10.6) 篮球 | 卢飞翔 | ||||
10.7) 蹦床 | 卢飞翔 | ||||
10.8) 大跳台 | 卢飞翔 | ||||
10.9) 速度滑冰 | 卢飞翔 | ||||
10.10) 跑步 | 卢飞翔 |
- 国家队
- 央视
- 国家体育总局体育科学研究所,河北省体育科学研究所
- 高校:清华大学,北京大学,南京大学,北京航空航天大学,大连理工大学,厦门大学,上海科技大学
- 体育类商业公司
- 世界冠军运动员、教练等
- 百度研究院 机器人与自动驾驶实验室(RAL)
- 百度研究院 大数据实验室(BDL)
- 百度深度学习技术平台部(PaddlePaddle)
- 百度ACG产业创新业务部