(pr稿地址)https://mp.weixin.qq.com/s/3WCo-J8bYcsP8dOnV8pc3w
(比赛地址)https://challenge.datacastle.cn/v3/cmptDetail.html?id=824
给定图片格式的PDF文档进行版面分析,支持的格式包括:文本,标题,图像,图像标题,表格,表格标题,目录,页眉,页脚,公式,脚注。
初赛(A榜)训练集包含3000张左右的图片和对应的版面分析标注以及OCR标注;
初赛(A榜)测试集包含1000张左右的图片和对应的OCR标注。
复赛(B榜)测试集包含1000张左右的图片和对应的OCR标注。
其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。
版面分析标注参照COCO数据集,为json格式
【repo作者有数据备份,如有需要,可自行联系】