好未来旗下真实教育场景数据
助力教育AI发展
TAL_OCR_MATH小学低年级算式数据集
算数数据集为小学数学1到3年级的学生手写数学式子,共3万图片。每个数学式子经过手工裁剪。每个图像提供了对应标注。特殊数学符号标注方式请查看字符对应表。(文件87.04MB)
数据规模 | 3万张图片 |
数据类型 | 小学1~3年级学生习题册 |
公式类型 | 横式 |
运算 | 加、减、乘、除 |
数据格式 | 图片:.jpg;标注结果:.txt |
样例:
340b14=Z4Z7Z6Z0(b:代表×,Z:手写标志)
TAL_OCR_CHN手写中文数据集
手写中文数据集为30名大学生手写的中文古诗词,总计11739张图片,每张图片提供了对应的文本内容标注。(文件183.92MB)
数据规模 | 11739张图片 |
数据类型 | 手写中文古诗词 |
数据格式 | 图片:.jpeg;标注结果:.txt |
样例:
加。柳下桃蹊,乱分春色到人家。
TAL_OCR_ENG手写英文数据集
手写英文数据集为学生手写英文作文,总计1万行英文,对应1万张图片,每张图片提供了对应的文本内容标注。(文件222.16MB)
数据规模 | 1万张图片 |
数据类型 | 手写英文 |
数据格式 | 图片:.jpeg;标注结果:.txt |
样例:
Because eating fast food is a simple way to eat.
HME100K
The HME100K dataset provides 99,109 images (74,502 for training and 24,607 for testing) with 245 kinds of symbol classes. The data size is increased tenfold compared to the CRHOME datasets. HME100K acquires the expressions from an Internet application. Therefore, we may assume that the expressions are written by tens of thousands of writers. (文件695.77MB)
数据规模 | 99109张图片 |
数据类型 | 手写数学公式 |
数据格式 | 图片:.jpg;标注结果:.txt |
样例:
\frac { 2 x - 6 } { 2 } = 6
TAL_OCR_TABLE表格识别竞赛训练集
表格识别数据集为真实教育场景下学生拍照搜题的各类表格数据,总计1.6w张图片,每张图片提供了对应的表格结构和内容标注。该数据集为“2021好未来表格识别大赛”指定训练集。(文件1.11GB)
数据规模 | 1.6万张图片 |
数据类型 | 教育场景表格图片 |
数据格式 | 图片:.jpeg;标注结果:.json |
样例:
1:测定次数,2:第1次,3:第2次,4:第3次,5:第4次, 6:pH,7:4.92,8:4.82,9:4.76,10:4.75