助力教育AI发展

好未来旗下真实教育场景数据

助力教育AI发展

TAL_OCR_MATH小学低年级算式数据集

算数数据集为小学数学1到3年级的学生手写数学式子,共3万图片。每个数学式子经过手工裁剪。每个图像提供了对应标注。特殊数学符号标注方式请查看字符对应表。(文件87.04MB)

数据规模3万张图片
数据类型小学1~3年级学生习题册
公式类型横式
运算加、减、乘、除
数据格式图片:.jpg;标注结果:.txt

样例:

样例图片

340b14=Z4Z7Z6Z0(b:代表×,Z:手写标志)

TAL_OCR_CHN手写中文数据集

手写中文数据集为30名大学生手写的中文古诗词,总计11739张图片,每张图片提供了对应的文本内容标注。(文件183.92MB)

数据规模11739张图片
数据类型手写中文古诗词
数据格式图片:.jpeg;标注结果:.txt

样例:

样例图片

加。柳下桃蹊,乱分春色到人家。

TAL_OCR_ENG手写英文数据集

手写英文数据集为学生手写英文作文,总计1万行英文,对应1万张图片,每张图片提供了对应的文本内容标注。(文件222.16MB)

数据规模1万张图片
数据类型手写英文
数据格式图片:.jpeg;标注结果:.txt

样例:

样例图片

Because eating fast food is a simple way to eat.

HME100K

The HME100K dataset provides 99,109 images (74,502 for training and 24,607 for testing) with 245 kinds of symbol classes. The data size is increased tenfold compared to the CRHOME datasets. HME100K acquires the expressions from an Internet application. Therefore, we may assume that the expressions are written by tens of thousands of writers. (文件695.77MB)

数据规模99109张图片
数据类型手写数学公式
数据格式图片:.jpg;标注结果:.txt

样例:

样例图片

\frac { 2 x - 6 } { 2 } = 6

TAL_OCR_TABLE表格识别竞赛训练集

表格识别数据集为真实教育场景下学生拍照搜题的各类表格数据,总计1.6w张图片,每张图片提供了对应的表格结构和内容标注。该数据集为“2021好未来表格识别大赛”指定训练集。(文件1.11GB)

数据规模1.6万张图片
数据类型教育场景表格图片
数据格式图片:.jpeg;标注结果:.json

样例:

样例图片

1:测定次数,2:第1次,3:第2次,4:第3次,5:第4次, 6:pH,7:4.92,8:4.82,9:4.76,10:4.75

tal logo
tal QR codeAI体验小程序
tal QR codeAI官方公众号

Copyright © 2019-2021 好未来版权所有 北京世纪好未来教育科技有限公司 京ICP备13017119号-2