成人中文授课音频

语音识别数据集为好未来线上课程的老师授课音频,涵盖语文、数学两门学科。共包含80+说话人,每条音频只有一位说话人。标注数据包含了科目及说话人编号。训练集、验证集、测试集比例为7:1:2(3个文件共9.03G)

数据规模100小时
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人80+
录制时间2018年4月 ~ 5月
数据格式语音:.wav单声道;标注结果:.txt
音频长度1 ~ 60s

样例:

这两个数他们也叫好朋友数为什么呢它们的个位能够凑成整十只要是个位能凑整十都叫好朋友数

成人中文语音情感分类

语音情感数据集为好未来老师上课音频,共包含4541条音频,总时长12.5小时。录音在安静的室内环境中录制,每条音频只有一个说话人。标注包括愉悦度(Pleasure)和激情度(Arousal)两个维度,每个音频片段对应一个P值和A值,范围都在[-3,3]之间,值越大表示愉悦度或激情度越高。(文件1.16GB)

数据规模12.5小时
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人42人,男性:18人,女性:24人
数据格式语音:.wav单声道;标注结果:.txt
音频长度10s
准确率96%

样例:

ID: 900 P: -0.046 A: 0.93 speaker: SER005 gender: man

成人中英文混合授课音频

该数据集为好未来英语课授课音频,包含中英文混合讲话的情况,每条音频只有一位说话人。(文件63.36G)

数据规模587小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人200+
录制时间2019年
数据格式音频:.wav;标注结果:.txt
音频长度1~60s
数据类型英语课教师授课音频

样例:

HE MUST BE HOME NOW FOR THE LIGHT IS ON 他一定在家,因为灯亮着。就是有一种推理或者解释的那种感觉。

儿童中文朗读

数据集为好未来线上课程的爆款儿童声音音频,涵盖语文、数学等学科。共包含30+说话人。(文件489.3MB)

数据规模5.4小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人30+
录制时间2020-2021年
数据格式音频:.wav

样例:

儿童英文朗读

数据集为好未来线上课程的儿童声音英语音频,共包含30+说话人。(文件424.7MB)

数据规模4.5小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人30+
数据格式音频:.wav

样例:

成人中文朗读

数据集为好未来线上课程老师的声音音频,涵盖语文、数学等学科。共包含100+说话人。(文件146.6G)

数据规模1750小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人100+
录制时间2020-2021年
数据格式音频:.wav

样例:

成人英文朗读

数据集为好未来线上英文课程的老师声音音频,共包含100+说话人。(文件12.68G)

数据规模180小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人100+
录制时间2020-2021年
数据格式音频:.wav

样例:

成人英文授课音频

数据集为好未来线上英文课程的老师授课音频,共包含100+说话人。(文件12.06G)

数据规模160小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人100+
录制时间2020-2021年
数据格式音频:.wav

样例:

Copyright © 2019-2021 好未来版权所有 北京世纪好未来教育科技有限公司 京ICP备13017119号-2