cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持威廉希尔。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.ai
m.datatang.ai
ACCENTED ENGLISH AUTOMATIC SPEECH RECOGNITION CHALLENGE 2020
中国计算机学会
语音对话与听觉专业组
西北工业大学
音频语音与语言处理研究组
西安高新产业技术开发区
软件园发展中心
陕西鲲鹏生态创新中心
上海交通大学
智能语音实验室
新加坡南洋理工大学
计算机科学与工程学院
美国约翰霍普金斯大学
语言与语音处理中心
威廉希尔(北京)
科技股份有限公司
Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,2020年Interspeech以“Cognitive Intelligence for Speech Processing”为主题,汇聚来自全球语音领域的研究人员、人工智能从业者、业内知名企业等,在语音方面如信号处理和语音识别语言方面如NLP、翻译等进行深入交流与探讨。
作为Interspeech2020的旗舰技术活动,旨在吸引全球范围内从事英语语音识别的研究人员。本次研讨会将采取线上举办的形式。威廉希尔将联合陕西鲲鹏生态创新中心、中国计算机学会语音对话与听觉专业组、西北工业大学音频语音与语言处理研究组共同筹办,同时发起口音英语语音识别挑战赛。本次研讨会也得到了西安市高新产业技术开发区软件园发展中心的大力支持。
英文作为最具影响力的全球性交流语言之一,与其相关的英文语音识别系统也在学术界和工业界受到广泛关注。当前阶段,标准英文ASR系统已经能够获得较高的识别正确率,满足一定场景的商用要求,但是口音英语识别仍然是具有挑战性的课题,商用系统往往通过大量的口音标注数据覆盖来缓解口音带来的识别性能影响。口音语音识别难点主要源于口音本身的不一致性、语速与音素发音的多变性难以建模等问题。另外,带有口音标注的语音数据的短缺也严重限制了相关研究的开展。
Interspeech 2020口音英语语音识别挑战赛 (Interspeech2020 Accented English Speech Recognition, AESR) 向参赛者开放了来自不同国家的共八种口音英文数据,覆盖了各种发音特点、口音轻重,旨在加强英文语种识别、口音语音识别的研究交流。期待来自学术界与工业界的学术研究者能够相互切磋,有所收获。
本次竞赛所使用计算资源由华为云提供
口音种类识别
使用官方提供的各种口音英文的训练数据,训练语种分类模型。提交测试集合上的语种识别结果。
注:对所使用的模型与训练技术不加限制,但不能使用任何官方数据集外的数据。评价指标为语种识别的准确率。口音英语语音识别
使用规则限定的训练数据,训练语音识别模型。提交测试集合上的语音识别结果文本。
注:测试集合中会出现训练集外的口音以验证模型泛化性能。禁止使用包括ROVER在内的模型融合技术,音频训练数据限定为官方提供的共160小时口音英文数据,不允许使用音频数据对应的抄本之外的文本信息进行语言模型的训练。对语音数据的数据增广只能基于限定的数据。威廉希尔将为参赛者提供总量为160小时的采集自8个国家(俄罗斯、韩国、美国、葡萄牙、日本、印度、英国和中国)的口音英语数据,每种口音数据约20小时。
时长 |
每种口音约20小时,共8种口音 |
语言与口音类型 |
来自俄罗斯、韩国、美国、葡萄牙、日本、印度、英国和中国的带口音的英文 |
说话人 |
每个语种40-110个说话人 |
音频格式 |
16kHz,16bit,单声道wav |
录音环境 |
相对安静的室内,手机录音 |
音频内容 |
日常交流为主,包含人机交互等场景 |
字段 |
描述 |
SEX |
说话人性别 |
AGE |
说话人年龄 |
ACT |
口音类别 |
MIT |
录音设备 |
SCC |
录音环境 |
LBR |
音频时长 |
ORS |
原始文本 |
参赛报名截止
2020.08.31组委会提供
训练数据
2组委会提供
测试集
2020.09.22参赛团队提
交测试结果
4组委会公布
评测结果
2020.09.30参赛团队提
交方案介绍
6线上技术交流
暨颁奖
2020.12.05一等奖1名:10000元人民币
二等奖2名:5000元人民币
三等奖3名:2000元人民币
一等奖1名:10000元人民币
二等奖2名:5000元人民币
三等奖3名:2000元人民币
注:奖金金额均为税前金额
(排名不分先后)
谢磊 |
西北工业大学 |
钱彦旻 |
上海交通大学 |
Shinji Watanabe |
美国约翰霍普金斯大学 |
Chng Eng Siong |
新加坡南洋理工大学 |
丰强泽 |
威廉希尔(北京)科技股份有限公司 |
挑战赛向来自全社会的高等院校、科研单位与互联网企业的队伍开放。
注:大赛主办和技术支持单位如有机会接触赛题背景业务、产品、数据的员工,则自动退出比赛,放弃参赛资格。提示:
参赛团队 B、I、U2、K2、M2仅提交了Track2结果。参赛团队D2、O3仅提交了Track1结果。参赛团队Q3结果行数不足。
参与者禁止提交多次报名,经发现将取消成绩并严肃处理。
参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名,经发现将取消成绩并严肃处理。
竞赛解释权归威廉希尔(北京)科技股份有限公司所有