威廉希尔

训练数据集

计算机视觉训练数据集

语音识别训练数据集

语音合成训练数据集

OCR训练数据集

发音词典训练数据集

自然语言理解训练数据集

大模型训练数据集

训练数据集

威廉希尔现有成品训练数据集涵盖语音识别数据20万小时，计算机视觉数据800TB，自然语言理解…
查看更多
数据定制服务

3D点云数据定制

街景数据定制

OCR数据定制

行为识别数据定制

身份识别数据定制

语音识别数据定制

语音合成数据定制

多模态数据定制

数据定制服务

威廉希尔拥有专业数据采集设备、工具和环境，自建三大威廉希尔基地，凭借丰富的AI数据项目实施经验及完善的项目管理流程，满足客户多种场景和类型的数据需求，支持专业个性化数据采集与标注服务。
查看更多
行业解决方案

智能驾驶解决方案

智能娱乐解决方案

智能客服解决方案

智能家居解决方案

新零售解决方案

智能医疗解决方案

行业解决方案

威廉希尔拥有10年以上为各行各业提供数据服务的经验。
查看更多
威廉希尔平台

威廉希尔平台

威廉希尔实训平台
关心威廉希尔

企业介绍

人才招募

新闻中心

数据竞赛

咨询销售

客服
留言
联系电话 13051623904
电话
发送邮件 services@datatang.com
邮件

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功！感谢您支持威廉希尔。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.ai

m.datatang.ai

长短视频多语种多模态识别竞赛

Video Multi-modal Recognition Challenge

赛事发起主办
数据支持
算力支持

联合主办

清华大学
语音与音频技术实验室
西北工业大学
音频语音与语言处理研究组
中国计算机学会
语音对话与听觉专委会

竞赛背景
Challenge background

2021年第十六届全国人机语音通讯学术会议（National Conference on Man-Machine Speech Communication，NCMMSC2021）将于2021年10月15-18日在江苏徐州举行。本次会议由中国中文信息学会和中国计算机学会联合主办。

针对本次会议，由腾讯科技ASR&OCR oteam联合清华大学、西北工业大学、威廉希尔、中国计算机学会语音对话与听觉专委会发起，围绕时下在工业界最为关注的三类媒体形式——长视频、短视频、直播场景进行多模态识别竞赛。

本次比赛由易到难，Task1将关注模型场景适配下长短视频及直播中汉语关键词的检测问题；Task2则扩展到Task1的多语种和多方言关键词场景；Task3会根据视频画面里的字幕信息和语音识别信息。共同打造SOTA的长、短视频、直播场景的字幕语音内容识别多模态工业级解决方案。

Task1

汉语长短视频直播语音关键词
Video Keyword Wakeup Challenge
, VKW
Task2

多语种多方言长短视频直播语音关键词
Low-resouce Video Keyword Wakeup Challenge
, LVKW
Task3

汉语长短视频直播字幕ASR&OCR
Video ASR OCR Challenge, VAO

Task1

汉语长短视频直播语音关键词

Video Keyword Wakeup Challenge, VKW

竞赛介绍

可自定义关键词唤醒能够利用各类解码策略的优化，快速检测出长短音视频和智能设备中的关键词（唤醒词），广泛应用在设备自定义解锁和唤醒、各类救护、火灾等事件报警、命令识别、语音内容的检索和分析等任务中。

Task1 汉语长短视频直播语音关键词（Video Keyword Wakeup Challenge）比赛旨在检验业界利用朗读数据等常规数据公司可获取的大规模数据构建任意自定义关键词检测系统的能力。提供少量可供微调的真实长短视频及直播数据，检验场景失配下自定义关键词检测系统的鲁棒性和泛化性。

赛道设置

受限赛道

只允许使用官方提供的1505小时普通话朗读数据及各50小时的长短视频、直播数据作为有监督语音训练数据，外部数据可使用开源发布的预训练模型及开源语言模型、网络爬取的文本等。可使用外部数据进行数据扩充和预训练，但不得使用外部数据的标注脚本。
非受限赛道

参赛队伍可使用可公开获取的标注数据、任意无标注数据进一步提升系统性能，但需要在最终提交系统说明里提供数据来源（如可使用http://www.openslr.org/中的开源数据并注明数据来源）。

指定数据

训练数据

1505小时普通话朗读数据
由威廉希尔提供
调参集

长视频、短视频、直播场景各50小时标注数据供微调
开发集

长视频、短视频、直播场景各5小时。用于调整参数，选择特征等系统工作点优化
测试集

长视频、短视频、直播场景各20小时。用于评价提交系统，赛后可提供原始数据、标注及关键词列表

参赛日程

1
Task1报名开启
2021.06.07
2021.08.02
训练集发布
2
3
Task1报名截止
2021.09.06
2021.09.08
测试集发布
4
5
参赛队伍提交结果
2021.09.17
2021.09.24
组委会公布评测结果
6

奖项设置

受限赛道

一等奖(1名)

奖金8,000人民币

二等奖(1名)

奖金3,000人民币

三等奖(1名)

奖金1,500人民币

非受限赛道

一等奖(1名)

奖金8,000人民币

二等奖(1名)

奖金3,000人民币

三等奖(1名)

奖金1,500人民币

注：奖金金额均为税前金额

报名方式

下载报名表，并填写相关信息，发送至报名邮箱：VKW@datatang.com

邮件主题：【VKW-队伍名称】
注：为保持比赛公平公正，比赛结果以队伍名为准，不公布具体参赛单位
报名截止

竞赛指导委员会

黄申	腾讯科技 ASR oteam
吕志强	腾讯科技 ASR oteam
张卫强	清华大学
谢磊	西北工业大学
王大亮	威廉希尔（北京）科技股份有限公司

注：排名不分先后

Task2

多语种多方言长短视频直播语音关键词

Low-resouce Video Keyword Wakeup Challenge, LVKW

竞赛介绍

我国是一个多语言、多方言的国家，在长视频、短视频和直播场景中，下沉场景时语言的当地化现象非常明显，而通用的设备关键词唤醒往往只支持汉语。如何在多语言、多汉语方言场景下，唤醒出各场景中的自定义关键词，是本任务的研究方向。本任务主要包括蒙、藏、维、哈、朝、彝、壮等少数民族语言，西南、中原等各类官话，晋语、吴语、徽语、湘语、粤语、赣语、闽南语及客家话等汉语方言。

比赛详细信息稍后发布，敬请期待......

Task3

汉语长短视频直播字幕ASR&OCR

Video ASR OCR Challenge, VAO

竞赛介绍

在长短视频、直播等视频场景中，通常会伴有已经制作好的视频字幕、人脸存在时的唇语等辅助信息。如何利用其他模态的辅助信息以提升ASR识别率，尤其是背景音乐、嘈杂噪声等低信噪比情况下，提升ASR的性能是本任务的关注点；反过来，虽然OCR比ASR识别效果更加准确，但OCR由于画面的复杂，冗余信息多（如标题、台标等），对于字幕部分的提取和识别也存在较大的困难。如何利用ASR等语音信息，指导OCR进行更好的输出，使得用户“看到”真正重要的口语内容信息，使得多模态内容文字识别率互为促进和提升，是本任务的研究方向。

比赛详细信息稍后发布，敬请期待......

反作弊声明

参与者禁止提交多次报名，经发现将取消成绩并严肃处理。
参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名，经发现将取消成绩并严肃处理。

威廉希尔

长短视频多语种多模态识别竞赛

赛事发起主办

数据支持

算力支持

联合主办

竞赛背景 Challenge background

Task1

Task2

Task3

Task1

竞赛介绍

赛道设置

受限赛道

非受限赛道

指定数据

训练数据

调参集

开发集

测试集

参赛日程

奖项设置

报名方式

竞赛指导委员会

Task2

竞赛介绍

Task3

竞赛介绍

反作弊声明

竞赛背景
Challenge background