爱数智慧高难度对话测试集入选LDCCatalog助力语音识别

2019年12月,爱数智慧自然式对话测试数据集入选LDC Catalog,编号为LDC2019S23。LDC Catalog是经过CoreTrustSeal数据知识库认证的数据存储平台,并获得OLAC(开放数据存储联盟)五星级评定。爱数智慧此次入选的数据集由60名发音人在不同环境中录制而成,发音人来自全国多个口音区,年龄段覆盖均衡。作为测试集,该数据集可为多种对话类语音识别模型测试提供特征广泛的语音数据。

AI巨头发力多轮对话研究,对话数据集需求爆发

该数据集采用自发式风格录制,发音人根据选择的主题自由对话,充分还原生活中自然语言对话的场景。

模型鲁棒性测试。该数据集采集中,既有近场数据,又包含远场数据。将不同拾音距离的数据放入模型中,可以测试出模型在不同底噪、距离等因素干扰下的准确率,从而分析模型鲁棒性。

同一说话人音频截取的准确性。在对话过程中,既有设备录制单人说话声音,又有设备

再者,工业增长动能不断增强。付凌晖分析说,随着产业升级发展、居民消费升级,一些新产品增长势头非常强劲。比如,11月份,智能手表、3D打印设备产量增长都在1倍以上;节能环保相关产品中,充电桩产量增长在40%以上。同时,今年来一系列减税降费、促进民营经济和中小企业发展举措也在见效。

该自然式对话测试数据集可用于多种类型的语音识别模型测试,如对话识别模型、说话人分离、模型鲁棒性测试等。

国家统计局新闻发言人付凌晖当天在国务院新闻办公室发布会上表示,今年以来,中国工业增长保持总体平稳态势,一些新增长动能在积聚。11月份,中国制造业增长6.3%,比上月加快1.7个百分点。从行业看,八成行业和六成左右产品增长都在加快。

付凌晖强调,从未来发展看,工业增长仍是支撑中国经济增长的重要动力。但也要看到,中国工业生产与市场需求之间还存在结构性矛盾,尚难以完全适应消费升级发展,未来还要坚持以创新驱动为主,推动工业高质量发展。(完)

是有意义的,这些声音表明了说话人的状态、情绪,甚至会暗示说话人的心理活动。如何用机器可识别的语言说明这些声音呢?爱数智慧的标注团队制定了一套客户认可的标签体系,为出现在音频中的每一种声音找到归属。在长期的标注中,爱数智慧形成了一套完整的标注准则,让数据保持一致性。

此外,该数据集包含了多种口音的语音数据,可以帮助模型快速扩展到多个不同口音区域。

北京时间15日晚6点30分,东亚杯第二场比赛开打,中国男足选拔队0-1负于韩国队,本届东亚杯两连败,最后一轮比赛,中国队将面对中国香港队的挑战。

录制环境多样性:该数据集在三个不同混响的房间进行录制,接近真实生活场景;

发音人的多样性:该数据集由60名发音人录制而成,年龄段为4-67岁,采样均衡;发音人来自全国多个口音区,如陕西、内蒙、福建等;

对话类语音识别模型准确率测试。例如,在一个典型的家庭应用场景中,使用语音交互的家庭成员包含老人、妻子(成年女性)、丈夫(成年男性)、孩子。这些家庭成员的发音方式、发音习惯均有差异。在语音识别模型中,该数据集发音人年龄的多样性可用于测试模型对不同年龄段的识别效果。

展望未来,付凌晖表示,中国工业生产仍有非常好的基础:中国拥有联合国行业门类中所有大类行业,约两百多种产品产量世界第一,企业的产业配套能力非常强;中国拥有超大市场规模,为企业升级发展和未来增长提供了很好基础;创新驱动为工业发展注入新动力,一些新产品、新产业茁壮成长,特别是高技术产业。

同时记录对话音频。因此,为了保证说话人音频的一致性,需要将至少3份音频数据结合起来标注。这要求在不同的音频数据中,对同一说话人音频的截取要保持高度的统一。

本场比赛中国队全场控球率不到30%,射门次数只有两次,对于这样一场压倒性的惨败,0-1的比分,恐怕无法完全反映出来。对此李铁表示:“数据很难完全评价一场比赛。就像对日本的比赛,控球我们跟对手差不多,射门次数什么还高一点,但是我们输掉了比赛。韩国队在控制方面确实做得很好。我还是那句话,数据不一定能代表结果,也不能充分体现比赛里的表现。比分充分体现了两个队的差距。我还是很高兴,队员努力地去施压,去拼搏,去踢不一样的足球。很遗憾,我们团队在一起的时间还是太短了。如果有更长的时间,我相信我们的队员可以踢出不一样的足球。”(搜狐体育 裴力)返回搜狐,查看更多

爱数智慧自然式对话测试数据集入选LDC Catalog

总有一些企业走在了行业趋势的前端,因此当市场需求兴起时,那些具有前瞻性眼光的企业便能抓住机遇的风口。2019年12月,著名的语音数据存储与发布平台LDC将爱数智慧的自然式对话测试数据集纳入数据集目录,编号为LDC2019S23。公开资料显示,该目录已经过CoreTrustSeal数据知识库认证。这充分肯定了入选数据集的可信赖度,同时也表明这些数据在未来仍然有用且有意义。

赛后中国队主教练李铁表示:“首先在更衣室里,对球员努力表示感谢。一直拼到最后一分钟。所有上场的队员都尽了努力。我也理解,打了一个中超最漫长的赛季,放弃休假,来到这里,为国家而战,并不容易。为他们的精神表示感谢。一年最后关头,确实要克服很多困难,比如身体疲劳,伤病情况。”

(三)语音识别模型适配的多样性

继上一场与日本队的比赛角球丢球之后,本场比赛中国队再次被对手通过角球战术破门得分,赛后这个问题,也被抛给了主教练李铁,对此李铁表示:“很明显,我们缺少训练。在一起训练的时间实在太少了。我们准备这两场比赛合练时间很短。要把技战术要求教给他们,时间太悠闲了。虽然我们也做了一些准备。但是效果并不理想。相信只要有足够的时间,防守定位球的能力会很快提高。”

爱数智慧自然式对话测试数据集详解

录音设备多样性:录音设备包含5种不同品牌安卓手机、8种型号的苹果手机、2种型号的录音笔;

据了解,爱数智慧拥有数据量行业领先的中文自然对话数据库,并在多语种自然对话数据制作上拥有行业认可的专业度。可制作50多种语言的数据集,如中文、日语、韩语、泰语、他加禄语、马来语以及各种口音的英语等。该公司已经积累10万小时+多语种多场景的音频数据,可快速用于提高语音识别模型性能。随着AI巨头对对话数据需求的爆发式增长,我们期待爱数智慧作为对话数据制作的先行者,发挥先发优势,为提升语音识别模型性能提供有力的数据支撑。

说话人确认任务测试。标注人员按照说话人对音频进行标注,即每段音频都有对应的说话人。由于该数据集采用多种不同类型的设备录制,在模型中,可将不同设备录制的语音段用于对待测说话人的身份进行判断,从而得出模型完成说话人确认任务的准确率。

前瞻性的标签体系和标注准则。自然语言产生的语音交叠、停顿、咳嗽、拍手等声音都

AI巨头在应用层的拓展推动对话类数据集需求迎来爆发期。《2019人工智能商业化报告》指出,语音交互更贴近人类的沟通行为和习惯,随着技术突破带来的用户体验的提升,将最有可能成为人机交互的主流。对话式语音交互成为AI巨头发力的重点,谷歌、亚马逊、阿里、腾讯、百度、小米等纷纷推出了支持多轮连续对话的智能音箱、智能助理、智慧客服、智能机器人等产品。AI系统连续对话能力将引发金融、教育、科技互联网、交通出行、移动通信、科技制造等行业的交互变革。

与此同时,中国工业结构优化持续,工业发展由过去的以量扩张向质的提升转变。从主要数据情况看,高技术制造业和装备制造业保持较快增长。11月份,二者分别增长8.9%和8.5%,均明显快于规模以上工业增长。

最后一场中国队将面对中国香港队的挑战,对于国足选拔队而言,这场比赛并不会太轻松,对此李铁表示:“来之前我就说过,东亚杯赛不管面对谁,我们只有一个目标,就是全力争胜。但通过前两场比赛,我们也可以看到,对日本、对韩国,我们的整体实力上有差距。但我们不会放弃,一直会拼到最后一刻。对中国香港,我们也只有一个目标:全力争胜。”

拾音距离的多样性:数据集既包含近场数据,又包含远场数据。

说话人分离任务测试。基于特定说话人的场景化识别已经成为研究热点,美国国家标准局从2002年的丰富转写评测中正式加入了说话人分离任务,即从多人对话中自动地将语音依据说话人进行划分并加以标记。该数据集在采集中,已经设置了单人录音通道和多人录音通道。因此,可以将该数据集用于测试模型对说话人分离任务的准确率。

另一方面,朗读式数据的模型识别准确率已可达97%-98%,而从CHiME 5比赛数据来看,对话式数据的模型识别准确率基本在50%左右。这个结果表明,在语音识别领域,对话类语音识别仍然是一个挑战。语音识别技术应用需要更好、更智能的对话类语音识别模型,也需要更多的对话类数据提升模型性能。

爱数智慧科技有限公司成立于2016年,是一家专业的人工智能数据服务商,为语音识别、语音合成等领域提供专业的数据采集和标注服务。人工智能从业者常说“Garbage in, garbage out”,也就是说好的数据和好的模型一样重要。因此,我们不禁有些好奇这个数据集的魅力。爱数智慧的工作人员从数据采集、标注以及应用三方面为我们讲述了这个数据集的丰富内涵。