论文YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus(《YouTube-SL-25:一个大规模的开放领域多语言手语平行语料库》)主要研究手语数据不足的问题,特别是对于聋哑人群体所使用的各种手语。论文作者为来自Google的Garrett Tanzer和Biao Zhang。
AI时代,非但不要忽视聋哑人群体,更要多有能造福于他们的研究,以及能够为他们带来便利的工具。
论文的概要内容如下(由ChatGPT 4o总结):
1. 引言
手语是一种视觉空间语言,缺乏书面形式,这使得它在数据挖掘、过滤、预处理和建模上面临额外挑战。现有的数据集如YouTube-ASL和BOBSL仅涵盖了少数几种手语,无法满足全球多种手语的研究需求。该论文提出了YouTube-SL-25,这是一个包含超过25种手语、3000多小时视频的大规模、多语言手语语料库。
2. 数据集构建
数据挖掘:使用自动分类器从YouTube中筛选出潜在的手语视频,并通过手动审核对视频进行过滤,以确保视频内容和字幕的质量和对齐度。
手动审核:作者利用自身的手语知识,对候选视频进行初步筛选和优先级排序,重点关注视频的时长和字幕的对齐情况。这个过程通过四天的工作完成,尽管专业性不及YouTube-ASL,但在实际操作中也能识别出高质量内容。
3. 语料库统计与比较
YouTube-SL-25语料库包含了3207小时的视频内容,涉及3000多位独特的手语使用者,涵盖超过25种手语。与之前的最大平行手语数据集JWSign相比,YouTube-SL-25在数据量上具有显著优势。
4. 基准测试
论文提供了使用基于T5模型的统一多任务多语言模型进行手语到文本的翻译基准测试。结果显示,多语言迁移对高资源和低资源手语都有显著的益处。具体的基准测试包括对4种手语的翻译和语言识别任务,结果表明在多语言预训练后,无论是高资源还是低资源手语,都能获得显著的性能提升。
5. 局限性
自动标签和手动筛选:自动标签可能会漏掉一些未明确提及手语的视频,手动筛选在质量和覆盖面上也存在一定的权衡。
代表性:数据集在语言和肤色上的分布不够均衡,需要更多的工作来实现全球包容性。
数据规模:尽管YouTube-SL-25的数据量较大,但与口语翻译的数据集相比仍然较小,需要更多的数据来提高翻译质量。
模型训练:本文使用的多任务训练方法虽然有效,但在处理弱对齐数据时仍存在挑战。
6. 结论
YouTube-SL-25语料库为手语研究提供了一个坚实的基础,通过多语言迁移学习提升了手语翻译和识别的性能。该数据集的构建方法和实验结果展示了多语言预训练在低资源手语上的潜力。
总之,YouTube-SL-25通过大规模、多语言的数据集建设,为手语机器学习研究提供了重要资源,并展示了多语言迁移学习在提高翻译和识别性能方面的显著作用。未来的工作可以进一步扩展数据集的规模和多样性,以实现更高的翻译质量和全球包容性。