中央气象台,68款大规模机器学习数据集,包括CV、语音、NLP | 十年资源集,痒

中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒

作者 | 琥珀

此前营长为咱们共享过不少机器学习相关数据集的资源,例如;;,乃至还有谷歌团队推出的 ……

关于日常从事模型练习的研究人员来讲,无论是图画处理仍是瓜子二手车直卖网官网语音辨认,都离不开一些高质量的数据集,经过它们以改进模型的功用。

近来,reddit 论坛上,一位网友发帖共享了datasetlist.com 的网站链接,得到了不少同行们的点赞。据了解上面调集了从 2009 年 ImageNet 发布以来共马六甲海峡计 68 项机器学习目送相关的大规模数据集,包含核算机视觉(46 项)、自然言语处理(18 项)、语音(4 项)三大类别,协助用户快速找到相应的数据集。由此,咱们还能够看到自 2015 年以来,大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进。

这套数据集查找列表的呈现,也满意了不少强迫症患者关于挑选 / 收拾数据集的主意。不过,也正如这位网友所言:这个数据集列表的方法将有待完善和丰厚,规划这个网页的意图也是期望接下来不断更新新的数据集,一起,用户也能够经过邮箱、Twitter、Facebook 中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒等方法订阅以获取最新内容。

中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒
张翔玲

下面自学考试科目,让营长介绍下该数据集列表的主要内容:

语音辨认:

2019 年 3 月 1 日,由 Mozilla 基金会建议的 Common Voice 项目,发布新版语音辨认数据集,包含来自 42000 名贡献者,超越 1400 小时的语音样本数据,包含包含英语、法语、德语、荷兰语、汉语在内的 18 种言语。

地址:htt·ps://voice.mozilla.org/zh-CN

核算机视觉

IBM 推出的“人脸多样性”(Diversity in Faces Data天天悦耳set,DiF)是一个巨大而多样化的数据集,与曾经的数据集比较,DiF 数据集供给了更均衡的散布和更广泛的面部图画覆盖率。DiFferences 供给了 100 万注释的数据集人类面部图画。

地址:卡加加

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/

英伟达推中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒出的 Flicker 人脸高清数据集(FFHQ)由 70,00055125 个高质量的 PNG 格局图画组成,分辨率为 1024*1024。这些图片在年纪、种族和图画布景方面有很强的多样性,而且还有如眼镜、太阳镜、帽子等元素。

地址:

https://github.com/NVlabs/ffhq-dataset

Open Images 是一个包含约 900 万个 URL 的数据集,由谷歌在 2018 年 4 月 30 日敞开,它包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒。

地址:

https://storage.googleapis.com/openimages/web/index.html

Tencent ML- Images 是最大的开源好莱污多标签图画数据集,包含 17,609,752 个练习和 88,739 个验证中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒图画 URL,最多可注释 11,166 个类别。

地梅八叉址:

https://github.com/Tencent/tencent-ml-images

Youtube-8M 2018 是一个大型符号视频数据集,由 60洛阳纸贵0 万个 YouTube 视频 ID 组成,现在具一升等于多少立方米有 4700 多个视觉实体标签,一起它还装备了数十亿帧和音频片段的预先核算的视听功用。

地址:

https安卓游戏://research.google.com/youtube8m/index.html

Fashion-MNIST 由德国研究机构 Zalando Research 发布,包含 60000 个样本,测验集包中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒含 10000 个样本,分为 10 类,每一个都是 2828 中央气象台,68款大规模机器学习数据集,包含CV、语音、NLP | 十年资源集,痒的灰度图。

地址:

https://github.com/zalandoresearch调教美少年/fashion-mnist

当然,此外还有 MegaFace、ImageNet 等十分经典的数据编头发集,以下营长就不一一列举了。

自然言语处理

SQuAD

斯坦福问答数据集(SQuAD)是一个全新的阅览了解数据集,由工作人员根据一系列维基百科文章中的发问和答案组成,其间每个问题的答案是来自相应阅览阶段的一段文本片段或区间。其间包含超越 500 篇文章中超越 100,000 个问答配对,使得 SQuAD 明显大于曾经的阅览了解数据集。SQuAD2.0 结合了 SQuAD1.1 中的 100,000 个问题。

地址:

https://rajpurkar.github.io/SQuAD-explorer/

此外还有风起苍岚漫画:

(本文为 AI科技大本营原创文章,转载请微不积跬步无以致千里信联络 1092722531)

核算机 视频 科技
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐乐清仅供给信息存储空间效劳。
演示站
上一篇:中央一台,身世清华,大神朱俊彦再出GauGAN:AI让你变身神笔马良,保定天气预报
下一篇:杏鲍菇怎么做好吃,渡鸦创始人离任百度后的下一个“本相”,茶油