Fork me on GitHub

50份绝佳机器学习数据集

50份绝佳机器学习数据集

来自: mlmemoirs

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一份50个最佳机器学习公共数据集的榜单,给大家分享一下,建议收藏起来,数据不用愁啦~

寻找数据集的意义

根据CMU的说法,寻找一个好用的数据集需要注意一下几点:

  • 数据集不混乱,否则要花费大量时间来清理数据

  • 数据集不应包含太多行或列,否则会难以使用

  • 数据越干净越好,清理大型数据集可能非常耗时

  • 应该预设一个有趣的问题,而这个问题又可以用数据来回答

去哪里找数据集

  • Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。
    https://www.kaggle.com/
  • UCI机器学习库:最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
    http://mlr.cs.umass.edu/ml/
  • VisualData:分好类的计算机视觉数据集,可以搜索~
    https://www.visualdata.io/

好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。

图片

情绪分析

自然语言处理

自动驾驶

临床

  • MIMIC-III:MIT计算生理学实验室的公开数据集,标记了约40000名重症监护患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。
    https://mimic.physionet.org/

公共政府数据集

金融与经济

备注:有一些网址需要科学上网才能打开,请自行解决;本文的数据集仅供学习使用

本文标题:50份绝佳机器学习数据集

发布时间:2022年07月20日 - 23:07

原始链接:http://www.renpeter.cn/2022/07/20/50%E4%BB%BD%E7%BB%9D%E4%BD%B3%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%95%B0%E6%8D%AE%E9%9B%86.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea