Yang biasa digunakan dalam buku teks:
- ACM KDD Cup kompetisi tahunan ACM SIGKDD dengan problem dunia nyata
- UCI KDD Archive
- UCI Machine Learning Repository
- CMU StatLib Datasets Archive
- Time Series Data Library koleksi sekitar 800 time series
- EconData data time series ekonomi dari Inforum, University of Maryland
- UCR Time Series Data Archive data untuk klasifikasi dan clustering time series
- GeoDa Center koleksi data spatial
- Kumpulan datasets oleh Weka
Yang lainnya
- KDnuggets www.kdnuggets.com/datasets/
- Dari diskusi di Google group get.theinfo groups.google.com/group/get-theinfo
- Sub-Reddit www.reddit.com/r/datasets/
- Quora answer www.quora.com/Where-can-I-get-large-datasets-open-to-the-public?q=dataset
- OpenData opendata.socrata.com/ memiliki sekitar 100K dataset
- MillionSong labrosa.ee.columbia.edu/millionsong/ - dataset musik dengan metadatanya, total 260GB
- infochimps.org/datasets (sebagian gratis, sebagian berbayar)
- ckan.org [Comprehensive Knowledge Archive Network]
- del.icio.us/pskomoroch/dataset
- news.ycombinator.com/item?id=1242029
- www.reddit.com/r/opendata
- www.trustlet.org/wiki/Repositories_of_datasets
- www.quantlet.org/mdbase/
- datamob.org/
- freebase.com/
- www.archive-it.org/public/all_collections
Informasi selanjutnya:
- www.datawrangling.com/some-datasets-available-on-the-web.html
- http://www.findbestopensource.com/article-detail/free-large-data-corpus