Dataset Iris
Il dataset Iris è un dataset multivariato introdotto da Ronald Fisher nel 1936. Consiste in 150 istanze di Iris misurate da Edgar Anderson e classificate secondo tre specie: Iris setosa, Iris virginica e Iris versicolor. Le quattro variabili considerate sono la lunghezza e la larghezza del sepalo e del petalo. A causa di errori, esistono diverse versioni del dataset utilizzate nella letteratura scientifica.[1]
Il dataset Iris viene utilizzato nell'ambito dell'apprendimento automatico come esempio di classificazione statistica.[2][3]
Note
modifica- ^ (EN) Bezdek, J.C., Keller, J.M.; Krishnapuram, R.; Kuncheva, L.I.; Pal, N.R., Will the real iris data please stand up?, in IEEE Transactions on Fuzzy Systems, vol. 7, n. 3, IEEE, 1999, pp. 368-369, DOI:10.1109/91.771092, ISSN 1063-6706 .
- ^ (EN) An introduction to machine learning with scikit-learn, su scikit-learn.
- ^ (EN) Yanchang Zhao, R and Data Mining: Examples and Case Studies (PDF), 26 aprile 2013.
Bibliografia
modifica- (EN) R. A. Fisher, The use of multiple measurements in taxonomic problems, in Annual Eugenics, vol. 7, n. 2, 1936, pp. 179-188, DOI:10.1111/j.1469-1809.1936.tb02137.x.
- Edgar Anderson, The species problem in Iris, in Annals of the Missouri Botanical Garden, vol. 23, n. 3, 1936, pp. 457-509.
Collegamenti esterni
modifica- (EN) Iris Data Set, su UC Irvine Machine Learning Repository.