Οι επιστήμονες υγείας καλούνται στις επιδημιολογικές μελέτες να συλλέξουν τα δεδομένα όσο το δυνατόν πιο αξιόπιστα και αντικειμενικά, έτσι ώστε η στατιστική ανάλυση να οδηγήσει σε ακριβή και έγκυρα συμπεράσματα. Η λανθασμένη καταγραφή των δεδομένων που αφορούν στις περιπτώσεις μιας μελέτης, η λανθασμένη εισαγωγή των δεδομένων στις κατάλληλες ηλεκτρονικές βάσεις δεδομένων και η άγνοια της διαχείρισης των βάσεων δεδομένων μειώνουν σημαντικά την αξιοπιστία της ανάλυσης των δεδομένων, οδηγώντας σε μη έγκυρα αποτελέσματα. Πριν αρχίσει η ανάλυση των δεδομένων, είναι απαραίτητη τόσο η σωστή εισαγωγή των στοιχείων στη βάση δεδομένων που πρόκειται να χρησιμοποιηθεί για την ανάλυση όσο και η σωστή διαχείριση και η κωδικοποίηση των μεταβλητών, προκειμένου να επισημανθούν και να διορθωθούν τυχόν λάθη και παραλείψεις. Οι μεταβλητές −και κατ’ επέκταση και τα δεδομένα− ανάλογα με τα μαθηματικά τους χαρακτηριστικά διακρίνονται σε ποιοτικές και ποσοτικές, με τις πρώτες να διακρίνονται σε ονομαστικές και διατάξιμες και τις δεύτερες σε μεταβλητές διαστηματικής κλίμακας και μεταβλητές κλίμακας λόγου. Επιπλέον, οι ποσοτικές μεταβλητές διακρίνονται σε συνεχείς και ασυνεχείς. Ιδιαίτερη σημασία στην ανάλυση των επιδημιολογικών δεδομένων έχουν οι απούσες τιμές και οι απομακρυσμένες παρατηρήσεις. Απούσες τιμές καλούνται οι τιμές εκείνες στις οποίες απουσιάζουν οι παρατηρήσεις για τις διάφορες μεταβλητές. Όσο αυξάνεται το ποσοστό των απουσών τιμών σε μια ανάλυση τόσο μειώνεται η αξιοπιστία των αποτελεσμάτων της ανάλυσης. Οι απομακρυσμένες παρατηρήσεις αφορούν σε παρατηρήσεις, οι τιμές των οποίων διαφέρουν σημαντικά από τις τιμές των υπολοίπων παρατηρήσεων. Οι απομακρυσμένες παρατηρήσεις μπορεί να οφείλονται σε λανθασμένη καταγραφή των παρατηρήσεων κατά τη συλλογή των δεδομένων ή σε λανθασμένη εισαγωγή των παρατηρήσεων στη βάση δεδομένων ή να αποτελούν πραγματικές τιμές που απλά διαφέρουν σημαντικά από τις τιμές των υπολοίπων παρατηρήσεων.