Η παρούσα πτυχιακή προτείνει την αυτόματη κατηγοριοποίηση τεκμηρίων βάσει των περιλήψεών τους με τη χρήση της κατηγοριοποίησης (classification) και της συσταδοποίησης (clustering) για την άμεση ταξινόμηση στις ψηφιακές βιβλιοθήκες. Στόχος είναι η εισαγωγή μιας νέας μετρικής βαρύτητας, της DEVMAX.DF, η οποία συγκρίνεται με την ήδη υπάρχουσα μετρική TF.IDF. Τα δεδομένα λήφθηκαν από 718 περιλήψεις επιστημονικών μελετών από 9 ακαδημαϊκές ψηφιακές βιβλιοθήκες. Μετά από την επεξεργασία τους, εισήχθησαν στο πρόγραμμα WEKA για την εξαγωγή αποτελεσμάτων. Η κατηγοριοποίηση απέφερε F-score ~97%, ενώ η συσταδοποίηση λανθασμένων παραδειγμάτων έφτασε ~4,50%. Εκ των δύο μετρικών, η DEVMAX.DF απέδωσε καλύτερα από την TF.IDF.
This thesis proposes the automated categorization of documents based on abstracts using classification and clustering techniques for immediate classification on digital libraries. The research aims to introduce a new weighting metric, DEVMAX.DF, which is compared to the already existing metric TF.IDF. The data were gathered from 718 abstracts of scientific studies from 9 academic digital libraries. After processing, the data were imported to WEKA for the final results. Classification yielded an F-score ~ 97%, while clustering reached ~4.50% of incorrectly clustered instances. Of the two metrics, DEVMAX.DF performed better than TF.IDF.