Ε8. Ειδικά θέματα ψηφιακών μεθόδων στις Ανθρωπιστικές Επιστήμες – 2: Μετατροπή Κειμένου σε Γράφους Γνώσης

Διδάσκων: Βαγιανός Περτσάς

Επιλογής, Γ’ Διδακτική Περίοδος, ECTS: 3

Περιγραφή και Περιεχόμενο Μαθήματος

Το μάθημα προσφέρει μια συνολική παρουσίαση των ψηφιακών μεθόδων που χρησιμοποιούνται κατά την μοντελοποίηση και μετατροπή ελεύθερου κειμένου σε Γράφους Γνώσης.

Οι φοιτητές εξοικειώνονται με πρακτικά ζητήματα που άπτονται διαδικασιών όπως: μοντελοποίηση πληροφορίας, χρήση, αξιολόγηση και δημιουργία πληθυσμού οντολογικών μοντέλων, χρήση προγραμματιστικών διεπαφών (API) για επικοινωνία με ψηφιακά αποθετήρια, άντληση και επεξεργασία μεταδεδομένων, τεχνικές εξαγωγής πληροφορίας από ιστοσελίδες (web scraping), προεπεξεργασία και καθαρισμός δεδομένων, τεχνικές επίβλεψης εξ’ αποστάσεως (distance supervision) για γρήγορη δημιουργία επισημειώσεων (δημιουργία και χρήση λιστών ονομάτων, λεξικολογικών και συντακτικών κανόνων), διαδικασία δημιουργίας και αξιολόγησης συνόλων επισημειώσεων, χρήση και αξιολόγηση μοντέλων μηχανικής και βαθιάς μάθησης για κατηγοριοποίηση κειμένου (text classification) και αναγνώριση ονομάτων οντοτήτων (Named Entity Recognition), πρότυπα δημιουργίας τριπλετών (RDF triples) από κείμενο, οπτικοποίηση αποτελεσμάτων (visualizations).

Η προσέγγιση του μαθήματος είναι καθαρά πρακτική και γι’ αυτό τον λόγο όλες οι παραπάνω μεθοδολογίες αναλύονται στα πλαίσια χρήσης τους ως επιμέρους στάδια σε ένα ενιαίο παράδειγμα (use case), αυτό της μοντελοποίησης και μετατροπής ερευνητικών άρθρων σε Γράφους Γνώσης. Παρ’ όλ’ αυτά για λόγους πληρότητας, όπου κρίνεται χρήσιμο γίνεται σύντομη αναφορά στο θεωρητικό υπόβαθρο των μεθόδων ώστε να γίνει καλύτερα αντιληπτή η χρησιμότητά τους ως λύση στο εκάστοτε πρόβλημα.

Προαπαιτούμενα

Οι φοιτητές θα πρέπει να είναι εξοικειωμένοι με την γλώσσα προγραμματισμού Python. Στο μάθημα γίνεται εκτενής χρήση βιβλιοθηκών συναρτήσεων όπως RDFLib, BeautifulSoup, του NLP framework SpaCy για υλοποίηση και εφαρμογή των εργαλείων Μηχανικής και Βαθιάς Μάθησης και του εργαλείου Prodigy για δημιουργία συνόλων επισημειώσεων. Παρόλο που θα υπάρξουν κατάλληλες εισαγωγικές ενότητες για τα παραπάνω εργαλεία, οι φοιτητές ενθαρρύνονται (χωρίς να είναι υποχρεωτικό) να αποκτήσουν μια πρώτη εξοικείωση με αυτά, μέσα από τις αντίστοιχες ιστοσελίδες τεκμηρίωσης:

Το μάθημα εστιάζει σε τρόπους συνδυασμού και εφαρμογή στην πράξη αρκετών μεθόδων και εννοιών που αναλύονται εκτενέστερα στα μαθήματα «Υ2. Παράσταση και Οργάνωση Πληροφορίας και Γνώσης» και «Ε1. Γλωσσική Τεχνολογία», η παρακολούθηση των οποίων συνιστάται χωρίς να είναι υποχρεωτική. 

Επιδιωκόμενα Μαθησιακά Αποτελέσματα

Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση: 

  • Να σχεδιάζουν αξιολογούν και υλοποιούν σε Python οντολογικά μοντέλα πεδίου (domain ontologies).
  • Να χειρίζονται προγραμματιστικές διεπαφές (API) και να αντλούν αυτόματα δεδομένα από ψηφιακά αποθετήρια.
  • Να εξάγουν προγραμματιστικά πληροφορίες και δεδομένα από ιστοχώρους.
  • Να χειρίζονται σύνολα δεδομένων (καθαρισμός, επεξεργασία μεταδεδομένων κ.α.)
  • Να εφαρμόζουν μεθόδους εξ’ αποστάσεως επίβλεψης για γρήγορη δημιουργία συνόλων επισημειώσεων.
  • Να οργανώνουν, εφαρμόζουν και αξιολογούν διεργασίες επισημείωσης για παραγωγή συνόλων δεδομένων εκπαίδευσης / αξιολόγησης αλγορίθμων Μηχανικής Μάθησης.
  • Να χρησιμοποιούν αλγορίθμους Μηχανικής και Βαθιάς Μάθησης για εργασίες όπως κατηγοριοποίηση κειμένου και αναγνώριση ονομάτων οντοτήτων.
  • Να οπτικοποιούν τα αποτελέσματα των αλγορίθμων επεξεργασίας κειμένου για ποιοτική ανάλυση.
  • Να συνδυάζουν / ομογενοποιούν δεδομένα από διαφορετικές πηγές και να παράγουν Γράφους Γνώσης με βάση τα πρότυπα του Σημασιολογικού Ιστού.

Συνιστώμενη βιβλιογραφία προς Μελέτη

  • S. Raschka. Python Machine Learning. UK: Packt Publishing, 2019
  • D. Beckett, ed. RDF/XML Syntax Specification (Revised). W3C Recommendation. February 10,2004. www.w3.org/TR/rdf-syntax-grammar/
  •  D. Brickley and R.V. Guha, eds. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation. February 10, 2004. www.w3.org/TR/rdf-schema/
  • G. Antoniou, P. Groth, F. Harmelen, R. Hoekstra. A Semantic Web Primer. London: MIT Press, 2004
  • Pustejovsky, J., and Amber Stubbs. Natural Language Annotation for Machine Learning. Sebastopol, CA: O’Reilly Media, 2013.

Διδακτικές Μέθοδοι

Μια διάλεξη τριών ωρών εβδομαδιαίως που συμπεριλαμβάνει και εργαστηριακές ασκήσεις. Τέσσερις εργασίες/ασκήσεις μελέτης που καλύπτουν θέματα πρακτικής εφαρμογής (προς παράδοση).

Μέθοδοι Αξιολόγησης και Βαθμολόγησης

Ο τελικός βαθμός συντίθεται από το μέσο όρο των βαθμών για τις επιμέρους προς παράδοση εργασίες (80%) και του βαθμού της συμμετοχής και ανταπόκρισης κατά την παρακολούθηση του μαθήματος (20%).

Γλώσσα διδασκαλίας: Ελληνικά

Επιστροφή