E1. Επεξεργασία Φυσικής Γλώσσας
Διδάσκων: Ιωάννης Παυλόπουλος
Επιλογής, Β’ Διδακτική Περίοδος, ECTS:6
Περιεχόμενο ΜαθήματοςΒασικές γνώσεις στατιστικής. Python για την Επεξεργασία Φυσικής Γλώσσας. Διαχείριση και επεξεργασία δεδομένων (βιβλιοθήκη: pandas). Διαχείριση μεγάλων συλλογών κειμένων (βιβλιοθήκη: NLTK). Οπτικοποίηση (βιβλιοθήκη: seaborn). Επισημείωση δεδομένων και επεξεργασία επισημειωμένων δεδομένων. Γλωσσική μοντελοποίηση. Περιπλοκή. Αναπαραστάσεις χαρακτήρων, λέξεων και κειμένων (βιβλιοθήκη: gensim). Μηχανική μάθηση για κατηγοριοποίηση (βιβλιοθήκη: scikit-learn). Μηχανική μάθηση για ομαδοποίηση. Αλληλεπίδραση με μεγάλα γλωσσικά μοντέλα. Τεχνικές prompting.
Προαπαιτούμενα
Για τις προγραμματιστικές ασκήσεις του μαθήματος, απαιτείται εμπειρία προγραμματισμού σε Python. Συνιστάται οι φοιτητές να παρακολουθήσουν και το μάθημα «Στατιστική».
Επιδιωκόμενα Μαθησιακά Αποτελέσματα
Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:
- Να προτείνουν πιθανές εφαρμογές και να υλοποιήσουν βασικούς αλγορίθμους γλωσσικής τεχνολογίας
- Να χρησιμοποιήσουν γνωστές βιβλιοθήκες στην Επεξεργασία Φυσικής Γλώσσας
- Να αξιολογήσουν τα αποτελέσματα πειραμάτων αυτόματης ταξινόμησης και ομαδοποίησης.
Συνιστώμενη Βιβλιογραφία
- Speech and Language Processing, Daniel Jurafsky and James H. Martin, Pearson Education, 3rd edition, 2023, ISBN‐13: 978‐0135041963.
- Natural Language Processing with Python, Steven Bird, Ewan Klein, and Edward Loper, 1st edition, 2001, ISBN-13: 978-0596516499.
Διδακτικές και Μαθησιακές Μέθοδοι
Μια διάλεξη τριών ωρών εβδομαδιαίως, ασκήσεις μελέτης και προγραμματισμού στο σπίτι (ορισμένες προς παράδοση).
Μέθοδοι Αξιολόγησης και Βαθμολόγησης
Ο τελικός βαθμός είναι το άθροισμα των βαθμών των εργασιών, μετά από προφορική (60%) και γραπτή αξιολόγηση (40%).