3644 Συστήματα Ανάκτησης Πληροφοριών

Μάθημα Επιλογής, Η’ εξάμηνο, 6 μονάδες ECTS

Διδάσκων: Μέλος ΕΔΙΠ Δρ. Αντωνία Κυριακοπούλου

URL: https://eclass.aueb.gr/courses/INF248/

Περιεχόμενο

Βασικές έννοιες ανάκτησης πληροφορίας. Εισαγωγή στα ανεστραμμένα ευρετήρια. Μοντέλο ανάκτησης Boole. Ευρετηρίαση. Ιχνηλάτες, προεπεξεργασία κειμένων (αναγνώριση όρων – tokenization, αποκοπή καταλήξεων – stemming). Δομές αναζήτησης σε ανεστραμμένα ευρετήρια, τρόποι επεξεργασίας ερωτημάτων, μέθοδοι εμπλουτισμού και παραλλαγές ανεστραμμένων ευρετηρίων. Αλγόριθμοι κατασκευής ανεστραμμένων ευρετηρίων. Στατιστικά κειμένων και συμπίεση ανεστραμμένων ευρετηρίων. Σταθμισμένη ανάκτηση. Μοντέλο ανάκτησης διανυσματικού χώρου. Αξιολόγηση συστημάτων ανάκτησης. Υπολογισμός βαθμολογιών σε ένα πλήρες σύστημα ανάκτησης. Επανατροφοδότηση με βάση τη συνάφεια των ανακτηθέντων κειμένων. Λανθάνουσα σημασιολογική ευρετηρίαση. Πιθανοτικά συστήματα ανάκτησης. Γλωσσικό μοντέλο ανάκτησης. Μηχανική μάθηση στην ανάκτηση πληροφοριών. Αλγόριθμος Learning to Rank. Νέες αναπαραστάσεις λέξεων και κειμένων. Ανάκτηση με χρήση embeXings. Νέοι τρόποι αντίληψης της ομοιότητας ανάλογα με το πρόβλημα (document ranking, query auto‐completion, next query suggestion). Νευρωνικά δίκτυα σε περιβάλλον ανάκτησης πληροφοριών. Ανάκτηση από τον ιστό (αλγόριθμος PageRank), αξιοπιστία σελίδας με βάση τη θεματική κατηγορία (topic sensitive PageRank). Εφαρμογές.

Μαθησιακά Αποτελέσματα

Μετά την επιτυχή ολοκλήρωση του μαθήματος οι φοιτητές θα είναι ικανοί:

  • Να περιγράφουν το θεωρητικό υπόβαθρο των βασικών μοντέλων Ανάκτησης Πληροφοριών από συλλογές κειμένων και τον παγκόσμιο ιστό.
  • Να αντιμετωπίσουν θέματα που προκύπτουν κατά την προ-επεξεργασία, ευρετηρίαση και αναζήτηση πληροφοριών.
  • Να αναλύσουν, να συνθέσουν και να υλοποιήσουν πραγματικά προβλήματα Ανάκτησης Πληροφοριών

Προαπαιτούμενα Μαθήματα

Για να εγγραφεί στο μάθημα, ο φοιτητής πρέπει να έχει εξεταστεί επιτυχώς σε προηγούμενο εξάμηνο είτε στο μάθημα «Τεχνητή Νοημοσύνη» είτε στο μάθημα «Συστήματα Διαχείρισης και Ανάλυσης Δεδομένων». Όμως, συνιστάται στους φοιτητές επιπλέον να έχουν εξεταστεί επιτυχώς σε προηγούμενο εξάμηνο και στα μαθήματα «Δομές Δεδομένων»,  «Μαθηματικά ΙΙ», «Πιθανότητες», «Βάσεις Δεδομένων», και σε προγραμματιστικά μαθήματα.

Συνιστώμενη Βιβλιογραφία

  • C. D. Manning, P. Raghavan, H. Schütze., Εισαγωγή στην Ανάκτηση Πληροφοριών Εκδόσεις Κλειδάριθμος, 2008.
  • Ανάκτηση Πληροφορίας, Baeza-Yates Ricardo, Ribeiro-Neto Berthier, Έκδοση 2η, 2014, Εκδόσεις Τζιόλα.

Διδακτικές και Μαθησιακές Μέθοδοι

Διαλέξεις (2 διαλέξεις των 2 ωρών εβδομαδιαίως), φροντιστήρια (1 φροντιστήριο των 2 ωρών κάθε εβδομάδα), 1 ατομική ομάδα ασκήσεων στο σπίτι και 1 ατομική προγραμματιστική εργασία.

Μέθοδοι Αξιολόγησης/Βαθμολόγησης

Ο τελικός βαθμός είναι ο σταθμισμένος μέσος όρος του βαθμού της γραπτής εξέτασης (βάρος 70%) της άσκησης στο σπίτι (10%) και της προγραμματιστικής εργασίας (20%) με το περιορισμό ο βαθμός της γραπτής εξέτασης να είναι μεγαλύτερος ή ίσος του 4.