ATHANASSIOS
Αθανάσιος Χατζής
Αγαπητοί αδελφοί-συνάδελφοι
όπως έλεγε κάποτε και ο Sir Tim Berners Lee, εφευρέτης του διαδικτύου, θα απογειωθούμε στα 50000μ για να κάνουμε κάποιες επισημάνσεις. Δέστε τις ζώνες σας, φύγαμε.....
ΔΙΑΚΡΙΣΗ
Πριν προχωρήσω στην ανάλυση θα ήθελα να ξεκαθαρίσω ότι υπάρχουν δύο βασικά θέματα στην οργάνωση του ψηφιακού υλικού
Εδώ θα ασχοληθούμε κυρίως με το δεύτερο και θα το περιγράψουμε ως μοντέλο οργάνωσης και διαχείρισης των δεδομένων. Νομίζω ότι οι επισημάνσεις που έγιναν έως τώρα δεν είχαν πλαίσιο αναφοράς και σύνδεσης με τον τομέα της πληροφορικής.
ΕΙΣΑΓΩΓΗ
Ορισμένοι θα γνωρίζουν την προσπάθεια να δώσω μια πιο επιστημονική μορφή ανοίγοντας τον Ιούνιο το θέμα ("Μητρώο Δεδομένων Εκκλησιαστικής Βυζαντινής Μουσικής"). Εκεί θα βρείτε ορισμένους από τους συνδέσμους που επισκέφτηκα για το ποια θεωρώ ότι είναι η κατάσταση σήμερα στην αρχειοθέτηση ψηφιακών δεδομένων στις ηλεκτρονικές πια βιβλιοθήκες (βάσεις δεδομένων). Αυτά δεν είναι θεωρία είναι το πως λειτουργούν σήμερα σύγχρονες ψηφιακές βιβλιοθήκες συμπεριλαμβανομένων και των πολυμέσων βασισμένες σε πρότυπα διαλειτουργικότητας.
ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Αλλά αυτά για τις βιβλιοθήκες το δικό μας πρόβλημα είναι πιο σύνθετο, ας δώσω ορισμένες βασικές παραμέτρους για να γίνω κατανοητός και ας ξεκινήσω από τις ψηφιακές βιβλιοθήκες που αναφέρθηκα παραπάνω:
Είναι προφανές ότι καθένας θα ενδιαφέρεται να κρατήσει την συλλογή του, αλλά παράλληλα να έχει την δυνατότητα να την εμπλουτίσει με καινούργιο υλικό, να έχει την δυνατότητα να ανταλλάξει και να μοιραστεί δεδομένα με τους άλλους και κυρίως να την εκσυγχρονίσει στον τρόπο αναζήτησης, καταχώρησης, και διαχείρισης. Πως θα γίνει αυτό ;
Είναι ευνόητο για όσους καταλαβαίνουν ότι το (1) έρχεται σε σύγκρουση με το (2) γιατί το (1) βασίζεται σε μοντέλο κεντρικής διαχείρισης και το (2) σε μοντέλο peer-to-peer .
Η ΠΑΡΟΥΣΑ ΚΑΤΑΣΤΑΣΗ
Φυσικά θα ήταν αδιανόητο να πιστέψει κανείς ότι δεν έχουν ασχοληθεί με τέτοια θέματα εταιρείες κολοσσοί και κάθε είδους ερευνητές. Το θέμα απασχολεί κυρίως τις μεγάλες εταιρείες που θέλουν να διαχειριστούν έξυπνα και αποτελεσματικά τα resources τους. Όμως έχουν εμφανιστεί και λύσεις λογισμικού που καλύπτουν και τις προσωπικές ανάγκες του καθένα στη διαχείριση ψηφιακών δεδομένων. Αυτές όλες οι λύσεις πέφτουν σε ένα ή περισσότερους τομείς της πληροφορικής (information science - informatics) και μπορούν να θεωρηθούν παρακλάδια του τομέα Information Management:
Content Management System
Data Management
Document Management System
Domain Knowledge
Enterprise Content Management
Knowledge Management
Personal Information Management
Και τώρα ας πάμε στο πως διασυνδέονται το (1) με το (2). Ας ξεκινήσω με το (2)
2α) Directory Structure
Ουσιαστικά αυτό που κάνει κάποιος όταν ταξινομεί με βάση αυτό το σύστημα αρχειοθέτησης είναι να δίνει έμμεσα knowledge tags (ας πούμε ότι κολλάει ετικέτες) βάση των οποίων κάνει πιο εύκολη την αναζήτηση (λέξεις κλειδιά) και εύρεση των αρχείων. Τις άλλες πληροφορίες για την περιγραφή του αρχείου τις βάζει είτε στο όνομα, είτε εντός του αρχείου.
2β) Document Management System (DMS)
Εδώ συνήθως πρόκειται για βάση δεδομένων, συνήθως σχεσιακή (RDBMS), η οποία διαχειρίζεται τις πληροφορίες σχετικά με το κάθε αρχείο, καθώς και μπορεί και να συνδέει τα αρχεία είτε με συνδέσμους στη θέση την οποία βρίσκονται, είτε και με μορφή blobs - data streams (όλα τα αρχεία γίνονται copy μέσα στη βάση). H σχεσιακή βάση του Νίκου του Δεσπότη και άλλων που έχουν βάλει στο internet κάνει αυτό που σας περιέγραψα. Όπως έχετε καταλάβει στην περίπτωση (2α) και (2β) το πρόβλημα είναι τι μοντέλο χρησιμοποιεί κανείς για τις σχεσιακές βάσεις για να περιγράψει τα δεδομένα καθώς και τι ονομασίες δίνει στα knowledge tags και στα αρχεία.
Για να συμφωνήσουν λοιπόν όλοι στις ονομασίες και στα μοντέλα χρησιμοποίησαν τα λεγόμενα ανοιχτά πρότυπα, τέτοια υπάρχουν πολλά και είναι του τύπου που σας περιέγραψα σε άλλο μήνυμα. Αυτά μπορούν να οδηγήσουν σε κεντρικά συστήματα αρχειοθέτησης, όμως το πρόβλημα παραμένει μιας και ο καθένας θα πρέπει να κάθεται να μετατρέψει όλα του τα δεδομένα σε αυτή τη μορφή για να μπορέσει να τα συσχετίσει με την κεντρική βάση και να ανταλλάξει δεδομένα. Φυσικά δεν λύνει επίσης το πρόβλημα της κεντρικής διαχείρισης. Σε αυτήν την κατεύθυνση κινούνται οι βάσεις δεδομένων που διαχειρίζονται τα δεδομένα σε XML μορφή.
Η ΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΘΕΩΡΗΤΙΚΑ
Σε μεγάλο μέρος έχει δοθεί από τον δημιουργό του WWW, Tim Berners Lee, και από άλλους ερευνητές του W3C του συντονιστικού οργάνου που οργανώνει την έρευνα και την διαχείριση του παγκόσμιου ιστού και ακούει στο όνομα semantic web. Πως βρίσκει αυτό λοιπόν εφαρμογή στα δικά μας; Πριν ξεκινήσω την σύντομη περιγραφή, να πω ότι η προσπάθεια των «Διαλόγων της Συμβολής» με τις υπερσυνδέσεις (Hyperlinks) στο μήνυμα του Νεοκλή είναι σε αυτή την κατεύθυνση.
Το κλειδί στην λύση είναι να μπορεί κάποιος να συσχετίσει δομημένα δεδομένα με συγκεκριμένο τρόπο από διαφορετικές πηγές (κατανεμημένα) και να βασίζεται σε ανοιχτό πρότυπο. Αν όλοι εκθέτουν, μοιράζουν και συνδέουν τα δεδομένα τους με τον ίδιο τρόπο τότε θα υπάρχουν διασυνδέσεις για να μπορεί να ψάξει και να βρει κάποιος την πληροφορία σε οποιοδήποτε μέρος υπάρχει αυτή διαθέσιμη στο διαδίκτυο. Αυτό υλοποιεί το W3C και ονομάζεται linked data. Για να δημοσιεύσει και να συνδέσει κάποιος δεδομένα με αυτόν τον τρόπο θα πρέπει να ακολουθήσει συγκεκριμένα πρότυπα του W3C. Φυσικά όπως υπάρχει η SQL γλώσσα στις σχεσιακές βάσεις δεδομένων για αναζήτηση, έτσι και σε αυτές τις κατανεμημένες βάσεις δεδομένων υπάρχει η (SPARQL).
Το δεύτερο βασικό στοιχείο του semantic web είναι το ontology. Αυτό είναι πρακτικά ένα γράφημα με κόμβους και τις διασυνδέσεις θα μπορούσε να είναι απλά και ένα δέντρο ιεραρχικά ταξινομημένο αυτό όμως δίνει περισσότερες δυνατότητες και ευελιξία. Όπως μπορείτε να φανταστείτε σε κάθε τομέα και για κάθε περίπτωση κάποιος φτιάχνει ένα τέτοιο ontology. Για εμάς μιλάμε πιο γενικά για Music ontology και ειδικότερα για Byzantine Music Ontology. Αυτό αγαπητοί συνάδελφοι είναι από τα πρώτα που πρέπει να φτιαχτεί και ευχαρίστως να βοηθήσω δεν νομίζω ότι έχει κάνει κανείς τέτοιο εγχείρημα.
Στο "Byzantine Music Ontology" λοιπόν, το Google βγάζει ότι δεν βρέθηκαν αποτελέσματα, χρειάζεται να συνδεθούν τα ψηφιακά δεδομένα με τον τρόπο του "linked data".
ΕΠΙΛΟΓΟΣ
Γνωρίζω ότι σας είχα προτείνει να ξεκινήσουμε με μια σχεσιακή βάση δεδομένων, και αυτό καλό είναι για ξεκίνημα, αλλά μελετώντας περισσότερο το semantic web συνειδητοποιώ ότι σίγουρα ο δρόμος για την οργάνωση των δεδομένων θα περάσει από εκεί. Σήμερα είμαστε ακόμα κολλημένοι σε αρχεία και φακέλους και μηχανές αναζήτησης βασισμένες σε σχεσιακές βάσεις δεδομένων. Το semantic web έχει 10 χρόνια που εκκολάπτει αυτά που σας περιέγραψα και νομίζω ότι όλο και περισσότεροι κατανοούν ότι αυτό είναι το μέλλον του internet. Παλιά μιλούσαμε για ανοιχτό λογισμικό, σήμερα μιλάμε και για ανοιχτά δεδομένα και είναι η προτροπή του Tim Berners Lee και πολλών άλλων για να διακινούνται ελεύθερα τα δεδομένα στο διαδίκτυο. Ίσως έτσι έχουμε περισσότερες πιθανότητες για να γίνουμε μια καλύτερη, ευνομούμενη κοινωνία. Θα συνεχίσω τις ανακοινώσεις σε αυτό το θέμα όταν έχω περισσότερα να σας περιγράψω σχετικά με την υλοποίηση.
Σας ευχαριστώ για την προσοχή και το ενδιαφέρον σας
Αθανάσιος Ι. Χατζής, PhD
BSc Computer Science,
MSc Artificial Intelligence,
PhD Speech Technology (Neural Networks & Pattern Recognition)
http://healis.eu
http://athanassios.gr
όπως έλεγε κάποτε και ο Sir Tim Berners Lee, εφευρέτης του διαδικτύου, θα απογειωθούμε στα 50000μ για να κάνουμε κάποιες επισημάνσεις. Δέστε τις ζώνες σας, φύγαμε.....
ΔΙΑΚΡΙΣΗ
Πριν προχωρήσω στην ανάλυση θα ήθελα να ξεκαθαρίσω ότι υπάρχουν δύο βασικά θέματα στην οργάνωση του ψηφιακού υλικού
- Περιγραφή του περιεχομένου (content) - αναφέρθηκαν εκτενώς πολλά μέλη
- Γνωστική αναπαράσταση και εξαγωγή των δεδομένων (Knowledge Representation and Inference)
Εδώ θα ασχοληθούμε κυρίως με το δεύτερο και θα το περιγράψουμε ως μοντέλο οργάνωσης και διαχείρισης των δεδομένων. Νομίζω ότι οι επισημάνσεις που έγιναν έως τώρα δεν είχαν πλαίσιο αναφοράς και σύνδεσης με τον τομέα της πληροφορικής.
ΕΙΣΑΓΩΓΗ
Ορισμένοι θα γνωρίζουν την προσπάθεια να δώσω μια πιο επιστημονική μορφή ανοίγοντας τον Ιούνιο το θέμα ("Μητρώο Δεδομένων Εκκλησιαστικής Βυζαντινής Μουσικής"). Εκεί θα βρείτε ορισμένους από τους συνδέσμους που επισκέφτηκα για το ποια θεωρώ ότι είναι η κατάσταση σήμερα στην αρχειοθέτηση ψηφιακών δεδομένων στις ηλεκτρονικές πια βιβλιοθήκες (βάσεις δεδομένων). Αυτά δεν είναι θεωρία είναι το πως λειτουργούν σήμερα σύγχρονες ψηφιακές βιβλιοθήκες συμπεριλαμβανομένων και των πολυμέσων βασισμένες σε πρότυπα διαλειτουργικότητας.
ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Αλλά αυτά για τις βιβλιοθήκες το δικό μας πρόβλημα είναι πιο σύνθετο, ας δώσω ορισμένες βασικές παραμέτρους για να γίνω κατανοητός και ας ξεκινήσω από τις ψηφιακές βιβλιοθήκες που αναφέρθηκα παραπάνω:
- Συζητάμε για την οργάνωση υλικού στο Αναλόγιο ή γενικότερα σε μια κεντρική βάση-βιβλιοθήκη Βυζαντινής Μουσικής (ψηφιακών δεδομένων)
- Η δεύτερη βασική παράμετρος είναι ότι υπάρχουν ήδη ψηφιακές βάσεις δεδομένων και μάλιστα πολυμέσων
- Υπάρχουν στο Internet ψηφιακές βιβλιοθήκες-βάσεις δεδομένων με θέμα την Βυζαντινή Μουσική (αρχεία ήχου, video, βιβλία, δημοσιεύσεις, εικόνες,κλπ)
- Είναι σίγουρο ότι πολλοί χρήστες στο αναλόγιο διαθέτουν από Gigabytes μέχρι Terabytes ψηφιακού υλικού πάνω στη Βυζαντινή Μουσική στους σκληρούς δίσκους στο σπίτι τους. Κάθε ένας από εμάς έχει οργανώσει το ψηφιακό του αρχείο με κάποιο τρόπο. Ο πλέον απλός και γρήγορος είναι η ιεραρχική δόμηση σε φακέλους, υποφακέλους και ονόματα αρχείων.
Είναι προφανές ότι καθένας θα ενδιαφέρεται να κρατήσει την συλλογή του, αλλά παράλληλα να έχει την δυνατότητα να την εμπλουτίσει με καινούργιο υλικό, να έχει την δυνατότητα να ανταλλάξει και να μοιραστεί δεδομένα με τους άλλους και κυρίως να την εκσυγχρονίσει στον τρόπο αναζήτησης, καταχώρησης, και διαχείρισης. Πως θα γίνει αυτό ;
Είναι ευνόητο για όσους καταλαβαίνουν ότι το (1) έρχεται σε σύγκρουση με το (2) γιατί το (1) βασίζεται σε μοντέλο κεντρικής διαχείρισης και το (2) σε μοντέλο peer-to-peer .
Η ΠΑΡΟΥΣΑ ΚΑΤΑΣΤΑΣΗ
Φυσικά θα ήταν αδιανόητο να πιστέψει κανείς ότι δεν έχουν ασχοληθεί με τέτοια θέματα εταιρείες κολοσσοί και κάθε είδους ερευνητές. Το θέμα απασχολεί κυρίως τις μεγάλες εταιρείες που θέλουν να διαχειριστούν έξυπνα και αποτελεσματικά τα resources τους. Όμως έχουν εμφανιστεί και λύσεις λογισμικού που καλύπτουν και τις προσωπικές ανάγκες του καθένα στη διαχείριση ψηφιακών δεδομένων. Αυτές όλες οι λύσεις πέφτουν σε ένα ή περισσότερους τομείς της πληροφορικής (information science - informatics) και μπορούν να θεωρηθούν παρακλάδια του τομέα Information Management:
Content Management System
Data Management
Document Management System
Domain Knowledge
Enterprise Content Management
Knowledge Management
Personal Information Management
Και τώρα ας πάμε στο πως διασυνδέονται το (1) με το (2). Ας ξεκινήσω με το (2)
2α) Directory Structure
Ουσιαστικά αυτό που κάνει κάποιος όταν ταξινομεί με βάση αυτό το σύστημα αρχειοθέτησης είναι να δίνει έμμεσα knowledge tags (ας πούμε ότι κολλάει ετικέτες) βάση των οποίων κάνει πιο εύκολη την αναζήτηση (λέξεις κλειδιά) και εύρεση των αρχείων. Τις άλλες πληροφορίες για την περιγραφή του αρχείου τις βάζει είτε στο όνομα, είτε εντός του αρχείου.
2β) Document Management System (DMS)
Εδώ συνήθως πρόκειται για βάση δεδομένων, συνήθως σχεσιακή (RDBMS), η οποία διαχειρίζεται τις πληροφορίες σχετικά με το κάθε αρχείο, καθώς και μπορεί και να συνδέει τα αρχεία είτε με συνδέσμους στη θέση την οποία βρίσκονται, είτε και με μορφή blobs - data streams (όλα τα αρχεία γίνονται copy μέσα στη βάση). H σχεσιακή βάση του Νίκου του Δεσπότη και άλλων που έχουν βάλει στο internet κάνει αυτό που σας περιέγραψα. Όπως έχετε καταλάβει στην περίπτωση (2α) και (2β) το πρόβλημα είναι τι μοντέλο χρησιμοποιεί κανείς για τις σχεσιακές βάσεις για να περιγράψει τα δεδομένα καθώς και τι ονομασίες δίνει στα knowledge tags και στα αρχεία.
Για να συμφωνήσουν λοιπόν όλοι στις ονομασίες και στα μοντέλα χρησιμοποίησαν τα λεγόμενα ανοιχτά πρότυπα, τέτοια υπάρχουν πολλά και είναι του τύπου που σας περιέγραψα σε άλλο μήνυμα. Αυτά μπορούν να οδηγήσουν σε κεντρικά συστήματα αρχειοθέτησης, όμως το πρόβλημα παραμένει μιας και ο καθένας θα πρέπει να κάθεται να μετατρέψει όλα του τα δεδομένα σε αυτή τη μορφή για να μπορέσει να τα συσχετίσει με την κεντρική βάση και να ανταλλάξει δεδομένα. Φυσικά δεν λύνει επίσης το πρόβλημα της κεντρικής διαχείρισης. Σε αυτήν την κατεύθυνση κινούνται οι βάσεις δεδομένων που διαχειρίζονται τα δεδομένα σε XML μορφή.
Η ΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΘΕΩΡΗΤΙΚΑ
Σε μεγάλο μέρος έχει δοθεί από τον δημιουργό του WWW, Tim Berners Lee, και από άλλους ερευνητές του W3C του συντονιστικού οργάνου που οργανώνει την έρευνα και την διαχείριση του παγκόσμιου ιστού και ακούει στο όνομα semantic web. Πως βρίσκει αυτό λοιπόν εφαρμογή στα δικά μας; Πριν ξεκινήσω την σύντομη περιγραφή, να πω ότι η προσπάθεια των «Διαλόγων της Συμβολής» με τις υπερσυνδέσεις (Hyperlinks) στο μήνυμα του Νεοκλή είναι σε αυτή την κατεύθυνση.
Το κλειδί στην λύση είναι να μπορεί κάποιος να συσχετίσει δομημένα δεδομένα με συγκεκριμένο τρόπο από διαφορετικές πηγές (κατανεμημένα) και να βασίζεται σε ανοιχτό πρότυπο. Αν όλοι εκθέτουν, μοιράζουν και συνδέουν τα δεδομένα τους με τον ίδιο τρόπο τότε θα υπάρχουν διασυνδέσεις για να μπορεί να ψάξει και να βρει κάποιος την πληροφορία σε οποιοδήποτε μέρος υπάρχει αυτή διαθέσιμη στο διαδίκτυο. Αυτό υλοποιεί το W3C και ονομάζεται linked data. Για να δημοσιεύσει και να συνδέσει κάποιος δεδομένα με αυτόν τον τρόπο θα πρέπει να ακολουθήσει συγκεκριμένα πρότυπα του W3C. Φυσικά όπως υπάρχει η SQL γλώσσα στις σχεσιακές βάσεις δεδομένων για αναζήτηση, έτσι και σε αυτές τις κατανεμημένες βάσεις δεδομένων υπάρχει η (SPARQL).
Το δεύτερο βασικό στοιχείο του semantic web είναι το ontology. Αυτό είναι πρακτικά ένα γράφημα με κόμβους και τις διασυνδέσεις θα μπορούσε να είναι απλά και ένα δέντρο ιεραρχικά ταξινομημένο αυτό όμως δίνει περισσότερες δυνατότητες και ευελιξία. Όπως μπορείτε να φανταστείτε σε κάθε τομέα και για κάθε περίπτωση κάποιος φτιάχνει ένα τέτοιο ontology. Για εμάς μιλάμε πιο γενικά για Music ontology και ειδικότερα για Byzantine Music Ontology. Αυτό αγαπητοί συνάδελφοι είναι από τα πρώτα που πρέπει να φτιαχτεί και ευχαρίστως να βοηθήσω δεν νομίζω ότι έχει κάνει κανείς τέτοιο εγχείρημα.
Στο "Byzantine Music Ontology" λοιπόν, το Google βγάζει ότι δεν βρέθηκαν αποτελέσματα, χρειάζεται να συνδεθούν τα ψηφιακά δεδομένα με τον τρόπο του "linked data".
ΕΠΙΛΟΓΟΣ
Γνωρίζω ότι σας είχα προτείνει να ξεκινήσουμε με μια σχεσιακή βάση δεδομένων, και αυτό καλό είναι για ξεκίνημα, αλλά μελετώντας περισσότερο το semantic web συνειδητοποιώ ότι σίγουρα ο δρόμος για την οργάνωση των δεδομένων θα περάσει από εκεί. Σήμερα είμαστε ακόμα κολλημένοι σε αρχεία και φακέλους και μηχανές αναζήτησης βασισμένες σε σχεσιακές βάσεις δεδομένων. Το semantic web έχει 10 χρόνια που εκκολάπτει αυτά που σας περιέγραψα και νομίζω ότι όλο και περισσότεροι κατανοούν ότι αυτό είναι το μέλλον του internet. Παλιά μιλούσαμε για ανοιχτό λογισμικό, σήμερα μιλάμε και για ανοιχτά δεδομένα και είναι η προτροπή του Tim Berners Lee και πολλών άλλων για να διακινούνται ελεύθερα τα δεδομένα στο διαδίκτυο. Ίσως έτσι έχουμε περισσότερες πιθανότητες για να γίνουμε μια καλύτερη, ευνομούμενη κοινωνία. Θα συνεχίσω τις ανακοινώσεις σε αυτό το θέμα όταν έχω περισσότερα να σας περιγράψω σχετικά με την υλοποίηση.
Σας ευχαριστώ για την προσοχή και το ενδιαφέρον σας
Αθανάσιος Ι. Χατζής, PhD
BSc Computer Science,
MSc Artificial Intelligence,
PhD Speech Technology (Neural Networks & Pattern Recognition)
http://healis.eu
http://athanassios.gr