[Ερώτηση] OCR πρόγραμμα για βυζαντινή μουσική

Pappous43

Παλαιό Μέλος
Πρώτη, δοκιμαστική, ἔκδοσις μετατροπῆς OCR είς Πανδουρίς.

Ἀνέβασα τώρα τήν δοκιμαστικήν ἔκδοσιν https://bzquality.wordpress.com/ocr/
τοῦ προγράμματος μετατροπῆς ἀρχείων .code (OCR)
εἰς ἀρχεῖα .pan (Pandouris 1.1.1)
καί βεβαίως ἐκεῖθεν μετατροπή εἰς ἀρχεῖα παραλλαγῆς (BZQ).

Σκοπός εἶναι ὁ πειραματισμός ἡ εὕρεσις κάποιων λαθῶν κ.ο.κ.

Παρακαλῶ σημειώσατε τούς περιορισμούς τῆς παρούσης πρώτης ἐκδόσεως:

Ἐκτελεῖται ἀπό τήν τελευταίαν ἔκδοσιν 6.5 τοῦ BZQ
(Μενού δίπλα στήν βοήθειαν)

Ἀπαιτεῖται ἁπλῆ ἐπικόλλησις (ὄχι ἐγκατάστασις) τοῦ φακέλλου Πανδουρίς 1.1.1
εἰς τόν φάκελλον C:\My Documents
δηλαδή τό πρόγραμμα Πανδουρίς νά ἔχῃ τήν διεύθυνσιν
C:\My Documents\Pandouris1_1_1\Support\Pandouris1_1_1.exe

Τά ὀνόματα τῶν ἀρχείων .code δέν πρέπει νά περιέχουν κενά διαστήματα.

Ἡ μετάφρασις τῶν βυζαντινῶν μουσικῶν συμβόλων δέν εἶναι ἀκόμη
100% πλήρης. Ὅμως παρέχεται ἡ δυνατότης νά κάμετε διορθώσεις
ἀπό τό πρόγραμμα Πανδουρίς.

Πρός διευκόλυνσίν σας πολλαί παραλείψεις καί λάθη
σημειοῦνται μέ ἕνα εἰκονίδιον (icon) σελίδος (σημαίνει: κάποια σελίδα ἤ ἀρχεῖο ἔχει τό λάθος)
εἰς τήν θέσιν τοῦ λάθους ἤ παραλείψεως π.χ.
PANfromOCR error.jpg
Τό λάθος εἶναι
ἤ εἰς τήν σκαναρισμένη σελίδα,
ἤ εἰς τό ἀρχεῖον .code (OCR),
ἤ είς τήν μετάφρασιν ἀπό .code εἰς .pan.

Καλόν εἶναι νά μάθετε νά καταλαβαίνετε τόν κώδικα .code (OCR)
καί νά ἀποκτήσητε εὐχέρειαν μέ τό Pandouris.

Εἰς περίπτωσιν σοβαροῦ προβλήματος θά πρέπει νά μοῦ στείλετε
1) εἰκόνα τῆς σελίδος τοῦ βιβλίου Β.Μ. ἤ προσεκτικοῦ χειρογράφου
2) τό ἀρχεῖον .code
3) τό ἀρχεῖον .pan

Υ.Γ.
Ἔχει ἀναρτηθῆ καί ἡ τελευταία ἔκδοσις 2.7 του πακέτου
Python - Gamera - Psaltiki Toolkit
 
Last edited:

Pappous43

Παλαιό Μέλος
Ἔκαμα δοκιμάς μέ 1100(!) σκαναρισμένας σελίδας Β.Μ. (300dpi) τοῦ κ. ΓΚΜ
είς μίαν παρτίδαν (batch).
Μέσος χρόνος ἀναγνωρίσεως μέ 2.80GHz Processor ἦτο περίπου 9 δλ ἀνά σελίδα. Δηλαδή συνολικός χρόνος κάτω τῶν 3 ὡρῶν.

Εἰς τήν πρώτην προσπάθειαν, ἐκ τῶν 1100 σελίδων, μία σελίς εἶχε πρόβλημα,
τό batch "ἐκόλλησε",
ἡ Physical Memory ἀνέβαινε συνεχῶς καί μετά 10 λεπτά ἦτο 50%.
Διέκοψα τήν διαδικασία (ἔκλεισα τό μαῦρο παράθυρον Command Prompt,
καί εὑρῆκα εἰς ποίαν σελίδαν ἐσταμάτησε:
Μία σκαναρισμένη σελίς εἶχε κηλίδες κτλ, ἐκαθάρισα τήν σελίδα
καί ἐπανέλαβα τήν διαδικασίαν batch ἄνευ προβλήματος.
Κατωτέρω φαίνεται ἡ προβληματική (ἀριστερά)
καί ἡ καθαρισμένη (δεξιά).

OCR noise problem.png


.
 
Last edited:

Pappous43

Παλαιό Μέλος
Ἀνηρτήθη ἡ νέα ἔκδοσις 6.6 τοῦ BZQ μετά βελτιώσεων τοῦ OCR, π.χ.:

1) Ὁ χρήστης ἐπιλέγει τήν διεύθυνσιν & ἔκδοσιν τοῦ Πανδουρίς
2) Προεγκαταστημένα ἀρχεῖα .XML (Training) καί παραδείγματα (εὐγενής προσφορά ΓΚΜ, τόν εύχαριστῶ)
3) Στατιστικά στοιχεῖα μετατροπῶν (λάθη κτλ) είς ἀρχεῖον OcrLog.txt.
4) Δοκιμή μετατροπῆς μιᾶς σελίδος τῇ χρήσει ὅλων τῶν ἀρχείων .XML, πρός ἐπιλογήν καλυτέρου .XML κατά περίπτωσιν.
5) Μετατροπή ὁσωνδήποτε σελίδων B.M. αὐτομάτως είς ἀρχεῖα .pan τά ὁποῖα θά ὑπάρχουν είς τόν φάκελον C:\OCRbatch.
Ταχύτης μετατροπῆς, ἀπό είκόνα ἕως ἀρχεῖον .pan, περίπου 360 σελίδες τήν ὥραν (2.8 GHz ἐπεξεργαστής).
6) Αύτόματη προβολή (Πανδουρίς) ὁσωνδἠποτε ἀρχείων .pan
7) Αἱ παραλείψεις (προσωρινῶς) ἀναφέρονται ὡς π.χ. OCRblank.jpg
8) Ἡ παροῦσα ἔκδοσις ὁλοκληρώνει τήν πρώτη φάσιν τῆς διαδικασίας τοῦ OCR (Ἐγκατάστασις διαδικασίας καί χρόνος πρός μάθησιν/ἐξάσκησιν).
' Ἡ ἑπομένη ἔκδοσις θά ἐπικεντρωθῇ είς τό νά μειώσῃ (εἰ δυνατόν ἐξαλείψῃ) τά λάθη & τάς παραλείψεις είς τήν μετατροπήν είκόνων είς .pan.

Κατέβασμα:
https://bzquality.wordpress.com/download-bzq/

Προαπαιτούμενα & Ὅδηγίαι.
1) Ἐγκατάστασις πακέτου Gamera+Psaltiki 2.7 είς τήν διεύθυνσιν C:\Python27
2) Τά ὀνόματα τῶν ἀρχείων ΔΕΝ πρέπει νά ἔχουν κενά διαστήματα.
3) Τά ὀνόματα ἀρχείων .XML είς τόν φάκελον OCRbatch πρέπει νά εἶναι σύντομα, π.χ. τά προεγκαταστημένα εἶναι ἀπό 01.XML ἕως 49.XML
4) Διά καλύτερα ἀποτελέσμα πρέπει νά ἀφαιρῆται τό ποιητικόν κείμενον.
5) Εἰς περίπτωσιν ἀποθηκεύσεως διορθώσεων στό Πανδουρίς νἀ επιλέγετε Ἀποθήκευση ὡς
6) Διά να τερματίσητε μίαν ἐργασίαν παρτίδος (batch) ἅπλῶς κλείνετε τό μαῦρον παράθυρον (DOS).
 
Last edited:

Pappous43

Παλαιό Μέλος
.... μία σελίς εἶχε πρόβλημα,
τό batch "ἐκόλλησε",
ἡ Physical Memory ἀνέβαινε συνεχῶς καί μετά 10 λεπτά ἦτο 50%....

Ἐπεκοινώνησα μέ τό Πανεπιστήμιον τῆς Γερμανίας καί τό πρόβλημα ἐλύθη.
Δέν θά ξαναπαρουσιασθῆ.
 

Pappous43

Παλαιό Μέλος
Ἐπειδή ἔχουν κατεβάσει πολλοί τό OCR καί ἔχουν ἐπενδύσει κάποιον χρόνον,
θά θέλουν ἴσως νά γνωρίζουν τάς τελευταίας ἐξελίξεις καί δυνατότητας.

Ἐγένετο σήμερον δοκιμή μέ τήν τελευταίαν δόρθωσιν τοῦ ὑπο-προγράμματος OCR καί ἰδού τά ἀποτελέσματα:

OCR 20160703 update.jpg

View attachment NOBL__aCAanth1824_400dpi_train_001nolyrics.png

Διευκρινἰσεις.
1) Κατ'ἀρχήν ἡ σωστἠ διαδικασία περιλαμβάνει καί τήν ἐκπαίδευσιν (Training) τοῦ προγράμματος
διά τήν συγκεκριμμένην γραμματοσειράν συμβόλων.
2) Εἰς τό παρόν παράδειγμα, δέν ἔγινε οὐδεμία ἐκπαίδευσις!
Ἀπό μίαν σύντομον σύγκρισιν (Μενού OCR, #2) προέκυψε ὅτι τό ὑπάρχον ἀρχεῖον 01.XML
παράγει ὀλίγα λάθη καί διά τοῦτο ἐχρησιμοποιήθη.
2) Τελικαί διορθώσεις ἀπό τό Πανδουρίς (ὅταν π.χ. θά προστεθῆ καί τό κείμενον)
εἶναι εὐκολώταται παρά πλήρης ἐκπαίδευσις διά μίαν σελίδα παρτιτούρας μόνον.
3) Ἡ παροῦσα ἔκδοσις τοῦ ὑπο-προγρἀμματος OCR ἔχει συμπληρώσει τήν ἀπεικόνισιν
τῶν φθόγγων καί συνήθεις συνδιασμούς αὐτῶν.
4) Ἑπομένη ἔκδοσις θά διορθώσῃ ἀσυνήθεις συνδιασμούς, τά σύμβολα μαρτυριῶν, χρόνους κ.ο.κ.

Διά νά ἐνημερώσητε τό BZQ μέ τήν τελευταίαν διόρθωσιν:
-Κατεβάσετε & ἀποσυμπιέσατε τό κάτωθι ἀρχεῖον PANfromOCR.exe.
-ἐπικολλήσατε τό ἀρχεῖον (ἀντικατάστασι) εἰς τόν φάκελλον SUPPORT.
https://bzquality.wordpress.com/download-bzq/


.
 

Pappous43

Παλαιό Μέλος
Σχόλια.

1) Λάθος
Εἰς τήν τρίτην σειράν τά δύα ἴσα μεταφράζονται είς είκονίδιον λάθους καί ὀλίγον.
Μεγένθυσις τῆς ἀρχικῆς σελίδος παρουσιάζει τό πρόβλημα,
δηλαδή τό χώρισμα τού δευτέρου ἴσου εἰς ἕν ἀκαθόριστον τμῆμα ἀριστερά καί εἰς ἕν ὀλίγον δεξιά.
ocr 20160704 detail.png
Δύο λύσεις ὑπάρχουν:
ἤ τό διορθώνομε στό Πανδουρίς (τό ἁπλούστερον)
ἤ ἐπιδιορθώνομε τό σπασμένο ἴσον καί ἐπαναλαμβάνομε τήν διαδικασίαν.

2) Ἰός ;
Ἕνα μόνον μέλος μέ είδοποίησε ὅτι τό BZQ.zip ἦτο infected.
Ἐγώ τό κατέβασα σήμερα καί εἶναι καθαρό.
Τό χθεσινόν PANfromOCR.zip κατεβαίνει μετονομασθέν είς
PANfromOCR.zip.infected
Ἀφήρεσα τήν προσθήκην .infected ,
τό ἀποσυμπίεσακαί εἶναι καθαρό ἐπίσης.
Δηλαδή, ἁπλῶς ὁμοιάζει μέ ἰόν (a.k.a. false positive)

Τά σκαναρισμένα ἔγγραφα καί τά ἀρχεῖα xml αύτῆς τῆς μελέτης προέρχονται ἀπό τόν κ. Μιχαλάκην καί τόν εύχαριστῶ.
 
Last edited:

Pappous43

Παλαιό Μέλος
Εἰς τό προηγούμενον παράδειγμα, ἐπίσης σημαντικά λάθη είς τό πρωτότυπον.
Σειρά 6η, χωρισμένον ἴσον καί κολλημένον συνεχές ἐλαφρόν.

Ἱσχύουν τά αύτά σχόλια.

OCR.jpg
 

Pappous43

Παλαιό Μέλος
Ἀνηρτήθη ἡ ἔκδοσις 6.7 τοῦ προγράμματος BZQ.
Κυριώτεραι ἀλλαγαί:

Εἰς τό OCR ἐγένοντο διορθώσεις εἰς τούς φθόγγους.
Ἐκκρεμοῦν ἀκόμη λανθασμέναι θέσεις ἤ παραλείψεις εἰς σημάδια χρόνου κτλ.

Ἐπίσης ἐγένετο ἀπ΄εὐθείας σύνδεσις τοῦ προσφάτου web-based Ἰσοκράτου http://analogion.com/forum/showthread.php?t=37657.





.
 
Last edited:
Top