Ιστορικό της μηχανικής μετάφρασης από τον Ψυχρό Πόλεμο στη βαθιά εκμάθηση

Φωτογραφία από τον Ant Rozetsky στο Unsplash

Ανοίγω το Google Translate δύο φορές τόσο συχνά όσο το Facebook, και η άμεση μετάφραση των ετικετών τιμών δεν είναι πια cyberpunk για μένα. Αυτό λέμε πραγματικότητα. Είναι δύσκολο να φανταστεί κανείς ότι αυτό είναι το αποτέλεσμα μιας εκατονταετηρίδας μάχης για την κατασκευή των αλγορίθμων της μηχανικής μετάφρασης και ότι δεν υπήρξε ορατή επιτυχία κατά το ήμισυ αυτής της περιόδου.

Οι ακριβείς εξελίξεις που θα συζητήσω σε αυτό το άρθρο έθεσαν τη βάση όλων των σύγχρονων συστημάτων επεξεργασίας γλώσσας - από τις μηχανές αναζήτησης έως τα φωνητικά ελεγχόμενα μικροκύματα. Μιλώ για την εξέλιξη και τη δομή της online μετάφρασης σήμερα.

Η μεταφραστική μηχανή του P. P. Troyanskii (Εικονογραφημένο από περιγραφές. Δεν υπάρχουν φωτογραφίες, δυστυχώς.)

Στην αρχή

Η ιστορία αρχίζει το 1933. Ο σοβιετικός επιστήμονας Peter Troyanskii παρουσίασε στην Ακαδημία Επιστημών της ΕΣΣΔ "τη μηχανή για την επιλογή και την εκτύπωση λέξεων κατά τη μετάφραση από τη μια γλώσσα στην άλλη". Η εφεύρεση ήταν εξαιρετικά απλή - είχε κάρτες σε τέσσερις διαφορετικές γλώσσες, μια γραφομηχανή και μια φωτογραφική μηχανή παλιού σχολείου.

Ο χειριστής πήρε την πρώτη λέξη από το κείμενο, βρήκε μια αντίστοιχη κάρτα, έβαλε μια φωτογραφία και πληκτρολογούσε στη γραφομηχανή τα μορφολογικά του χαρακτηριστικά (ουσιαστικό, πληθυντικό, γενετικό). Τα πλήκτρα της γραφομηχανής κωδικοποίησαν μία από τις λειτουργίες. Η ταινία και η ταινία της φωτογραφικής μηχανής χρησιμοποιήθηκαν ταυτόχρονα, κάνοντας ένα σύνολο πλαισίων με λέξεις και τη μορφολογία τους.

Παρ 'όλα αυτά, όπως συμβαίνει συχνά στην ΕΣΣΔ, η εφεύρεση θεωρήθηκε "άχρηστη". Ο Τροϊανσκι πέθανε από το Stenocardia αφού προσπάθησε να ολοκληρώσει την εφεύρεσή του για 20 χρόνια. Κανείς στον κόσμο δεν ήξερε για το μηχάνημα έως ότου δυο σοβιετικοί επιστήμονες βρήκαν τις ευρεσιτεχνίες του το 1956.

Ήταν στην αρχή του Ψυχρού Πολέμου. Στις 7 Ιανουαρίου 1954, στην έδρα της IBM στη Νέα Υόρκη, άρχισε το πείραμα Georgetown-IBM. Ο υπολογιστής IBM 701 μεταφράζει αυτόματα 60 ρωσικές προτάσεις στην αγγλική γλώσσα για πρώτη φορά στο ιστορικό.

"Μια κοπέλα που δεν καταλάβαινε μια λέξη της γλώσσας των Σοβιετικών, έριξε τα ρωσικά μηνύματα στις κάρτες IBM. Ο «εγκέφαλος» έσπασε τις αγγλικές μεταφράσεις του σε έναν αυτόματο εκτυπωτή με την ταχύτητα των δύο και μισών γραμμών ανά δευτερόλεπτο », - ανέφερε το δελτίο τύπου της IBM.
IBM 701

Ωστόσο, οι θριαμβευτικές τίτλοι έκρυψαν μια μικρή λεπτομέρεια. Κανείς δεν ανέφερε ότι τα μεταφρασμένα παραδείγματα επιλέχθηκαν προσεκτικά και δοκιμάστηκαν για να αποκλεισθεί οποιαδήποτε ασάφεια. Για καθημερινή χρήση, το σύστημα αυτό δεν ήταν καλύτερο από ένα βιβλίο φράσης τσέπης. Παρ 'όλα αυτά, τέτοιου είδους κούρσα εξοπλισμών ξεκίνησε: ο Καναδάς, η Γερμανία, η Γαλλία, και ιδιαίτερα η Ιαπωνία, όλοι συμμετείχαν στον αγώνα για τη μηχανική μετάφραση.

Ο αγώνας για τη μηχανική μετάφραση

Οι μάταιοι αγώνες για τη βελτίωση της μηχανικής μετάφρασης διήρκεσαν σαράντα χρόνια. Το 1966, η αμερικανική επιτροπή ALPAC, στην περίφημη έκθεσή της, κάλεσε τη μηχανική μετάφραση ακριβή, ανακριβή και απρόσβλητη. Αντ 'αυτού συνέστησαν την εστίαση στην ανάπτυξη λεξικού, η οποία απέλυσε Αμερικανούς ερευνητές από τον αγώνα για σχεδόν μια δεκαετία.

Ωστόσο, μια βάση για τη σύγχρονη επεξεργασία φυσικής γλώσσας δημιουργήθηκε μόνο από τους επιστήμονες και τις προσπάθειές τους, την έρευνα και τις εξελίξεις. Όλες οι σημερινές μηχανές αναζήτησης, τα φίλτρα ανεπιθύμητης αλληλογραφίας και οι προσωπικοί βοηθοί εμφανίστηκαν χάρη σε μια δέσμη χωρών που κατασκοπεύουν ο ένας τον άλλο.

Μεταφραστική μηχανική βασισμένη σε κανόνες (RBMT)

Οι πρώτες ιδέες γύρω από τη μηχανική μετάφραση βάσει κανόνων εμφανίστηκαν στη δεκαετία του '70. Οι επιστήμονες εξέτασαν τη δουλειά των διερμηνέων, προσπαθώντας να αναγκάσουν τους τεράστιους αργούς υπολογιστές να επαναλάβουν αυτές τις ενέργειες. Τα συστήματα αυτά αποτελούνταν από:

  • Δίγλωσσο λεξικό (RU -> EN)
  • Ένα σύνολο γλωσσικών κανόνων για κάθε γλώσσα (Για παράδειγμα, τα ουσιαστικά που τελειώνουν σε συγκεκριμένα επιθήματα όπως -heit, -keit, -ung είναι θηλυκά)

Αυτό είναι. Εάν είναι απαραίτητο, τα συστήματα θα μπορούσαν να συμπληρωθούν με hacks, όπως λίστες με ονόματα, ορθογραφικούς διορθωτές και μεταλλάκτες.

Τα PROMPT και Systran είναι τα πιο διάσημα παραδείγματα συστημάτων RBMT. Απλά ρίξτε μια ματιά στο Aliexpress για να νιώσετε τη μαλακή ανάσα αυτής της χρυσής εποχής.

Αλλά ακόμη και είχαν μερικές αποχρώσεις και υποείδη.

Άμεση μηχανική μετάφραση

Αυτός είναι ο πιο απλός τύπος μηχανικής μετάφρασης. Διαχωρίζει το κείμενο σε λέξεις, τα μεταφράζει, ελαφρώς διορθώνει τη μορφολογία και εναρμονίζει τη σύνταξη για να κάνει όλο το πράγμα σωστό, λίγο πολύ. Όταν ο ήλιος πέσει κάτω, εκπαιδευμένοι γλωσσολόγοι γράφουν τους κανόνες για κάθε λέξη.

Η έξοδος επιστρέφει κάποιο είδος μετάφρασης. Συνήθως, είναι αρκετά μπερδεμένο. Φαίνεται ότι οι γλωσσολόγοι σπατάλησαν το χρόνο τους για τίποτα.

Τα σύγχρονα συστήματα δεν χρησιμοποιούν καθόλου αυτήν την προσέγγιση και οι σύγχρονοι γλωσσολόγοι είναι ευγνώμονες.

Μεταφραστική Μηχανική Μετάφραση

Σε αντίθεση με την άμεση μετάφραση, προετοιμάζουμε πρώτα καθορίζοντας τη γραμματική δομή της καταδίκης, όπως μας δίδαξαν στο σχολείο. Στη συνέχεια χειριζόμαστε ολόκληρες κατασκευές, όχι λόγια, στη συνέχεια. Αυτό βοηθάει στην απόλυτη αξιοπρεπή μετατροπή της λέξης στην μετάφραση. Θεωρητικά.

Στην πράξη, είχε ακόμη ως αποτέλεσμα την πλήρη μετάφραση και εξαντλημένους γλωσσομαθείς. Από τη μία πλευρά, έφερε απλουστευμένους γενικούς κανόνες γραμματικής. Αλλά από την άλλη, έγινε πιο περίπλοκη εξαιτίας του αυξημένου αριθμού των λέξεων κατασκευή σε σύγκριση με μεμονωμένες λέξεις.

Διαγλωσσική μηχανική μετάφραση

Σε αυτή τη μέθοδο, το κείμενο προέλευσης μετασχηματίζεται στην ενδιάμεση αναπαράσταση και είναι ενοποιημένο για όλες τις γλώσσες του κόσμου (interlingua). Είναι ο ίδιος διαλλείου που ο Descartes ονειρευόταν: μια μετα-γλώσσα, η οποία ακολουθεί τους καθολικούς κανόνες και μετατρέπει τη μετάφραση σε ένα απλό έργο «εμπρός και πίσω». Στη συνέχεια, το interlingua θα μετατρεπόταν σε οποιαδήποτε γλώσσα-στόχο, και εδώ ήταν η μοναδικότητα!

Λόγω της μετατροπής, το Interlingua συχνά συγχέεται με συστήματα που βασίζονται σε μεταφορές. Η διαφορά είναι οι γλωσσικοί κανόνες που είναι ειδικοί για κάθε γλώσσα και την γλώσσα interlingua, και όχι τα γλωσσικά ζεύγη. Αυτό σημαίνει ότι μπορούμε να προσθέσουμε μια τρίτη γλώσσα στο σύστημα Interlingua και να μεταφράσουμε μεταξύ των τριών. Δεν μπορούμε να το κάνουμε αυτό σε συστήματα που βασίζονται σε μεταφορές.

Φαίνεται τέλειο, αλλά στην πραγματική ζωή δεν είναι. Ήταν εξαιρετικά δύσκολο να δημιουργηθεί μια τέτοια παγκόσμια interlingua - πολλοί επιστήμονες έχουν εργαστεί σε ολόκληρη τη ζωή τους. Δεν το κατάφεραν, αλλά χάρη σε αυτά έχουμε τώρα μορφολογικά, συντακτικά, και μάλιστα σημασιολογικά επίπεδα εκπροσώπησης. Αλλά η μόνη θεωρία Κειμένου-νοήματος κοστίζει μια περιουσία!

Η ιδέα της ενδιάμεσης γλώσσας θα είναι πίσω. Ας περιμένουμε λίγο.

Όπως μπορείτε να δείτε, όλα τα RBMT είναι χαζή και τρομακτικά και γι 'αυτό σπάνια χρησιμοποιούνται εκτός και για συγκεκριμένες περιπτώσεις (όπως η μετάφραση των καιρικών συνθηκών κλπ.). Μεταξύ των πλεονεκτημάτων του RBMT, αναφέρονται συχνά η μορφολογική ακρίβειά του (δεν συγχέει τις λέξεις), η αναπαραγωγικότητα των αποτελεσμάτων (όλοι οι μεταφραστές έχουν το ίδιο αποτέλεσμα) και η ικανότητα να το προσαρμόσουν στο θέμα (να διδάξουν οικονομολόγους ή όρους ειδικά για προγραμματιστές, για παράδειγμα).

Ακόμη και αν κάποιος θα κατορθώσει να δημιουργήσει ένα ιδανικό RBMT και οι γλωσσολόγοι το βελτίωσαν με όλους τους κανόνες ορθογραφίας, θα υπήρχαν πάντοτε κάποιες εξαιρέσεις: όλα τα ακανόνιστα ρήματα στα αγγλικά, διαχωρισμένα προθέματα στα γερμανικά, επιθέματα στα ρωσικά και καταστάσεις όπου οι άνθρωποι ακριβώς να το πω διαφορετικά. Κάθε προσπάθεια να ληφθούν υπόψη όλες οι αποχρώσεις θα έχανε εκατομμύρια ανθρωποώρες.

Και μην ξεχνάτε τις ομώνυμες. Η ίδια λέξη μπορεί να έχει διαφορετική σημασία σε διαφορετικό πλαίσιο, γεγονός που οδηγεί σε μια ποικιλία μεταφράσεων. Πόσες έννοιες μπορείτε να πιάσετε εδώ: Είδα έναν άντρα σε ένα λόφο με ένα τηλεσκόπιο;

Οι γλώσσες δεν αναπτύχθηκαν με βάση ένα καθορισμένο σύνολο κανόνων - γεγονός που αγαπά οι γλωσσολόγοι. Ήταν περισσότερο επηρεασμένοι από την ιστορία των εισβολών τα τελευταία τριακόσια χρόνια. Πώς θα μπορούσατε να το εξηγήσετε αυτό σε μια μηχανή;

Τα σαράντα χρόνια του Ψυχρού Πολέμου δεν βοήθησαν στην εξεύρεση μιας ξεχωριστής λύσης. Το RBMT ήταν νεκρό.

Η μηχανική μετάφραση με βάση τα παραδείγματα (EBMT)

Η Ιαπωνία ενδιαφέρθηκε ιδιαίτερα να αγωνιστεί για τη μηχανική μετάφραση. Δεν υπήρξε Ψυχρός Πόλεμος, αλλά υπήρχαν λόγοι: πολύ λίγοι άνθρωποι στη χώρα γνώριζαν αγγλικά. Υποσχέθηκε ότι θα είναι ένα αρκετά μεγάλο θέμα στο επερχόμενο κόμμα της παγκοσμιοποίησης. Έτσι, οι Ιάπωνες ήταν εξαιρετικά κίνητρα να βρουν μια μέθοδο εργασίας της μηχανικής μετάφρασης.

Η αγγλο-ιαπωνική μετάφραση που βασίζεται σε κανόνες είναι εξαιρετικά περίπλοκη. Η δομή της γλώσσας είναι εντελώς διαφορετική και σχεδόν όλες οι λέξεις πρέπει να αναδιαταχθούν και να προστεθούν νέες. Το 1984, ο Makoto Nagao από το Πανεπιστήμιο του Κιότο κατέληξε στην ιδέα της χρήσης έτοιμων φράσεων αντί για επαναλαμβανόμενη μετάφραση.

Ας φανταστούμε ότι πρέπει να μεταφράσουμε μια απλή φράση - "Πάω στον κινηματογράφο." Και ας πούμε ότι έχουμε ήδη μεταφράσει μια παρόμοια πρόταση - "Πάω στο θέατρο" - και μπορούμε να βρούμε τη λέξη " cinema "στο λεξικό.

Το μόνο που χρειαζόμαστε είναι να υπολογίσουμε τη διαφορά μεταξύ των δύο προτάσεων, να μεταφράσουμε τη λέξη που λείπει και στη συνέχεια να μην το βιδώσουμε. Όσο περισσότερα παραδείγματα έχουμε, τόσο καλύτερη είναι η μετάφραση.

Δημιουργώ φράσεις σε άγνωστες γλώσσες ακριβώς με τον ίδιο τρόπο!

Η EBMT έδειξε το φως της ημέρας σε επιστήμονες από όλο τον κόσμο: αποδεικνύεται ότι μπορείτε να τροφοδοτήσετε μόνο το μηχάνημα με τις υπάρχουσες μεταφράσεις και να μην περάσετε χρόνια με κανόνες και εξαιρέσεις. Δεν είναι μια επανάσταση, αλλά είναι σαφές το πρώτο βήμα προς την κατεύθυνση αυτή. Η επαναστατική εφεύρεση της στατιστικής μετάφρασης θα συμβεί σε μόλις πέντε χρόνια.

Στατιστική Μηχανική Μετάφραση (SMT)

Στις αρχές του 1990, στο Κέντρο Έρευνας της IBM, παρουσιάστηκε αρχικά ένα σύστημα μηχανικής μετάφρασης το οποίο δεν γνώριζε τίποτα για τους κανόνες και τη γλωσσολογία ως σύνολο. Ανέλυσε παρόμοια κείμενα σε δύο γλώσσες και προσπάθησε να κατανοήσει τα πρότυπα.

Η ιδέα ήταν απλή αλλά όμορφη. Μια πανομοιότυπη πρόταση σε δύο γλώσσες χωρίστηκε σε λέξεις, οι οποίες συμφωνήθηκαν αργότερα. Αυτή η λειτουργία επαναλάμβανε περίπου 500 εκατομμύρια φορές για να μετράνε, για παράδειγμα, πόσες φορές η λέξη "Das Haus" μεταφράστηκε ως "σπίτι" έναντι "κτίριο" έναντι "κατασκευής" κ.ο.κ.

Αν οι περισσότερες φορές η λέξη προέλευσης μεταφράστηκε ως "σπίτι", το μηχάνημα το χρησιμοποίησε. Σημειώστε ότι δεν ορίσαμε κανέναν κανόνα ούτε χρησιμοποιήσαμε λεξικά - όλα τα συμπεράσματα έγιναν από μηχανή, καθοδηγούμενη από στατιστικά στοιχεία και από τη λογική ότι "εάν οι άνθρωποι μεταφράζουν με αυτόν τον τρόπο, θα το κάνω εγώ". Έτσι γεννήθηκε στατιστική μετάφραση.

Η μέθοδος ήταν πολύ πιο αποτελεσματική και ακριβής από όλες τις προηγούμενες. Και δεν χρειάστηκαν γλωσσολόγοι. Όσο περισσότερα κείμενα χρησιμοποιούσαμε, τόσο καλύτερη ήταν η μετάφραση.

Στατιστική μετάφραση της Google από μέσα. Δείχνει όχι μόνο τις πιθανότητες αλλά επίσης μετρά τα αντίστροφα στατιστικά στοιχεία.

Εξακολουθεί να υπάρχει ένα ερώτημα: πώς θα αντιστοιχούσε η μηχανή τη λέξη "Das Haus" και τη λέξη "κτίριο" - και πώς θα γνωρίζαμε ότι ήταν οι σωστές μεταφράσεις;

Η απάντηση ήταν ότι δεν θα το ξέρουμε. Στην αρχή, το μηχάνημα υπολόγισε ότι η λέξη "Das Haus" συσχετίζεται εξίσου με οποιαδήποτε λέξη από τη μεταφρασμένη πρόταση. Στη συνέχεια, όταν το "Das Haus" εμφανίστηκε σε άλλες προτάσεις, ο αριθμός των συσχετισμών με το "σπίτι" θα αυξηθεί. Αυτός είναι ο "αλγόριθμος ευθυγράμμισης λέξεων", ένα τυπικό καθήκον για μηχανική μάθηση σε πανεπιστήμιο.

Το μηχάνημα χρειάστηκε εκατομμύρια και εκατομμύρια προτάσεις σε δύο γλώσσες για να συλλέξει τα σχετικά στατιστικά στοιχεία για κάθε λέξη. Πώς τα πήραμε; Λοιπόν, αποφασίσαμε να λάβουμε τις περιλήψεις του Ευρωπαϊκού Κοινοβουλίου και των συνεδριάσεων του Συμβουλίου Ασφαλείας των Ηνωμένων Εθνών - ήταν διαθέσιμες στις γλώσσες όλων των χωρών μελών και ήταν τώρα διαθέσιμες για λήψη στο Corpora των Ηνωμένων Εθνών και στο Corpora Europarl.

SMT με βάση το Word

Στην αρχή, τα πρώτα συστήματα στατιστικής μετάφρασης λειτουργούσαν διαιρώντας την πρόταση σε λέξεις, καθώς αυτή η προσέγγιση ήταν απλή και λογική. Το πρώτο μοντέλο στατιστικής μετάφρασης της IBM ονομάστηκε Μοντέλο. Αρκετά κομψό, σωστά; Μαντέψτε τι ονόμασαν το δεύτερο;

Μοντέλο 1: "η τσάντα των λέξεων"

Το μοντέλο ένα χρησιμοποίησε μια κλασική προσέγγιση - να χωρίσει σε λέξεις και να μετρήσει τα στατιστικά. Η σειρά των λέξεων δεν ελήφθη υπόψη. Το μόνο τέχνασμα μεταφράζει μια λέξη σε πολλαπλές λέξεις. Για παράδειγμα, το "Der Staubsauger" θα μπορούσε να μετατραπεί σε "Ηλεκτρική σκούπα", αλλά αυτό δεν σημαίνει ότι θα αποδειχθεί αντίστροφα.

Εδώ είναι μερικές απλές υλοποιήσεις στην Python: shawa / IBM-Model-1.

Μοντέλο 2: εξέταση της σειράς λέξεων σε προτάσεις

Η έλλειψη γνώσης σχετικά με τη λεκτική τάξη των γλωσσών έγινε πρόβλημα για το Μοντέλο 1 και είναι πολύ σημαντικό σε ορισμένες περιπτώσεις.

Το μοντέλο 2 ασχολήθηκε με αυτό: απομνημονεύει το συνηθισμένο τόπο που λαμβάνει η λέξη στην πρόταση εξόδου και ανακατεύει τις λέξεις για τον πιο φυσικό ήχο στο ενδιάμεσο βήμα. Τα πράγματα έγιναν καλύτερα, αλλά ήταν ακόμα αρκετά κακό.

Μοντέλο 3: επιπλέον γονιμότητα

Νέες λέξεις εμφανίστηκαν αρκετά συχνά στη μετάφραση, όπως άρθρα στα γερμανικά ή χρησιμοποιώντας το "do" όταν αναιρείται στα αγγλικά. «Ich will keine Persimonen» → «Δεν θέλω Persimmons». Για να το αντιμετωπίσει, άλλα δύο βήματα προστέθηκαν στο μοντέλο 3.

  • Η εισαγωγή συμβόλων NULL, εάν η μηχανή θεωρεί την ανάγκη μιας νέας λέξης
  • Επιλέγοντας το σωστό γραμματικό σωματίδιο ή λέξη για κάθε ευθυγράμμιση λέξεων-κλειδιών

Μοντέλο 4: ευθυγράμμιση λέξεων

Το μοντέλο 2 θεώρησε την ευθυγράμμιση λέξεων, αλλά δεν ήξερε τίποτα για την αναδιάταξη. Για παράδειγμα, τα επίθετα θα αλλάζουν συχνά τα μέρη με το ουσιαστικό και δεν έχει σημασία πόσο καλή ήταν η απομνημόνευση της παραγγελίας, δεν θα έκανε την παραγωγή καλύτερη. Ως εκ τούτου, το Μοντέλο 4 έλαβε υπόψη τη λεγόμενη "σχετική τάξη" - το μοντέλο έμαθε εάν δύο λέξεις πάντοτε άλλαξαν θέσεις.

Μοντέλο 5: διορθώσεις σφαλμάτων

Τίποτα νέο εδώ. Το μοντέλο 5 συγκέντρωσε κάποιες άλλες παραμέτρους για τη μάθηση και έθεσε το θέμα σε αντιφατικές θέσεις λέξεων.

Παρά την επαναστατική τους φύση, τα συστήματα που βασίζονται σε λέξεις εξακολουθούν να μην έχουν να αντιμετωπίσουν περιπτώσεις, φύλο και ομωνυμία. Κάθε λέξη μεταφράστηκε με έναν απλό τρόπο, σύμφωνα με το μηχάνημα. Τέτοια συστήματα δεν χρησιμοποιούνται πλέον, καθώς έχουν αντικατασταθεί από τις πιο προηγμένες μεθόδους που βασίζονται σε φράσεις.

SMT με βάση τη φράση

Αυτή η μέθοδος βασίζεται σε όλες τις αρχές μετάφρασης που βασίζονται σε λέξεις: στατιστικές, αναδιάταξη και λεξικά. Αν και, για τη μάθηση, χωρίζει το κείμενο όχι μόνο σε λέξεις αλλά και σε φράσεις. Αυτά ήταν τα n-grams, για να είμαστε ακριβείς, οι οποίες ήταν μια συνεχόμενη ακολουθία n λέξεων σε μια σειρά.

Έτσι, η μηχανή έμαθε να μεταφράζει σταθερούς συνδυασμούς λέξεων, οι οποίοι αισθητά βελτίωσαν την ακρίβεια.

Το κόλπο ήταν ότι οι φράσεις δεν ήταν πάντα απλές κατασκευές σύνταξης και η ποιότητα της μετάφρασης μειώθηκε σημαντικά αν παρεμποδίζετο κάποιος που γνώριζε τη γλωσσολογία και τη δομή των προτάσεων. Ο Frederick Jelinek, πρωτοπόρος της γλωσσολογίας πληροφορικής, αστειεύτηκε γι 'αυτό μία φορά: «Κάθε φορά που πυροβολώ έναν γλωσσολόγο, η απόδοση του αναγνώστη ομιλίας ανεβαίνει».

Εκτός από τη βελτίωση της ακρίβειας, η φράση με βάση τη μετάφραση προσέφερε περισσότερες επιλογές στην επιλογή των δίγλωσσων κειμένων για μάθηση. Για τη μετάφραση λέξεων, η ακριβής αντιστοίχιση των πηγών ήταν κρίσιμη, γεγονός που αποκλείει οποιαδήποτε λογοτεχνική ή ελεύθερη μετάφραση. Η μετάφραση με βάση τη φράση δεν είχε κανένα πρόβλημα να μάθει από αυτούς. Για να βελτιωθεί η μετάφραση, οι ερευνητές άρχισαν να αναλύουν τους ιστοτόπους ειδήσεων σε διάφορες γλώσσες για το σκοπό αυτό.

Από το 2006, όλοι άρχισαν να χρησιμοποιούν αυτή την προσέγγιση. Το Google Translate, Yandex, Bing και άλλοι επαγγελματίες μεταφραστές υψηλού προφίλ εργάστηκαν ως φράση μέχρι το 2016. Καθένας από εσάς ίσως θυμάται τις στιγμές που η Google είτε μεταφράζει την πρόταση άψογα είτε έχει οδηγήσει σε πλήρη ανοησίες, σωστά; Οι ανοησίες προέρχονταν από χαρακτηριστικά που βασίζονται σε φράσεις.

Η καλή παλιά προσέγγιση βάσει κανόνων παρείχε με συνέπεια ένα προβλέψιμο, αν και τρομερό αποτέλεσμα. Οι στατιστικές μέθοδοι ήταν εκπληκτικές και αινιγματικές. Η Μετάφραση Google μετατρέπει τα "τριακόσια" σε "300" χωρίς κανένα δισταγμό. Αυτό ονομάζεται στατιστική ανωμαλία.

Η μετάφραση με βάση φράσεις έχει γίνει τόσο δημοφιλής, ότι όταν ακούτε "στατιστική μηχανική μετάφραση" είναι αυτό που πραγματικά σημαίνει. Έως το 2016, όλες οι μελέτες επαινούσαν τη φράση που βασίζεται στη μετάφραση ως την τελευταία λέξη της τεχνολογίας. Τότε, κανείς δεν πίστευε ακόμη ότι η Google είχε ήδη πυροδοτήσει τις πυρκαγιές της, ετοιμάζοντας να αλλάξει ολόκληρη την εικόνα της μηχανικής μετάφρασης.

Σύνθετο SMT

Αυτή η μέθοδος πρέπει επίσης να αναφερθεί, εν συντομία. Πολλά χρόνια πριν από την εμφάνιση των νευρωνικών δικτύων, η μετάφραση βασισμένη στη σύνταξη θεωρήθηκε "το μέλλον ή η μετάφραση", αλλά η ιδέα δεν απογειώθηκε.

Οι υποστηρικτές της μετάφρασης με βάση το σύνταγμα πιστεύουν ότι ήταν δυνατή η συγχώνευσή της με τη μέθοδο που βασίζεται σε κανόνες. Είναι απαραίτητο να κάνουμε μια αρκετά ακριβή ανάλυση σύνταξης της πρότασης - για να καθορίσουμε το θέμα, το κατηγόρημα και άλλα μέρη της πρότασης, και στη συνέχεια να χτίσουμε ένα δέντρο πρότασης. Χρησιμοποιώντας το, η μηχανή μαθαίνει να μετατρέπει τις συντακτικές μονάδες μεταξύ των γλωσσών και μεταφράζει τα υπόλοιπα με λέξεις ή φράσεις. Τούτο θα είχε λύσει το ζήτημα της ευθυγράμμισης λέξεων μία για πάντα.

Παράδειγμα που ελήφθη από το Yamada και Knight [2001] και από αυτή τη μεγάλη προβολή διαφανειών.

Το πρόβλημα είναι ότι η συντακτική ανάλυση λειτουργεί παράξενα, παρά το γεγονός ότι θεωρούμε ότι επιλύθηκε πριν από λίγο καιρό (καθώς έχουμε τις έτοιμες βιβλιοθήκες για πολλές γλώσσες). Προσπάθησα να χρησιμοποιήσω συντακτικές δένδρους για εργασίες λίγο πιο περίπλοκες από το να αναλύσω το θέμα και το πρόβατο. Και κάθε φορά που εγκατέλειψα και χρησιμοποίησα άλλη μέθοδο.

Ενημερώστε με σχόλια αν το χρησιμοποιήσετε τουλάχιστον μια φορά.

Μετάφραση Νευρωνικών Μηχανών (NMT)

Ένα αρκετά διασκεδαστικό χαρτί για τη χρήση νευρωνικών δικτύων στη μηχανική μετάφραση δημοσιεύθηκε το 2014. Το Διαδίκτυο δεν το γνώριζε καθόλου, εκτός από την Google - έβγαλαν τα φτυάρια τους και άρχισαν να σκάβουν. Δύο χρόνια αργότερα, τον Νοέμβριο του 2016, η Google έκανε μια ανακοίνωση για την αλλαγή παιχνιδιού.

Η ιδέα ήταν κοντά στη μεταφορά του στυλ μεταξύ των φωτογραφιών. Θυμάστε εφαρμογές όπως το Prisma, το οποίο βελτιώνει τις εικόνες σε στυλ ενός γνωστού καλλιτέχνη; Δεν υπήρχε μαγεία. Το νευρικό δίκτυο διδάχθηκε να αναγνωρίζει τους πίνακες του καλλιτέχνη. Στη συνέχεια, καταργήθηκαν τα τελευταία επίπεδα που περιείχαν την απόφαση του δικτύου. Η προκύπτουσα σχηματοποιημένη εικόνα ήταν μόνο η ενδιάμεση εικόνα που πήρε το δίκτυο. Αυτή είναι η φαντασία του δικτύου και το θεωρούμε όμορφο.

Αν μπορούμε να μεταφέρουμε το στυλ στη φωτογραφία, τι γίνεται αν προσπαθούμε να επιβάλουμε μια άλλη γλώσσα σε ένα κείμενο πηγής; Το κείμενο θα ήταν αυτό το ακριβές "στυλ του καλλιτέχνη" και θα προσπαθούσαμε να το μεταφέρουμε κρατώντας ταυτόχρονα την ουσία της εικόνας (με άλλα λόγια, την ουσία του κειμένου).

Φανταστείτε ότι προσπαθώ να περιγράψω το σκυλί μου - μέσο μέγεθος, αιχμηρή μύτη, κοντή ουρά, πάντα γαβγίζει. Εάν σας έδωσα αυτό το σύνολο των χαρακτηριστικών του σκύλου και αν η περιγραφή ήταν ακριβής, θα μπορούσατε να το σχεδιάσετε, ακόμα κι αν δεν το έχετε δει ποτέ.

Τώρα, φανταστείτε ότι το κείμενο προέλευσης είναι το σύνολο των συγκεκριμένων χαρακτηριστικών. Βασικά, σημαίνει ότι το κωδικοποιείτε και αφήστε το άλλο νευρικό δίκτυο να το αποκωδικοποιήσει πίσω στο κείμενο, αλλά σε άλλη γλώσσα. Ο αποκωδικοποιητής γνωρίζει μόνο τη γλώσσα του. Δεν έχει ιδέα για την προέλευση των χαρακτηριστικών, αλλά μπορεί να τα εκφράσει, για παράδειγμα, στα ισπανικά. Συνεχίζοντας την αναλογία, δεν έχει σημασία πώς σχεδιάζετε το σκυλί - με κραγιόνια, ακουαρέλα ή το δάχτυλό σας. Το ζωγραφίζεις όπως μπορείτε.

Για άλλη μια φορά - ένα νευρικό δίκτυο μπορεί να κωδικοποιήσει μόνο την πρόταση στο συγκεκριμένο σύνολο χαρακτηριστικών και ένα άλλο μπορεί μόνο να τα αποκωδικοποιήσει πίσω στο κείμενο. Και οι δύο δεν έχουν ιδέα για το ένα το άλλο, και καθένας από αυτούς ξέρει μόνο τη δική του γλώσσα. Θυμάστε κάτι; Το Interlingua είναι πίσω. Ta-da.

Το ερώτημα είναι, πώς βρίσκουμε αυτά τα χαρακτηριστικά; Είναι προφανές όταν μιλάμε για το σκυλί, αλλά πώς να ασχοληθούμε με το κείμενο; Πριν από τριάντα χρόνια, οι επιστήμονες προσπάθησαν ήδη να δημιουργήσουν τον παγκόσμιο κώδικα γλώσσας και τελείωσαν σε πλήρη αποτυχία.

Παρ 'όλα αυτά, έχουμε βαθιά μάθηση τώρα. Και αυτό είναι το βασικό καθήκον του! Η πρωταρχική διάκριση μεταξύ των βαθιών μαθησιακών και των κλασσικών νευρωνικών δικτύων εντοπίζεται ακριβώς στην ικανότητα αναζήτησης των συγκεκριμένων χαρακτηριστικών, χωρίς καμία ιδέα για τη φύση τους. Εάν το νευρωνικό δίκτυο είναι αρκετά μεγάλο και υπάρχουν μερικές χιλιάδες κάρτες γραφικών στο χέρι, είναι δυνατό να βρεθούν και αυτά τα χαρακτηριστικά στο κείμενο.

Θεωρητικά, μπορούμε να περάσουμε τα χαρακτηριστικά που αποκτήθηκαν από τα νευρικά δίκτυα στους γλωσσολόγους, έτσι ώστε να μπορούν να ανοίξουν γενναίους νέους ορίζοντες για τους εαυτούς τους.

Το ερώτημα είναι, τι είδους νευρωνικό δίκτυο θα πρέπει να χρησιμοποιηθεί για την κωδικοποίηση και την αποκωδικοποίηση; Τα συνεργατικά νευρωνικά δίκτυα (CNN) ταιριάζουν απόλυτα στις εικόνες, καθώς λειτουργούν με ανεξάρτητα μπλοκ εικονοστοιχείων.

Αλλά δεν υπάρχουν ανεξάρτητα μπλοκ στο κείμενο - κάθε λέξη εξαρτάται από το περιβάλλον της. Το κείμενο, ο λόγος και η μουσική είναι πάντα συνεπείς. Επομένως τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) θα ήταν η καλύτερη επιλογή για να τα χειριστούν, αφού θυμούνται το προηγούμενο αποτέλεσμα - την προηγούμενη λέξη, στην περίπτωσή μας.

Τώρα τα RNNs χρησιμοποιούνται παντού - η αναγνώριση ομιλίας του Siri (αναλύει την ακολουθία των ήχων, όπου η επόμενη εξαρτάται από την προηγούμενη), τις συμβουλές του πληκτρολογίου (απομνημονεύστε το προηγούμενο, μαντέψτε το επόμενο), τη δημιουργία μουσικής και ακόμη και τις chatbots.

Για τα ψεύτικα σαν εμένα: στην πραγματικότητα, η αρχιτεκτονική των νευρικών μεταφραστών ποικίλλει ευρέως. Ο κανονικός RNN χρησιμοποιήθηκε στην αρχή, και στη συνέχεια αναβαθμίστηκε σε αμφίδρομη, όπου ο μεταφραστής θεωρούσε όχι μόνο λέξεις πριν από την λέξη προέλευσης, αλλά και την επόμενη λέξη. Αυτό ήταν πολύ πιο αποτελεσματικό. Στη συνέχεια ακολούθησε το hardcore πολυστρωματικό RNN με μονάδες LSTM για μακροπρόθεσμη αποθήκευση του μεταφραστικού πλαισίου.

Σε δύο χρόνια, τα νευρωνικά δίκτυα ξεπέρασαν όλα όσα είχαν εμφανιστεί τα τελευταία 20 χρόνια μετάφρασης. Η νευρωνική μετάφραση περιέχει κατά 50% λιγότερα λάθη για τη σειρά λέξεων, 17% λιγότερα λάκεια λάθη και 19% λιγότερα λάθη γραμματικής. Τα νευρικά δίκτυα έμαθαν να εναρμονίζουν το φύλο και την περίπτωση σε διάφορες γλώσσες. Και κανείς δεν τους δίδαξε να το κάνουν.

Οι πιο αξιοσημείωτες βελτιώσεις σημειώθηκαν σε πεδία όπου δεν χρησιμοποιήθηκε ποτέ άμεση μετάφραση. Οι μέθοδοι στατιστικής μηχανικής μετάφρασης εργάστηκαν πάντα χρησιμοποιώντας την αγγλική ως βασική πηγή. Έτσι, αν μεταφράσατε από τα ρωσικά στα γερμανικά, το μηχάνημα μεταφράστηκε αρχικά το κείμενο στα αγγλικά και στη συνέχεια από τα αγγλικά στα γερμανικά, πράγμα που οδηγεί σε διπλή απώλεια.

Η νευρωνική μετάφραση δεν χρειάζεται αυτό - απαιτείται μόνο ένας αποκωδικοποιητής ώστε να μπορεί να λειτουργήσει. Αυτή ήταν η πρώτη φορά που κατέστη δυνατή η άμεση μετάφραση μεταξύ των γλωσσών χωρίς λεξικό.

Μετάφραση Google (από το 2016)

Το 2016, η Google ενεργοποίησε τη νευρωνική μετάφραση για εννέα γλώσσες. Ανάπτυξαν το σύστημά τους με την επωνυμία Google Neural Machine Translation (GNMT). Αποτελείται από 8 στρώματα κωδικοποιητή και 8 αποκωδικοποιητές RNN, καθώς και συνδέσεις προσοχής από το δίκτυο αποκωδικοποιητών.

Δεν χώριζαν μόνο τις προτάσεις αλλά και τις λέξεις. Έτσι αντιμετώπισαν ένα από τα σημαντικότερα θέματα NMT - σπάνια λόγια. Τα NMTs είναι αβοήθητα όταν η λέξη δεν βρίσκεται στο λεξικό τους. Ας πούμε, "Vas3k". Αμφιβάλλω ότι κάποιος διδάσκει το νευρικό δίκτυο για να μεταφράσει το ψευδώνυμό μου. Στην περίπτωση αυτή, η GMNT προσπαθεί να σπάσει τα λόγια σε κομμάτια λέξεων και να ανακτήσει τη μετάφραση τους. Εξυπνος.

Συμβουλή: Η μετάφραση του Google που χρησιμοποιείται για την μετάφραση του ιστότοπου στο πρόγραμμα περιήγησης εξακολουθεί να χρησιμοποιεί τον παλιό αλγόριθμο βασισμένο σε φράσεις. Με κάποιο τρόπο, η Google δεν την έχει αναβαθμίσει και οι διαφορές είναι αρκετά αισθητές σε σύγκριση με την online έκδοση.

Η Google χρησιμοποιεί έναν μηχανισμό crowdsourcing στην online έκδοση. Οι χρήστες μπορούν να επιλέξουν την έκδοση που θεωρούν την πιο σωστή και αν πολλοί χρήστες τους αρέσουν, η Google θα μεταφράζει πάντα αυτή τη φράση με αυτόν τον τρόπο και θα την επισημάνει με ένα ειδικό σήμα. Αυτό λειτουργεί φανταστικά για σύντομες καθημερινές φράσεις, όπως "Ας πάμε στον κινηματογράφο", ή "Σας περιμένω". Η Google γνωρίζει τα Αγγλικά συνομιλίας καλύτερα από εμένα :(

Το Bing της Microsoft λειτουργεί ακριβώς όπως το Google Translate. Αλλά το Yandex είναι διαφορετικό.

Yandex Μετάφραση (από το 2017)

Η Yandex ξεκίνησε το σύστημα της νευρικής μετάφρασης το 2017. Το κύριο χαρακτηριστικό της, όπως δηλώθηκε, ήταν η υβριδαιότητα. Το Yandex συνδυάζει τις νευρικές και στατιστικές προσεγγίσεις για να μεταφράσει την πρόταση, και στη συνέχεια επιλέγει το καλύτερο με τον αγαπημένο αλγόριθμο CatBoost.

Το πράγμα είναι, η νευρωνική μετάφραση συχνά αποτυγχάνει όταν μεταφράζει σύντομες φράσεις, αφού χρησιμοποιεί το πλαίσιο για να επιλέξει τη σωστή λέξη. Θα ήταν δύσκολο αν η λέξη εμφανίστηκε πολύ λίγες φορές σε δεδομένα εκπαίδευσης. Σε τέτοιες περιπτώσεις, μια απλή στατιστική μετάφραση βρίσκει τη σωστή λέξη γρήγορα και απλά.

Η Yandex δεν μοιράζεται τις λεπτομέρειες. Μας απογοητεύει με τα δελτία Τύπου μάρκετινγκ. ΕΝΤΑΞΕΙ.

Φαίνεται ότι το Google χρησιμοποιεί SMT για τη μετάφραση λέξεων και σύντομων φράσεων. Δεν το αναφέρουν σε κανένα άρθρο, αλλά είναι αρκετά αξιοπρόσεχτο αν κοιτάξετε τη διαφορά μεταξύ της μετάφρασης των μικρών και μακρών εκφράσεων. Εκτός αυτού, το SMT χρησιμοποιείται για την εμφάνιση των στατιστικών στοιχείων της λέξης.

Το συμπέρασμα και το μέλλον

Όλοι εξακολουθούν να είναι ενθουσιασμένοι με την ιδέα του "Babel fish" - άμεση μετάφραση του λόγου. Η Google έχει κάνει βήματα προς την κατεύθυνση αυτή με τους Pixel Buds, αλλά στην πραγματικότητα, δεν είναι ακόμα αυτό που ονειρευόμασταν. Η άμεση μετάφραση ομιλίας είναι διαφορετική από τη συνήθη μετάφραση. Πρέπει να ξέρετε πότε πρέπει να αρχίσετε να μεταφράζετε και πότε να κλείσετε και να ακούσετε. Δεν έχω δει κατάλληλες προσεγγίσεις για την επίλυση του προβλήματος αυτού ακόμα. Εκτός, ίσως, το Skype ...

Και εδώ είναι μια άλλη κενή περιοχή: όλη η εκμάθηση περιορίζεται στο σύνολο των παράλληλων μπλοκ κειμένου. Τα βαθύτερα νευρωνικά δίκτυα εξακολουθούν να μαθαίνουν σε παράλληλα κείμενα. Δεν μπορούμε να διδάξουμε το νευρωνικό δίκτυο χωρίς να του παρέχουμε πηγή. Οι άνθρωποι, αντ 'αυτού, μπορούν να συμπληρώσουν το λεξικό τους με την ανάγνωση βιβλίων ή άρθρων, ακόμα κι αν δεν τους μεταφράζουν στη μητρική τους γλώσσα.

Εάν οι άνθρωποι μπορούν να το κάνουν, το νευρωνικό δίκτυο μπορεί να το κάνει επίσης, θεωρητικά. Βρήκα μόνο ένα πρωτότυπο που προσπαθεί να υποκινήσει το δίκτυο, το οποίο γνωρίζει μια γλώσσα, να διαβάσει τα κείμενα σε άλλη γλώσσα για να αποκτήσει εμπειρία. Θα το δοκιμάσω ο ίδιος, αλλά είμαι ανόητος. Εντάξει, αυτό είναι.

Αυτή η ιστορία αρχικά γράφτηκε στα ρωσικά και μετά μεταφράστηκε στα Αγγλικά στο Vas3k.com από τον Vasily Zubarev. Είναι ο φίλος μου και είμαι σίγουρος ότι το blog του θα πρέπει να εξαπλωθεί.

Χρήσιμοι σύνδεσμοι

  • Philipp Koehn: Στατιστική Μηχανική Μετάφραση. Η πιο ολοκληρωμένη συλλογή των μεθόδων που έχω βρει.
  • Moses - δημοφιλής βιβλιοθήκη για τη δημιουργία δικών στατιστικών μεταφράσεων
  • OpenNMT - μια ακόμη βιβλιοθήκη, αλλά για τους νευρικούς μεταφραστές
  • Το άρθρο από έναν από τους αγαπημένους μου bloggers εξηγώντας τα RNN και LSTM
  • Ένα βίντεο "Πώς να κάνω έναν μεταφραστή γλώσσας", αστεία τύπος, καθαρή εξήγηση. Ακόμα δεν αρκεί.
  • Οδηγός κειμένου από το TensorFlow για τη δημιουργία του δικού σας μεταφραστή, για όσους θέλουν περισσότερα παραδείγματα και για να δοκιμάσουν τον κώδικα.

Άλλα άρθρα από το Vas3k.com

Ενα τελευταίο πράγμα…

Εάν σας άρεσε αυτό το άρθρο, κάντε κλικ στο κουμπί παρακάτω και μοιραστείτε το με άλλα άτομα, ώστε να μπορούν να το απολαύσουν επίσης.