Dịch thuật từ ngôn ngữ này sang ngôn ngữ khác không phải là việc đơn giản. Chúng ta không chỉ phải vận dụng các kiến thức về ngôn ngữ mà còn phải có hiểu biết sâu rộng về chuyên ngành đang dịch để có thể truyền tải nội dung tốt nhất đến người đọc.

Vì vậy, xây dựng một hệ thống dịch thuật tự động là một thử thách vô cùng lớn đối với bất kì nhà phát triển nào, nhất là khi có quá nhiều từ vựng, văn phong và luật lệ trong ngôn ngữ của mỗi quốc gia. May mắn thay, hệ thống trí thông minh nhân tạo AI (Artificial Intelligence) đã sẵn sàng để đương đầu với điều này. Và vừa qua, Google cho ra mắt hệ thống chuyên về dịch thuật sau khi đã nghiên cứu và phát triển trong nhiều năm ròng.

Hệ thống này có tên Google Neural Machine Translation (GNMT), ban đầu được thử nghiệm với tiếng Quan thoại và dần dần sẽ được triển khai ở các ngôn ngữ khác trong tương lai. Như vậy, hệ thống này là gì và hoạt động như thế nào?

Khởi đầu của hệ thống dịch: Word-by-word

Kỹ thuật đơn giản nhất của dịch thuật mà bất cứ hệ thống nào cũng làm được là tìm nghĩa của từ muốn dịch, sau đó đổi nó với từ tương đương nghĩa của ngôn ngữ khác, hay còn gọi là dịch word-by-word. Tất nhiên, khi dịch bằng cách này, ngữ nghĩa của câu có thể bị biến đổi hoàn toàn, tuy nhiên tối thiểu người đọc vẫn có thể nắm bắt được ý chính.

hệ thống dịch thuật thông minh gnmt

GNMT có thể xem là hệ thống dịch hiệu quả nhất tính đến thời điểm hiện tại. Nó sẽ phân tích cả câu và đưa ra quyết định về cách dịch và không sử dụng phương pháp dịch word-by-word. Tuy nhiên, GNMT vẫn phân tích câu ra thành từng chữ; có thể hiểu cơ chế dịch của GNMT khá tương đương với con người khi thường đọc ngữ nghĩa của một câu trước tách chúng ra thành nhiều phần nhỏ để dịch. Trí thông minh nhân tạo AI ngày nay đã được đào tạo để phân tích hình ảnh/vật thể theo cách của con người, và việc dịch thuật cũng không phải ngoại lệ.

 

Dùng tính năng “machine learning để dịch thuật

GNMT có rất nhiều ưu điểm so với hệ thống dịch thuật khác. Ví dụ, khi nó thực hiện công việc dịch những câu hiếm gặp, nó sẽ “bẻ” câu đó ra thành nhiều phần nhỏ và tìm toàn bộ ngữ nghĩa của những phần nhỏ ấy, sau đó tổng hợp và đưa ra một nghĩa chung gần với câu dịch đúng nhất. Google đã phải xây dựng hệ thống phần cứng riêng biệt cho hệ thống dịch “machine learning” này của mình. Kết quả là một hệ thống dịch gần như đạt đến độ chính xác của con người đã ra đời.

Bảng so sánh sự chính xác của dịch theo kiểu truyền thống (màu xanh dương), GNMT (màu xanh lá cây) và con người (màu cam).

Các chuyên gia của Google cho biết: “Theo đánh giá, GNMT đã giảm 60% lỗi dịch thuật so với các hệ thống dịch trước đó. Các thí nghiệm mới nhất cũng cho thấy chất lượng dịch của GNMT đã gần đạt độ chính xác của con người hơn“. Trong bài blog trên website Google, nhóm làm việc Google Brain, bao gồm Quoc Le và Mike Schuster, đã cho biết lỗi dịch thuật đã giảm từ 55 đến 85% tùy ngôn ngữ.

Tuy nhiên, đây vẫn là giai đoạn khởi đầu và GNMT vẫn còn mắc những lỗi nhỏ. Quoc Le và Schuster cho biết hệ thống vẫn đang trong quá trình “học tập” cách dịch của con người và nó chắc chắn sẽ càng hoàn thiện hơn trong tương lai và vẫn còn nhiều việc phải làm để khiến người dùng hài lòng.

Dù sao, GNMT cũng là dấu mốc quan trọng đánh dấu kỷ nguyên dịch thuật mới của máy móc cũng như là sự phát triển của trí thông minh nhân tạo.