New Star Multimedia Corp

Theo nghiên cứu mới đây đã chỉ ra trí tuệ nhân tạo (AI) có thể "giải mã nhận thức giọng nói, không phải sản xuất". Mặc dù sản xuất mới là mục tiêu cuối cùng, nhưng hiện tại, "còn một chặng đường dài nữa trong tương lai".

minh họa phong cách thiết kế của bộ não với các đường thẳng và hình dạng để chỉ ra mạng lưới

Trí tuệ nhân tạo tiến một bước gần hơn đến việc giải mã không xâm lấn những gì chúng ta nghe và định nói từ dữ liệu hoạt động của não. (Ảnh: ANDRIY ONUFRIYENKO / MOMENT / GETTY)

Trí thông minh nhân tạo (AI) có thể giải mã các từ và câu từ hoạt động của não với độ chính xác đáng ngạc nhiên. Tuy nhiên, nghiên cứu này vẫn còn hạn chế chỉ sử dụng dữ liệu hoạt động của não trong vài giây.

Giovanni Di Liberto - một nhà khoa học máy tính tại Trinity College Dublin, người không tham gia nghiên cứu, cho biết “hiệu suất của AI cao hơn mức mà nhiều người nghĩ là có thể xảy ra ở giai đoạn này.

Được phát triển tại công ty mẹ của Facebook, Meta, AI cuối cùng có thể được sử dụng để giúp hàng nghìn người trên khắp thế giới không thể giao tiếp thông qua giọng nói, đánh máy hoặc cử chỉ. Hầu hết các công nghệ hiện nay đều có thể giúp những bệnh nhân như vậy giao tiếp khi yêu cầu phẫu thuật não. Tuy nhiên, việc này đầy rủi ro vì phải cấy ghép các điện cực vào bên trong. 

Nhà khoa học thần kinh Jean-Rémi King, nhà nghiên cứu Meta AI hiện đang làm việc tại École Normale Supérieure ở Paris, cho biết cách tiếp cận mới này “có thể cung cấp một con đường khả thi để giúp những bệnh nhân bị khiếm khuyết trong giao tiếp mà không cần đến việc sử dụng các phương pháp can thiệp từ bên ngoài".

Hiện, King và các đồng nghiệp của ông đã tạo một công cụ để phát hiện từ và câu trên 56.000 giờ ghi âm giọng nói từ 53 ngôn ngữ. Công cụ này còn được gọi là mô hình ngôn ngữ, đã học cách nhận ra các đặc điểm cụ thể của ngôn ngữ ở cấp độ chi tiết - suy nghĩ các chữ cái hoặc âm tiết - và ở cấp độ rộng hơn, chẳng hạn như một từ hoặc câu.

Nhóm nghiên cứu đã áp dụng một AI với mô hình ngôn ngữ này vào cơ sở dữ liệu từ bốn tổ chức bao gồm hoạt động não của 169 tình nguyện viên. Trong các cơ sở dữ liệu này, những người tham gia đã nghe nhiều câu chuyện khác nhau, chẳng hạn như The Old Man and the Sea của Ernest Hemingway và Cuộc phiêu lưu của Alice ở xứ sở thần tiên của Lewis Carroll trong khi não của mọi người được quét bằng cách sử dụng từ trường hoặc điện não đồ. Những kỹ thuật đó đo thành phần từ tính hoặc điện của tín hiệu não phân tích.

Sau đó, với sự trợ giúp của một phương pháp tính toán giúp giải thích sự khác biệt về thể chất giữa các bộ não thực tế, nhóm nghiên cứu đã cố gắng giải mã những gì người tham gia đã nghe chỉ bằng 3s dữ liệu hoạt động não của mỗi người. Nhóm nghiên cứu đã hướng dẫn AI căn chỉnh âm thanh lời nói từ bản ghi câu chuyện với các mô hình hoạt động của não mà AI tính toán tương ứng với những gì mọi người đang nghe. Sau đó, nó sẽ đưa ra dự đoán về những gì người đó có thể đã nghe trong thời gian ngắn đó, đưa ra hơn 1.000 khả năng cho cái mà người tham gia đã nghe.

Các nhà nghiên cứu tìm thấy câu trả lời chính xác nằm trong 10 lần đoán hàng đầu của AI lên đến 73% thời gian sử dụng từ tính não đồ hoặc MEG. Với điện não đồ thì giá trị đó giảm xuống không quá 30 phần trăm. Theo Di Liberto: “Hiệu suất của [MEG] rất tốt. Nhưng ông không mấy lạc quan về việc sử dụng nó trong thực tế. “Chúng ta có thể làm gì với nó? Hoàn toàn không có gì. ”

Theo ông, lý do là MEG đòi hỏi một cỗ máy tiên tiến và việc đó rất đắt tiền. Khi đưa công nghệ này vào các phòng khám sẽ đòi hỏi những cải tiến khoa học làm cho máy móc rẻ hơn và dễ sử dụng hơn thì việc nó mới đạt tính khả thi.

Jonathan Brennan, nhà ngôn ngữ học tại Đại học Michigan ở Ann Arbor cho biết, điều quan trọng là phải hiểu “giải mã” thực sự có ý nghĩa gì trong nghiên cứu này. Từ này thường được dùng để mô tả quá trình giải mã thông tin trực tiếp từ một nguồn - trong trường hợp này là lời nói từ hoạt động của não. Nhưng AI chỉ có thể làm điều này bởi vì nó được cung cấp một danh sách hữu hạn các câu trả lời chính xác có thể đưa ra các phỏng đoán của nó.

Brennan nói: “Với ngôn ngữ, điều đó sẽ không cắt đứt nếu chúng ta muốn mở rộng quy mô sử dụng trong thực tế, bởi vì ngôn ngữ là vô hạn. 

Hơn nữa, Di Liberto nói, AI đã giải mã thông tin của những người tham gia nghe thụ động bằng âm thanh, không liên quan trực tiếp đến bệnh nhân không nói được. Để nó trở thành một công cụ giao tiếp có ý nghĩa, các nhà khoa học sẽ cần học cách giải mã từ hoạt động của não những gì những bệnh nhân này định nói, bao gồm biểu hiện đói, khó chịu hoặc đơn giản là “có” hoặc “không”.

Nghiên cứu mới chỉ là "giải mã nhận thức giọng nói, không phải sản xuất". Mặc dù sản xuất lời nói là mục tiêu cuối cùng, nhưng hiện tại, "chúng ta còn một chặng đường dài nữa trong tương lai."

Nguồn: sciencenews