Peneliti MIT telah mengembangkan antarmuka komputer yang dapat mentranskripsikan kata-kata yang oleh pengguna ungkapkan secara internal namun tanpa bersuara sedikitpun, seolah berbicara dalam hati namun dapat direspon oleh sekitar.
Sistem ini terdiri dari perangkat yang dapat dikenakan dan terasosiasi dengan sistem komputasi yang terkait. Elektroda yang terdapat di perangkat menangkap sinyal neuromuskular yang ada di sekitar rahang dan wajah yang dipicu oleh pengungkapan kata-kata secara internal – mengucapkan kata-kata “di kepala Anda” atau berbicara di dalam hati- tetapi tidak terdeteksi oleh mata manusia karena tanpa pergerakan mulut yang berbicara.
Sinyal diumpankan ke sistem mesin pembelajaran yang telah dilatih untuk mengkorelasikan sinyal tertentu dengan kata-kata tertentu.
Perangkat ini juga mencakup sepasang headphone konduksi tulang, yang mengirimkan getaran melalui tulang-tulang wajah ke telinga bagian dalam. Karena mereka tidak menghalangi saluran telinga, headphone memungkinkan sistem untuk menyampaikan informasi kepada pengguna tanpa mengganggu selama aktifitas perbincangan atau mengganggu pengalaman pendengaran pengguna.
Perangkat ini merupakan bagian pelengkap dari sistem komputasi diam yang memungkinkan pengguna secara tidak dapat terdeteksi berpose dan menerima jawaban untuk masalah komputasi yang sulit. Dalam salah satu eksperimen para peneliti, misalnya, subjek menggunakan sistem untuk secara diam-diam melaporkan gerakan lawan dalam permainan catur dan cukup terdiam menerima tanggapan yang direkomendasikan komputer.
“Motivasinya adalah untuk membangun perangkat AI – perangkat kecerdasan-augmentasi,” kata Arnav Kapur, seorang mahasiswa pascasarjana di MIT Media Lab, yang memimpin pengembangan sistem baru. “Ide kami adalah: Bisakah kita memiliki platform komputasi yang lebih internal, yang mengkombinasikan manusia dan mesin dalam beberapa hal dan itu terasa seperti perpanjangan internal dari kognisi kita sendiri?”
Gagasan bahwa verbalisasi internal memiliki korelasi fisik telah ada sejak abad ke-19, dan itu diselidiki secara serius pada 1950-an. Salah satu tujuan dari gerakan membaca cepat pada 1960-an adalah untuk menghilangkan verbalisasi internal, atau “subvokalisasi,” sebagimana yang telah diketahui.
Tetapi subvokalisasi [melafalkan kata di dalam hati sedemikian rupa sehingga otak dapat mendengarkan ucapan tersebut] sebagai antarmuka komputer sebagian besar belum dijelajahi. Langkah pertama para peneliti adalah menentukan lokasi mana di wajah yang merupakan sumber dari sinyal neuromuskuler yang paling dapat diandalkan. Kemudian mereka melakukan eksperimen di mana subjek yang sama diminta untuk subvokalisasi sederet kata yang sama sebanyak empat kali, dengan susunan 16 elektroda di lokasi wajah yang berbeda untuk setiap kali pengetesan.
Para peneliti menulis kode untuk menganalisis data yang dihasilkan dan menemukan bahwa sinyal dari tujuh lokasi elektroda tertentu secara konsisten mampu membedakan kata-kata dari subvokalisasi. Dalam makalah konferensi, para peneliti melaporkan prototipe dari antarmuka pidato diam yang dapat dipakai, yang menjuntai di belakang leher seperti headset telepon dan memiliki pelengkap seperti melengkung yang menyentuh wajah di tujuh lokasi di kedua sisi mulut dan sepanjang rahang.
Setelah mereka memilih lokasi elektroda, para peneliti mulai mengumpulkan data pada beberapa tugas komputasi dengan kosakata terbatas – masing-masing sekitar 20 kata. Salah satunya adalah aritmatika, di mana pengguna akan subvokalisasi masalah penjumlahan atau penggandaan besar; yang lain adalah aplikasi catur, di mana pengguna akan melaporkan gerakan menggunakan sistem penomoran papan catur standar.
Kemudian, untuk setiap aplikasi, mereka menggunakan jaringan saraf untuk menemukan korelasi antara sinyal neuromuskular tertentu dan kata-kata tertentu. Seperti kebanyakan jaringan saraf, yang digunakan para peneliti diatur ke dalam lapisan node pemrosesan sederhana, yang masing-masing terhubung ke beberapa node pada lapisan di atas dan di bawah. Data dimasukkan ke lapisan bawah, dimana node mengolahnya dan meneruskannya ke lapisan berikutnya, yang node mengolahnya dan meneruskannya ke lapisan berikutnya, dan seterusnya. Output dari hasil lapisan akhir adalah hasil dari beberapa tugas klasifikasi.
Konfigurasi dasar sistem peneliti termasuk jaringan saraf yang dilatih untuk mengidentifikasi kata-kata subvokalisasi dari sinyal neuromuskular, tetapi dapat dikustomisasi ke pengguna tertentu melalui proses yang melatih kembali hanya dua lapisan terakhir.
Menggunakan antarmuka yang dapat dipakai prototipe, para peneliti melakukan studi kegunaan di mana 10 subjek menghabiskan sekitar 15 menit setiap penyesuaian aplikasi aritmatika ke neurofisiologi mereka sendiri, kemudian menghabiskan 90 menit lagi menggunakannya untuk menjalankan perhitungan. Dalam penelitian itu, sistem memiliki akurasi transkripsi rata-rata sekitar 92 persen.
Tapi, kata Kapur, kinerja sistem akan meningkat dengan lebih banyak data pelatihan, yang dapat dikumpulkan selama penggunaan biasa. Meskipun dia tidak mengolah angka-angkanya, dia memperkirakan bahwa sistem yang lebih terlatih yang dia gunakan untuk demonstrasi memiliki tingkat akurasi yang lebih tinggi daripada yang dilaporkan dalam studi kegunaan.
Dalam pekerjaan yang sedang berlangsung, para peneliti mengumpulkan banyak data pada percakapan yang lebih rumit, dengan harapan membangun aplikasi dengan kosakata yang jauh lebih luas. “Kami sedang mengumpulkan data, dan hasilnya terlihat bagus,” kata Kapur. “Saya pikir kita akan mencapai percakapan penuh suatu hari nanti.”
Salah satu kegunaan yang lain adalah untuk orang-orang yang memiliki cacat di mana mereka tidak dapat menyuarakan secara normal. Misalnya, seseorang yang tidak memiliki kemampuan untuk berbicara lagi karena kehilangan rahangnya yang disebabkan oleh kanker.