Speech Recognition, Masih Kalah Jauh dari Kemampuan Telinga dan Otak Manusia

Kemarin sore, saya bertemu dengan beberapa rekan dari kalangan bisnis untuk ngobrol-ngobrol seputar penggunaan Teknologi Bahasa dalam layanan telekomunikasi. Ada satu keinginan suatu layanan, dimana orang bisa mengucapkan pesan, lalu dikirim via SMS. Tersedia kah teknologinya?

Teknologinya tersedia, disebut Speech Recognition (kadang disebut Speech to Text). Sistem seperti itu sudah cukup lama tersedia, mengenali ucapan manusia, lalu mengubahkan menjadi teks atau tulisan. Seberapa hebat sistem ini yang sudah ada? Beberapa sistem sudah meng-klaim mencapai akurasi 99%, diantaranya yang terkenal adalah Dragon Naturally Speaking. Apakah betul?

Silakan coba software tersebut. Sangat mungkin anda tidak dapat mencapai akurasi yang dijanjikan tersebut. Mengapa?

  • Mungkin anda menggunakan mikrofon murahan, sehingga banyak noise yang masuk
  • Mungkin lingkungan sekitar anda terlalu banyak noise, misalnya di ruangan bersama kantor yang sangat gaduh, atau bahkan di dalam mobil dimana banyak suara dari luar mobil
  • Mungkin logat daerah anda sangat kental, sehingga anda tidak dapat mengucapkan ucapan-ucapan bahasa Inggris tersebut dengan benar, atau ….
  • Mungkin anda mengucapkannya dengan latar belakang musik kesukaan anda, walaupun volumenya tidak terlalu besar.

Nah, itulah sejumlah kelemahan speech recognition yang ada. Akurasi yang dijanjikan pada prinsipnya bisa dipercaya, tapi kita harus sadar kondisi idealnya untuk mencapai akurasi tersebut. Speech Recognition yang ada masih rawan terhadap noise, baik noise yang benar-benar berupa gangguan (misalnya kegaduhan) atau noise yang indah, misalnya Phil Collins sedang menyanyi di belakang kita. Speech recognition bekerja dengan cara mencari kemiripan dengan library potongan kata yang ada di dalam databasenya (corpus). Ketika sebuah sistem dilatih dengan korpus British English, akan sulit mengenali ucapan Inggris-Jawa, Inggris-Sunda, Inggris-Cina, dan sebagainya. Walaupun sama-sama bahasa Inggris.

Jadi, kembali lagi ke awal pembicaraan kita. Speech Recognition yang ada saat ini masih sulit (bukan tidak mungkin) untuk diaplikasi pada aplikasi yang diharapkan dapat mengenali seluruh kata. Namun, sangat mungkin untuk digunakan dalam aplikasi yang jumlah kosa katanya terbatas. Mengapa? Mengidentifikasikan, katakanlah 40 kata jauh lebih mudah dari pada mengidentifikasikan 100 ribu kata. Banyak aplikasi dengan jumlah kata terbatas yang sudah menggunakan teknologi ini untuk layanan telekomunikasi.

Telinga dan Otak Manusia sebagai prosesornya mempunyai kemampuan yang lebih superior. Manusia dengan mudah memisahkan antara pembicara dengan suara musik di latar belakang, asal suara musik tersebut tidak melampaui intensitas tertentu yang mengganggu. Komputer masih sangat sulit melakukan itu. Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misalkan dalam satu keramaian konser musik, anda berbicara dengan teman di sebelah, masih bisa memahami apa yang diucapkan. Jangan berharap sistem Speech Recognition bisa melakukan itu!!!

Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan pemrosesan sinyal suara. Pemrosesan sinyal yang dilakukan sekarang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai banyak komponen frekuensi yang sama dengan komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telinga dan otak manusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Telinga dan otak manusia mungkin bekerja dengan prinsip yang berbeda……….., mungkin tidak berbasis pemisahan frekuensi. Sensor dalam telinga manusia berupa rambut-rambut halus yang jumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikrofon. Oleh karena itu, salah satu arah riset yang berkembang adalah penggunaan array mikrofon untuk menirukan banyaknya sensor dalam telingan manusia.

Nah, sebagai penutup, untuk mendapatkan sistem yang lebih mendekati kehebatan telinga dan otak, saya kira perlu satu penemuan yang fundamental yang mengubah cara pemrosesan sinyal berbasis frekuensi menjadi cara lain yang mungkin berbeda sama sekali. Siapa tahu anda bisa menemukan itu. Kalo bisa, pasti ada dua yang bisa anda raih, pertama, kemungkinan masuk surga karena ilmu anda akan digunakan terus dalam peradaban manusia, kedua, sangat mungkin anda menjadi peraih NOBEL.

Tulisan ini dipoting di https://kupalima.wordpress.com dan http://teknologibahasa.wordpress.com

Iklan

8 thoughts on “Speech Recognition, Masih Kalah Jauh dari Kemampuan Telinga dan Otak Manusia

  1. Tambahan satu lagi pak, kalau orang itu sedang sakit flu atau atau alergi … sehingga suara yang keluar bisa berubah loh, kaya saya ini.
    Mengenai rencana meraih Nobel, nanti saya pikirkan Pak … ha ha ha …

  2. Saya pernah download software Pak Arry yg text-to- speech, tapi sudah lama sekali kalau nggak salah dari web EL (?). Idenya sih mau bikin materi kuliah berupa slideshow, suaranya tidak pakai suara saya yg medhok tapi saya tulis yg kemudian dikonversi ke speech …

    Maunya siap2 kalau nggak bisa ngajar karena ada P4 (= pura-pura punya proyek) biar kuliah bisa jalan terus, eh ternyata ide tetap tinggal ide dan nyatanya saya selalu bisa ke kampus utk ngajar karena nggak punya proyek … hi hi hi

    Mudah-mudahan waktunya sempat, nanti saya buatkan contoh untuk keperluan seperti itu, supaya saya bisa ngasih kuliah dimana-mana untuk bidang apapun, sementara dosen yang sesungguhnya entah sedang ada dimana….., ha-ha-ha…

  3. saya jadi ingat kuliah bapak,
    bahwa untuk membuat kamus voice untuk bahasa indonesia istilahnya saya lupa pak..apa yach ? saja kita harus ngumpulin orang ina dari berbagai suku bangsa yang dialeknya berbagai macam dari medhok sampe logat timur mo kemana..

    ok sukses pak untuk voice to speech nya or sebaliknya, saya jadi rajin membaca blog ini, btw blm saya link nanti kalo di link boleh donk pak saya kabari ok.

    salam
    dari Manokwari-Papua barat

    Siippp, silakan di-link. Saya link juga blog Pa Nasir, salah satu pembangun SDM IT kawasan timur.

  4. Saya sekitar tahun 2001 membuat tugas akhir mengenai speech recognition untuk bahasa indonesia. Abstraksi bisa baca di http://www.kirimpesan.com/?p=16 .
    Saat ini saya akan (baru akan) mengembangkan apa yang bapak sebutkan di atas, yaitu mengirimkan SMS hanya dengan mengucapkan kalimat tentunya dikhususkan untuk bahasa indonesia

    Berdasarkan pengalaman saya waktu saya buat tugas akhir dulu adalah kesulitan untuk membuat model karena diharuskan merekam banyak sample suara. Pemodelan tersebut menggunakan angka2 statistik.
    Sinya suara di extract menggunakan metode Linear Predictive Code dan kemudian dikuantisasi

    So any idea ?? atau ada yang tertarik untuk berkolaborasi please contact me.

    Pada prinsipnya, sistem Speech Recognition memang sama untuk semua bahasa. Yang berbeda adalah corpusnya dan model bahasanya. Corpus adalah kunci kualitas dan jumlahnya tidak tanggung-tanggung untuk mencapai kualitas yang sangat tinggi. Yang pasti, kalau membuat korpus sendiri (tanpa pasukan), atau hanya hobby saja, jangan berharap mendapat sistem SR yang handal.

  5. saya sedang menggajukan judul tugas akhir tentang bahasan yang telah bapak paparkan…
    wah…semangat saya jadi kendur pak…
    bisa-bisa saya ga lulus2 pak…
    kalau bapak punya materi tentang speech to text….
    saya mau dunk pak..
    terima kasih

    Kalau tidak siap, lebih baik mengadaptasi dari framework atau model yang sudah ada bentuk implementasiknya. Saya anjurkan, gunakan HTK (Hidden MArkov Toolkit). Jangan ciut, untuk lingkungan yang bebas noise, akurasinya sudah bagus, asal sistem sudah dilatih dengan jumlah rekaman yang cukup dan berkualitas.

  6. Plugie, saya kebetulan adalah programmer pemula yang sedang mencari speech to text engine untuk bahasa indonesia. Saya tertarik dengan proyek anda. Saya terbiasa memrogram dengan menggunakan MASM. KAlau anda membutuhkan bantuan saya silahkan kontak realvampire2006@yahoo.co.id email ataupun IM.
    Mudah2xan saya bisa bantu.

  7. Assalamu’alaikum pak

    Tulisan Bapak yang berjudul “Proses Pembentukan dan Karakteristik SInyal Ucapan” membantu saya pa, apakah itu diambil dari buku Fundamental Of Speech Recognition karya Lawrence Rabiner dan Biing Hwang Juang???

    saya mahasiswa yg sedang tugas akhir, tema saya adalah speech recognition. Namun sy hanya mengenali suku kata, dan secara tata bahasa indonesia, suku kata sendiri dapat diklasifikasikan menjadi V(vokal),VK(vokal-konsonan),KV,KVK,KKV,KKVK,sampai KVKKK (CMIIW) . Saya menggunakan java language untuk membuat aplikasi ini. Saya telah merekam suara dengan tipe .wav file

    Seperti pak Plugie di atas sy menggunakan LPC (Linear predictive coding) u/ ekstraksi parameter suara– Apakah LPC ini bertujuan untuk mengurangai NOISE??? Saya masih bingung pa???. Kemudian koefisien cepstral dari LPC ditransformasikan ke dalam FFT (Fast Fourier Transform) yang selanjutnya dilatih ke dalam jaringan syaraf Tiruan BackPropagation.

    Mohon sarannya pa…karena sy masih kesusahan dalam mengubah file .wav itu menjadi biner ato desimal u/ saya masukkan dalam pemrosesan sinyal digital tsb (LPC dan FFT)

    Terimakasih sebelum dan sesudahnya Pak…

    Wassalamu’alaikum

  8. Ping-balik: Speech Recognition « Girlycious09's

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s