6. Speech Recognition
Speech recognation (ASR) adalah
suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima
masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat
untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi
kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu
perangkat. Pengenalan ucapan (speech recognation) dalam perkembangan
teknologinya merupakan bagian dari pengenalan suara (proses identifikasi
seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua
kategori, yaitu:
- Piranti pengenalan kata (word recognation) yang mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali sistem akan membangkitkan suatu template untuk mengenali suara user.
- Piranti pengenalan kalimat (speech recognation) yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau frase. Teknik - teknik statistik dipakai dalam hal pola perekaman suara yang akan dicocokkan dengan kata-kata terucap.
6.1. Prinsip Dasar Speech Recognation
Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi,
yaitu:
- Proses training. Pada proses ini sistem belajar dari referensi pola yang berupa perbedaan pola sinyal suara misal frase, kata, fonem yang akan mengisi vocabulari dari sistem. Setiap referensi di pelajari dari kata yang dikatakan yang kemudian disimpan dalam template dan telah mengalami metode untuk merata-rata dan karakteristik statistik dan parameter statistik.
- Proses recognation. Pada proses ini sistem akan diberikan inputan yang belum diketahui dan akan di identifikasi berdasarkan pola template yang telah didapatkan pada proses training.
Pada umumnya, suatu
sistem pengenalan suara terdiri dari beberapa modul utama, yaitu:
- Signal processign frontend digunakan untuk mengkonversi sinyal suara kedalam bentuk sequence feature vector yang akan digunakan pada saat klasifikasi.
- Accoustic modelling digunakan untuk memodelkan secara statistik hasil training yang telah dilakukan kedalam sebuah template.
- Language modelling digunakan untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.
Tidak ada komentar:
Posting Komentar