In The World: SPEECH RECOGNITION

6. Speech Recognition

Speech recognation (ASR) adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Pengenalan ucapan (speech recognation) dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua kategori, yaitu:

Piranti pengenalan kata (word recognation) yang mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali sistem akan membangkitkan suatu template untuk mengenali suara user.
Piranti pengenalan kalimat (speech recognation) yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau frase. Teknik - teknik statistik dipakai dalam hal pola perekaman suara yang akan dicocokkan dengan kata-kata terucap.

6.1. Prinsip Dasar Speech Recognation

Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:

Proses training. Pada proses ini sistem belajar dari referensi pola yang berupa perbedaan pola sinyal suara misal frase, kata, fonem yang akan mengisi vocabulari dari sistem. Setiap referensi di pelajari dari kata yang dikatakan yang kemudian disimpan dalam template dan telah mengalami metode untuk merata-rata dan karakteristik statistik dan parameter statistik.
Proses recognation. Pada proses ini sistem akan diberikan inputan yang belum diketahui dan akan di identifikasi berdasarkan pola template yang telah didapatkan pada proses training.

Pada umumnya, suatu sistem pengenalan suara terdiri dari beberapa modul utama, yaitu:

Signal processign frontend digunakan untuk mengkonversi sinyal suara kedalam bentuk sequence feature vector yang akan digunakan pada saat klasifikasi.
Accoustic modelling digunakan untuk memodelkan secara statistik hasil training yang telah dilakukan kedalam sebuah template.
Language modelling digunakan untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.

In The World

Senin, 03 November 2014

SPEECH RECOGNITION

Tidak ada komentar:

Posting Komentar