perangkat lunak verifikasi suara dengan metode pengolahan sinyal

MAKALAH

PENGOLAHAN SINYAL
“ PERANGKAT LUNAK VERIFIKASI SUARA
DENGAN
METODE PENGOLAHAN SINYAL “



OLEH :


SUPRIADI SABUKTIONO

E1D1 14 037



JURUSAN TEKNIK ELEKTRO
FAKULTAS TEKNIK
UNIVERSITAS HALU OLEO
2016


KATA PENGANTAR


           

Puji syukur kehadirat Allah SWT Dzat penguasa alam semesta yang telah memberikan taufiq, rahmat, hidayah serta hidayahnya sehingga saya dapat beraktivitas untuk menyusun dan menyelesaikan makalah yang berjudul Perangkat Lunak Verifikasi Suara Dengan Metode Pengolahan Sinyal ini.Saya berharap karya ilmiah ini dapat membantu dan menambah wawasan saudara-saudari yang ingin lebih memahami atau mengetahui sekilas  tentang “Pengolahan Sinyal .
            Penyusunan makalah ini bertujuan untuk memenuhi tugas pengolahan sinyal yang diberikan oleh dosen mata kuliah pengolahan sinyal yang berisi informasi tentang “ Perangkat Lunak Verifikasi Suara Dengan Metode Pengolahan Sinyal “. Dan saya harapkan pembaca dapat mengetahui berbagai aspek yang berhubungan dengan pengolahan sinyal yang akan penulis bahas.
            Penulis menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu penulis harapkan demi kesempurnaan makalah ini di masa yang akan datang.
Akhir kata,penulis sampaikan terima kasih kepada semua pihak yang telah berperan serta dalam penyusunan makalah ini dari awal sampai akhir. Semoga Tuhan Yang Maha Esa senantiasa meridhoi segala usaha kita. Amin.
Dan akhirnya semoga makalah ini bermanfaat bagi kita semua terutama bagi pembaca. Terima kasih,


Kendari, 22 Mei 2016
                                                                                                         



   Penulis

DAFTAR ISI

Kata Pengantar .....................................................................................................................
Daftar Isi ................................................................................................................................
BAB I Pendahuluan
1.1  Latar Belakang ......................................................................................................
1.2  Rumusan Masalah .................................................................................................
1.3  Tujuan Penulisan ...................................................................................................
BAB II Pembahasan
2.1 Speech Recognation (Pengenalan Wicara) ..........................................................
2.2 Sistem Pengolahan Sinyal Suara ..........................................................................
2.3 DTW (Dynamic Time Warping) ...........................................................................
2.4 Perekaman Suara ..................................................................................................
2.5 Pemprosesan Suara ...............................................................................................
2.6 Pengolahan Sinyal ..................................................................................................
2.7 Pengolahan Data ....................................................................................................
BAB III Penutup
3.1 Kesimpulan .............................................................................................................
3.2 Saran .......................................................................................................................
Daftar Pustaka ......................................................................................................................





BAB I
PENDAHULUAN

1.1  latar Belakang
Sebuah verifikasi memiliki peranan yang sangat penting di dalam perusahaan yang memiliki sebuah sistem. Hak akses yang dan kepentingan yang berbeda itulah maka perlu adanya pengaturan dan pembatasan bagi tiap user dengan alasan penyalah gunaan dan perlindungan perubahan data yang mungkin saja terjadi karena ketidak sengajaan. Yang sering di gunakan adalah penggunaan password, namun password masih di rasa kurang dari segi keamanan, untuk itu dibuat salah satu alternatife pemecahan masalah untuk kasus ini, yaitu sebuah perangkat lunak untuk mengenali user berdasarkan input suara, yang di dalamnya terdapat pilihan parameter pemberian input, yaitu berdasarkan nama, alamat dan lain sebagainya. Penelitian ini mengkalisifikasikan bagian bagian atau komponen sinyal ucapan menjadi tiga keadaan yang berbeda, yaitu silence, voiced dan unvoiced. Kemudian membandingkan pola wicara dalam menentukan kesamaan jarak antara pola pola yang berbeda dan mentranformasikan sinyal dari domain waktu ke domain frekwnesi agar sinyal dapat diproses dalam spektral substraksi.
Membuat suatu perangkat lunak untuk mengenali pengguna yang mengakses aplikasi yang di dalamnya terdapat proses sehingga suara yang diinputkan akan dikenali oleh sistem, dan dapat digunakan sebagai password dan pengaturan penggunaan hak akses user. Aplikasi yang akan di buat ini diharapkan dengan harapan dapat membantu meningkatkan tingkat keamanan dengan mengganti input yang sebelumnya menggunakan text atau tulisan menjadi sebuah bentuk suara.

1.2.Rumusan Masalah
1. Apa pengertian dari Speech Recognation?
2. Apa saja yang termasuk Konfigurasi ideal ?
3. Apa pengertian dari Front End Detection ?
4. Apa pengertian dari Windowing ?
5. Apa pengertian dari Cepstrum DFT (Spectral Envelope) ?

1.3.Tujuan Penulisan
Adapun tujuan yang ingin dicapai dari makalah ini adalah:
1. Mengetahui pengertian dari Speech Recognation
2. Mengetahui yang termasuk Konfigurasi ideal
3. Mengetahui pengertian dari Front End Detection
4. Mengetahui pengertian dari Windowing
5. Mengetahui pengertian dari Cepstrum DFT (Spectral Envelope)



BAB II
PEMBAHASAN

2.1 Speech Recognation (Pengenalan Wicara)
Speech Recognation (Pengenalan Wicara) adalah  Sebuah proses yang dilakukan oleh komputer atau jenis mesin yang lain dalam mengenali kata yang diucapkan. Pada dasarnya, memiliki arti “berbicara dengan komputer, dan mengenali dengan benar apa yang kita katakan”. Gressia Melissa mengatakan bahwa voice recognation dibagi menjadi 2 jenis, yaitu speech recognation dan speaker recognation. Parameter yang dibandingkan adalah tingkat penekanan suara yang kemudian dicocokkan dengan template database yang tersedia.
Sistem Speech Recognition biasanya dapat dioperasikan pada dua mode yang berbeda yaitu :
1.      Mode pembelajaran
Pada mode ini, sistem akan dilatih menggunakan sejumlah kata atau kalimat yang memenuhi suatu kriteria tertentu. Setiap contoh kata atau kalimat ajar tersebut akan menghasilkan pola tertentu yang akan dipelajari oleh sistem dan disimpan sebagai template atau referensi.
2.      Mode produksiatau Pengenalan ucapan
Pada mode ini, setiap kalimat yang ingin dikenali akan dianalisis polanya. Berdasarkan hasil perbandingan dengan template atau referensi modul klasifikasi pola serta pengambil keputusan akan mengidentifikasikan kata atau kalimat yang diucapkan tersebut.

2.2 Sistem Pengolahan Sinyal Suara
Diagram blok untuk pengolahan sinyal suara pada fase pembelajaran (training phase) adalah sebagai berikut :
 
Gambar 2.1 Diagram Blok Sistem Pengenalan Wicara pada enrollment phase

Perancangan sistem dilakukan berdasarkan pada diagram pembelajaran (enrollment phase) dan diagram pengujian (testing phase) dimana untuk diagram enrollment phasesistem akan melakukan dan menganalisa sedemikian rupa sinyal suara/ wicara dari pengguna kemudian dimasukkan ke dalam database. Sedangkan untuk pengujian bahwa sinyal suara yang dimasukkan ke dalam sistem akan dikenali melalui cara pembandingan dengan data pada database, setelah itu sistem akan mengambil keputusan berdasarkan hasil pembandingan data tersebut.
Dari pengujian dan analisa, maka akan diketahui tingkat keberhasilan dan tingkat kekurangan dari sistem atau software yang telah dibuat. Pengujian yang dilakukan meliputi :  Pengujian  dan analisa sistem pengolahan  sinyal suara (mode pembelajaran), pengujian dan analisa hasil SSE programming, pengujian dan analisa sistem aplikasi pengenalan suara untuk mengakses database user/ pegawaian (mode pengujian).

2.3 DTW (Dynamic Time Warping)
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum antara data input dan data standarnya. Pengujian dilakukan dalam 2 tahap, yaitu secara offline dan secara online.
Tabel 2.1 Nilai Error & Action pada pengujian secara Offline System

Dari kira kira 30 percobaan serupa dengan 30 kata yang berbeda, didapatkan 5 kata yang tidak match pada saat proses matching dilakukan, jadi sekitar 5/30 = 17% bagian yang tidak match, kemudian digunakan 30 kata sebagai kata standard yang terdiri dari 15 kata untuk code book laki-laki dan 15 kata untuk code book perempuan dan kata masukan untuk masinsg masing pengujian dengan kata standard sebanyak 1 kali.
Tabel 2.2 Nilai error & Action Pada Pengujian Secara Online System

Dari 15 percobaan serupa dengan 5 kata yang sama namun memiliki pola penyuaraan (volume) dan pengucapan yang berbeda, didapatkan 1 kata yang tidak match saat proses matching dilakukan, jadi sekitar 5/15 bagian yang tidak match, atau dapat dikatakan bahwa prosentase error sistem bila dilakukan pengetesan online yaitu sekitar 33%, sedangkan sisanya, yaitu 77 % data berhasil termatch dengan baik.


2.4 Perekaman Suara
Proses perekaman merupakan titik kritis, karena proses perekaman ini akan menjadi dasar dalam penentuan model akustik.


Gambar 2.2 Parameter Perekaman di Wavesurfer

Berikut contoh hasil perekaman suara yang telah disimpan dan dibangkitkan dengan menggunakan software perekaman suara yang telah kamibuat dari integrasi Tcl/Tk dan Snack :

Gambar 2.3 Aplikasi Mode Perekaman

Dari hasil perekaman seperti pada gambar 2.3 dapat dilihat bahwa sinyal suara bebas dari noise karena ruang perekaman dan perangkat perekaman sudah sesuai dengan konfigurasi standart. Dari proses perekaman yang dilakukan juga ditemukan adanya korelasi positif antara kuat lemahnya amplitudo dengan sinyal suara yang dihasilkan. Semakin tinggi amplitudo, maka semakin bagus sinyal suara yang dihasilkan karena mampu menekan noise yang ada di sekitar.

Gambar 2.4 Sinyal Suara Bernoise

Untuk menghasilkan rekaman kata yang akurat dan bebas noise, diperlukan konfigurasi yang ideal atau konfigurasi tidak ideal yang masih bisa ditolerir yaitu :
a.       Konfigurasi ideal, meliputi :
1.      Penggunaan microphone kualitas tinggi yang dirancang khusus untuk ucapan, yaitu microphone yang respon frekuensinya tidak terlalu lebar dan ada di daerah jangkauan frekuensi suara manusia. Microphone jenis ini akan menekan suara-suara lain yang ada di luar daerah jangkauan suara manusia.
2.      Penggunaan alat perekam digital yang mempunyai saluran input microphone kualitas tinggi dan saluran digital yang memungkinkan transfer data secara digital ke PC.
3.      Penggunaan sound card khusus pada PC yang dilengkapi dengan saluran optik digital.
4.      Perekaman dilakukan tanpa PC atau laptop, sehingga akan mengurangi tingkat kebisingan akibat kipas pendingin komputer. Setelah perekaman selesai dilakukan, lakukan transfer data secara digital (optik) ke PC melalui soundcard khusus yang telah disiapkan.
b.      Konfigurasi Tidak Ideal yang Masih Dapat Diterima, meliputi :
1.      Gunakan microphone kualitas tinggi.
2.      Gunakan pre-amplifier eksternal yang low-noise dan dapat diatur level input dan outputnya. Hubungkan microphone ke saluran input pre-amplifier.
3.      Gunakan laptop (notebook) yang berkualitas bagus, sehingga suara kipas yang dihasilkannya tidak terlalu bising.
4.      Hubungkan output pre-amplifier ke notebook melalui jalur audio menggunakan kabel audio yang kualitasnya baik.
5.      Aturlah level input dan output pre-amplifier serta level input perekaman pada notebook, sehingga menghasilkan suara yang bersih, noise rendah, levelnya cukup besar, tapi tidak pernah mencapai level maksimum.
Dengan menggunakan program yang telah dibuat sesuai dengan parameter perekaman pada gambar 2.2 proses sampling sinyal standart menggunakan frekuensi sampling sebesar 12000 Hz. Data sinyal suara yang didapatkan dari kata ”Novi” adalah sebagai berikut :












 
Gambar 2.5 Sinyal suara “Novi”

Dengan frekuensi sampling sebesar 12000 Hz, maka didapatkan bentuk sinyal yang hampir mirip dengan sinyal analognya seperti pada gambar 2.4 karena sinyal suara manusia memiliki jarak frekuensi antara 300 sampai 3400 Hz, dimana syarat Nyquist minimal fsampling ≥ 2 x fsinyal telah terpenuhi.
Dengan membandingkan program sampling yang terdapat dalam software, maka didapat maka didapat hasil seperti pada gambar berikut ini.

 
Gambar 2.6 Perbandingan Sinyal Hasil Sampling Dengan Matlab dan Hasil Pengolahan Sistem

Dari gambar dapat dilihat bahwa program pembacaan sinyal yang telah dibuat dalam bahasa C menghasilkan hasil yang sama persis dengan sampling menggunakan software Matlab, hal ini membuktikan bahwa algoritma sampling yang dibuat sudah benar.

2.5 Pemprosesan Suara
Pemprosesan suara terdiri dari beberapa tahap yaitu :
a.       Front End Detection
Pada proses front-end ini, sinyal-sinyal yang dideteksi sebagai noise dipotong dan diambil sinyal informasinya saja sehingga didapatkan hasil sebagai berikut :

Gambar 2.7 Hasil Front-End Detection Sinyal Informasi

Dari Gambar dapat dilihat bahwa dengan menggunakan program front end dapat dilakukan pemisahan antara sinyal informasi dengan noise. Hasil dari standart deviasi dan rata-rata pada proses sebelumnya akan digunakan sebagai parameter untuk menentukan awal dan akhir suara/voiced atau suara akan memiliki nilai power yang melebihi nilai dari standart deviasi dan rata-rata dari voiced. Penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan Voiced ≥(Standar Deviasi + Rata-rata).
b.      Frame Blocking
Pada proyek akhir ini sinyal suara dipotong sepanjang 20 mili detik. Setiap potongan tersebut disebut frame. Jadi dalam satu frame terdapat 240 sampel dari 12000 sampel yang ada. Hasil nilai dari proses ini adalah sebagai berikut :


Gambar 2.8 Frame Ke-1 Sinyal Suara “Novi”

Dari gambar hasil frame blocking, dapat dilihat bahwa sinyal informasi dibagi menjadi beberapa frame untuk mempermudah proses komputasi. Suara memiliki unsur terkecil yang diprediksi oleh para ahli speech adalah sepanjang 10 ms. Karena pada proses windowing harus dikalikan dua, maka ditentukanlah 20 ms untuk setiap potongan frame.

2.6 Pengolahan Sinyal
Pengolahan sinyal memiliki beberapa tahapan seperti :
a.       Windowing
Setelah proses frame blocking, sinyal melakukan proses window untuk mengurangi efek diskontinuitas ketika sinyal ditransformasikan kedomain frekuensi. Proses window dilakukan tiap-tiap frame yang terdiri 240 data sample. Karena adanya pergeseran inilah kemungkinan puncak-puncak yang mestinya terambil menjadi terpotong dapat terjadi. Data sinyal sebelum dan sesudah Windowing untuk kata “diktat” ditunjukkan dalam gambar berikut ini :

                 
Gambar 2.9 Sinyal Informasi Frame 1 Sebelum dan Sesudah Proses Hamming Window

Terlihat banwa window hamming menyebabkan sinyal yang di-framing lebih halus. Hal ini membuktikan bahwa fungsi dari windowing untuk mengurangi efek discontinuitas pada ujung frame.
b.      Discrete Fourier Transform (DFT)
DFT dilakukan dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2, masing-masing (N/2) titik transformasi. Proses memecah menjadi 2 diteruskan dengan membagi (N/2) titik menjadi (N/4) dan seterusnya hingga diperoleh titik minimum. Pemakaian DFT karena untuk penghitungan komputasi yang lebih cepat dan mampu mereduksi jumlah perkalian dari N2 menjadi N log N perkalian. DFT yang digunakan memakai 256 titik dan arena hasil DFT simetris, maka keluaran DFT tersebut hanya diambil sebanyak 128 data. Hasil dari proses DFT akan diperoleh titik-titik sinyal yang simetris sehingga data yang diambil hanya setengah dari data keseluruhan. Dari gambar 2.9 hasil Discrete Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz, yang telah mencakup daerah daerah spektrum frekuensi dari suara manusiayaitu antara 300 sampai 3400 Hz. Agar dapat diketahui, apakah program DFT yang dibuat telah benar, maka program DFT dibandingkan dengan sintax fft yang sudah tersedia dalam software WaveSurfer. Berikut contoh dft sinyal suara kata “Novi” yang dibuat dalam 2 jenis software.

Gambar 2.10 Perbandingan Sinyal Informasi Proses DFT Sistem dan Program Wavesurfer

Dapat dilihat bahwa hasil DFT sinyal suara yang telah dibuat dalam bahasa C menghasilkan hasil yang sama persis dengan DFT menggunakan software Wavesurfer, hal ini membuktikan bahwa algoritma DFT yang dibuat dan digunakan dalam sistem ini sudah benar.

2.7 Pengolahan Data
Pengolahan data terdiri dari beberapa tahapan yaitu seperti :
a.       Inverse Discrete Fourier Transform (IDFT)
Pada proses ini akan mengambil 20 buah data yang dapat mewakili data tiap frame. 20 buah data nanti yang akan dipakai sebagai fitur yang dapat mempresentasikan masing-masing frame. Berikut ini merupakan hasil dari liftering dari kata ”Novi”.

Gambar 2.11 Sinyal Informasi Proses DFT Sistem Pada 1,2,3 Kata Novi 256 Titik dan 128 Titik

b.    Liftering
Pada proses ini mengambil 40 buah data yang dapat mewakili seluruh data dalam 1 frame, alasan mengapa diambil 40 buah data, meskipun sebenarnya yang dibutuhkan hanya 20 data saja adalah karena pada proses berikutnya (pencarian cepstrum DFT), data akan berupa pencerminan sehingga nantinya akan didapatkan 20 data saja. 40 buah data inilah yang nantinya akan dijadikan sebagai input dari proses pencarian cepstrum DFT yang kemudian akan dipakai sebagai fitur yang dapat mempresentasikan masing-masing frame. Liftering merupakan proses dari pemisahan elemen cepstrum dalam dua faktor yaitu fundamentalperiod dan spectral envelope. Dimana untuk mendapatkan spectral envelope, elemen quefrency yang rendah harus melalui proses DFT. Sedangkan untuk mendapatkan fundamental period, elemen quefrency yang tinggi harus melalui proses ekstraksi puncak.

Gambar  2.12 Sinyal Informasi Proses Liftering Sistem Pada Frame 1,2,3, Kata “Novi”

c.       Cepstrum DFT (Spectral Envelope)
Cepstrum DFT merupakan bentuk selimut atau selubung dari DFT, jadi sinyal yang masuk proses  liftering kemudian di DFT lagi serta dicari selubung dari DFT tersebut.




Gambar  2.13 Sinyal Informasi Proses Cepstrum Sistem Pada Frame 1,2,3, Kata “Novi”





BAB III
PENUTUP


3.1 Kesimpulan
Dari proses perancangan, implementasi dan pengujian dapat diambil beberapa kesimpulan :
1. Proses verifikasi user dapat dilakukan dengan menggunakan perintah suara.
2. Suara dapat diklasifikasikan menjadi 3 keadaan yang berbeda, yaitu silence, voiced dan unvoiced dengan cara sampling Terdapat library yang dapat diintegrasikan dengan program C yang dapat membantu mentransformasikan sinyal dari domain waktu ke domain frekuensi agar dapat diproses lebih lanjut.
3. Fitur untuk membandingkan suara dapat diperoleh melalui DFT Cepstrum. Rata-rata cepstrum yang dipergunakan dalam setiap codebook belum sepenuhnya mencerminkan ciri dari suara dikarenakan besarnya varian antar data yang terjadi.
4. DTW (Dynamic Time Warping) merupakan cara untuk membandingkan pola wicara dalam menentukan kesamaan jarak antara pola-pola yangberbeda. Algoritma ini mengukur jarak antara dua time series sehingga didapatkan pengurutan, kemampuan penggunaan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi.
5. Tingkat keberhasilan sistem berkisar antara 83% - 95% untuk pengujian secara offline dan 77% - 85% untuk pengujian secara online. Keberhasilan sistem dapat ditunjukkan dengan berhasilnya proses verifikasi user yang telah diujikan.

3.2 Saran
Sebaiknya teknologi pengenalan suara ini agar segera diterapkan contohnya pada dunia perbankkan atau dalam hal keamanan karena keamanan dan kerahasiaannya terjamin jika menggunakan teknologi ini.





DAFTAR PUSTAKA

Akhmad Arman Arry, “Konversi Dari Teks ke Ucapan”, Departemen Teknik Elektro ITB.
Akhmad Arman Arry, “Teknologi Pemrosesan Bahasa Alami Sebagai Teknologi Kunci untuk
Meningkatkan Cara Interaksi antara Manusia dengan Mesin”, Departemen Teknik Elektro ITB, 2004.
Buku Diktat Speech Processing”, Universitas PETRA
Blachere, “Word Distance on the Discrete Heisenberg Group”, Colloquium Mathematicum, 2003
Campbell P. Joseph JR, “ Voice Recognition”, IEEE, September 1997
Gabriel COSTACHE, Inge GAVAT, Adrian RAILEANU, Gabriel COSTACHE, Inge GAVAT, Adrian RAILEANU, ”Voiced Command
Huda Miftahul, Bima, “Pelatihan Tcl/Snack”,PENS – ITS, Surabaya, 2005 Melissa Gressia, “Pencocokan Pola Suara (Speech Recognition) Dengan Algoritma FFT Dan Divide And
              Conquer”, Teknik Informatika – Sekolah Teknik Elektro dan Informatika – Institut Teknologi Bandung, 2008.
Rabiner, Biing Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall International Inc,
Yuan Li-Chan, “Understanding Speech Recognition”, 1998

Comments