MAKALAH
PENGOLAHAN SINYAL
“ PERANGKAT LUNAK VERIFIKASI SUARA
DENGAN
METODE PENGOLAHAN SINYAL “
OLEH :
SUPRIADI SABUKTIONO
E1D1 14 037
JURUSAN
TEKNIK ELEKTRO
FAKULTAS
TEKNIK
UNIVERSITAS
HALU OLEO
2016
KATA
PENGANTAR
Puji syukur kehadirat Allah SWT Dzat penguasa alam semesta
yang telah memberikan taufiq, rahmat, hidayah serta hidayahnya sehingga saya dapat
beraktivitas untuk menyusun dan menyelesaikan makalah yang berjudul “ Perangkat
Lunak Verifikasi Suara Dengan Metode Pengolahan Sinyal “ ini.Saya berharap karya ilmiah ini dapat membantu dan menambah
wawasan saudara-saudari yang ingin lebih memahami atau mengetahui sekilas
tentang “Pengolahan Sinyal “.
Penyusunan makalah ini bertujuan untuk memenuhi tugas pengolahan sinyal yang diberikan oleh
dosen mata kuliah pengolahan
sinyal yang
berisi informasi tentang “ Perangkat Lunak Verifikasi Suara Dengan
Metode Pengolahan Sinyal “.
Dan saya harapkan pembaca dapat
mengetahui berbagai aspek yang berhubungan dengan pengolahan sinyal yang akan penulis bahas.
Penulis menyadari bahwa makalah ini masih
jauh dari sempurna, oleh karena itu kritik dan saran dari semua pihak yang
bersifat membangun selalu penulis harapkan demi kesempurnaan makalah ini di masa yang akan
datang.
Akhir kata,penulis sampaikan terima kasih kepada semua pihak yang telah
berperan serta dalam penyusunan makalah ini dari awal sampai akhir. Semoga
Tuhan Yang Maha Esa senantiasa meridhoi segala usaha kita. Amin.
Dan akhirnya semoga makalah ini bermanfaat bagi kita semua
terutama bagi pembaca. Terima kasih,
Kendari, 22 Mei 2016
Penulis
DAFTAR
ISI
Kata
Pengantar .....................................................................................................................
Daftar
Isi ................................................................................................................................
BAB
I Pendahuluan
1.1 Latar Belakang ......................................................................................................
1.2 Rumusan Masalah .................................................................................................
1.3 Tujuan Penulisan ...................................................................................................
BAB
II Pembahasan
2.1
Speech Recognation (Pengenalan Wicara) ..........................................................
2.2
Sistem Pengolahan Sinyal Suara ..........................................................................
2.3
DTW (Dynamic Time Warping) ...........................................................................
2.4
Perekaman Suara ..................................................................................................
2.5
Pemprosesan Suara ...............................................................................................
2.6
Pengolahan Sinyal ..................................................................................................
2.7
Pengolahan Data ....................................................................................................
BAB
III Penutup
3.1
Kesimpulan .............................................................................................................
3.2
Saran .......................................................................................................................
Daftar
Pustaka ......................................................................................................................
BAB
I
PENDAHULUAN
1.1 latar Belakang
Sebuah verifikasi
memiliki peranan yang sangat penting di dalam perusahaan yang memiliki sebuah
sistem. Hak akses yang dan kepentingan yang berbeda itulah maka perlu adanya pengaturan
dan pembatasan bagi tiap user dengan alasan penyalah gunaan dan perlindungan
perubahan data yang mungkin saja terjadi karena ketidak sengajaan. Yang sering
di gunakan adalah penggunaan password, namun password masih di rasa kurang dari
segi keamanan, untuk itu dibuat salah satu alternatife pemecahan masalah untuk
kasus ini, yaitu sebuah perangkat lunak untuk mengenali user berdasarkan input
suara, yang di dalamnya terdapat pilihan parameter pemberian input, yaitu
berdasarkan nama, alamat dan lain sebagainya. Penelitian ini
mengkalisifikasikan bagian bagian atau komponen sinyal ucapan menjadi tiga
keadaan yang berbeda, yaitu silence, voiced dan unvoiced. Kemudian
membandingkan pola wicara dalam menentukan kesamaan jarak antara pola pola yang
berbeda dan mentranformasikan sinyal dari domain waktu ke domain frekwnesi agar
sinyal dapat diproses dalam spektral substraksi.
Membuat suatu perangkat
lunak untuk mengenali pengguna yang mengakses aplikasi yang di dalamnya
terdapat proses sehingga suara yang diinputkan akan dikenali oleh sistem, dan
dapat digunakan sebagai password dan pengaturan penggunaan hak akses user.
Aplikasi yang akan di buat ini diharapkan dengan harapan dapat membantu
meningkatkan tingkat keamanan dengan mengganti input yang sebelumnya
menggunakan text atau tulisan menjadi sebuah bentuk suara.
1.2.Rumusan
Masalah
1.
Apa
pengertian dari Speech Recognation?
2. Apa saja yang termasuk Konfigurasi ideal ?
3. Apa pengertian dari Front End Detection ?
4. Apa pengertian dari Windowing ?
5.
Apa
pengertian dari Cepstrum DFT (Spectral Envelope) ?
1.3.Tujuan Penulisan
Adapun tujuan yang ingin dicapai dari makalah ini adalah:
1.
Mengetahui
pengertian dari Speech Recognation
2.
Mengetahui
yang termasuk Konfigurasi
ideal
3.
Mengetahui
pengertian dari Front End Detection
4.
Mengetahui
pengertian dari Windowing
5.
Mengetahui
pengertian dari Cepstrum DFT (Spectral Envelope)
BAB
II
PEMBAHASAN
2.1 Speech Recognation (Pengenalan Wicara)
Speech
Recognation (Pengenalan Wicara) adalah
Sebuah proses yang dilakukan oleh komputer atau jenis mesin yang lain
dalam mengenali kata yang diucapkan. Pada dasarnya, memiliki arti “berbicara
dengan komputer, dan mengenali dengan benar apa yang kita katakan”. Gressia
Melissa mengatakan bahwa voice recognation dibagi menjadi 2 jenis, yaitu speech
recognation dan speaker recognation. Parameter yang dibandingkan adalah tingkat
penekanan suara yang kemudian dicocokkan dengan template database yang tersedia.
Sistem
Speech Recognition biasanya dapat dioperasikan pada dua mode yang berbeda yaitu
:
1. Mode
pembelajaran
Pada
mode ini, sistem akan dilatih menggunakan sejumlah kata atau kalimat yang
memenuhi suatu kriteria tertentu. Setiap contoh kata atau kalimat ajar tersebut
akan menghasilkan pola tertentu yang akan dipelajari oleh sistem dan disimpan
sebagai template atau referensi.
2. Mode
produksiatau Pengenalan ucapan
Pada
mode ini, setiap kalimat yang ingin dikenali akan dianalisis polanya.
Berdasarkan hasil perbandingan dengan template atau referensi modul klasifikasi
pola serta pengambil keputusan akan mengidentifikasikan kata atau kalimat yang
diucapkan tersebut.
2.2 Sistem Pengolahan
Sinyal Suara
Diagram
blok untuk pengolahan sinyal suara pada fase pembelajaran (training phase)
adalah sebagai berikut :

Gambar 2.1 Diagram Blok Sistem Pengenalan Wicara
pada enrollment phase
Perancangan
sistem dilakukan berdasarkan pada diagram pembelajaran (enrollment phase) dan
diagram pengujian (testing phase) dimana untuk diagram enrollment phasesistem
akan melakukan dan menganalisa sedemikian rupa sinyal suara/ wicara dari
pengguna kemudian dimasukkan ke dalam database. Sedangkan untuk pengujian bahwa
sinyal suara yang dimasukkan ke dalam sistem akan dikenali melalui cara
pembandingan dengan data pada database, setelah itu sistem akan mengambil keputusan
berdasarkan hasil pembandingan data tersebut.
Dari
pengujian dan analisa, maka akan diketahui tingkat keberhasilan dan tingkat
kekurangan dari sistem atau software yang telah dibuat. Pengujian yang
dilakukan meliputi : Pengujian dan analisa sistem pengolahan sinyal suara (mode pembelajaran), pengujian
dan analisa hasil SSE programming, pengujian dan analisa sistem aplikasi
pengenalan suara untuk mengakses database user/ pegawaian (mode pengujian).
2.3 DTW (Dynamic Time
Warping)
Pengujian
terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil
cepstrum antara data input dan data standarnya. Pengujian dilakukan dalam 2
tahap, yaitu secara offline dan secara online.
Tabel
2.1 Nilai Error & Action pada pengujian secara Offline System
Dari
kira kira 30 percobaan serupa dengan 30 kata yang berbeda, didapatkan 5 kata
yang tidak match pada saat proses matching dilakukan, jadi sekitar 5/30 = 17%
bagian yang tidak match, kemudian digunakan 30 kata sebagai kata standard yang
terdiri dari 15 kata untuk code book laki-laki dan 15 kata untuk code book
perempuan dan kata masukan untuk masinsg masing pengujian dengan kata standard
sebanyak 1 kali.
Tabel
2.2 Nilai error & Action Pada Pengujian Secara Online System
Dari
15 percobaan serupa dengan 5 kata yang sama namun memiliki pola penyuaraan
(volume) dan pengucapan yang berbeda, didapatkan 1 kata yang tidak match saat
proses matching dilakukan, jadi sekitar 5/15 bagian yang tidak match, atau
dapat dikatakan bahwa prosentase error sistem bila dilakukan pengetesan online
yaitu sekitar 33%, sedangkan sisanya, yaitu 77 % data berhasil termatch dengan
baik.
2.4 Perekaman Suara
Proses perekaman merupakan
titik kritis, karena proses perekaman ini akan menjadi dasar dalam penentuan
model akustik.
Gambar 2.2 Parameter Perekaman di
Wavesurfer
Berikut
contoh hasil perekaman suara yang telah disimpan dan dibangkitkan dengan
menggunakan software perekaman suara yang telah kamibuat dari integrasi Tcl/Tk
dan Snack :
Gambar
2.3 Aplikasi Mode Perekaman
Dari
hasil perekaman seperti pada gambar 2.3 dapat dilihat bahwa sinyal suara bebas
dari noise karena ruang perekaman dan perangkat perekaman sudah sesuai dengan
konfigurasi standart. Dari proses perekaman yang dilakukan juga ditemukan
adanya korelasi positif antara kuat lemahnya amplitudo dengan sinyal suara yang
dihasilkan. Semakin tinggi amplitudo, maka semakin bagus sinyal suara yang dihasilkan
karena mampu menekan noise yang ada di sekitar.
Gambar
2.4 Sinyal Suara Bernoise
Untuk
menghasilkan rekaman kata yang akurat dan bebas noise, diperlukan konfigurasi
yang ideal atau konfigurasi tidak ideal yang masih bisa ditolerir yaitu :
a. Konfigurasi
ideal, meliputi :
1. Penggunaan
microphone kualitas tinggi yang dirancang khusus untuk ucapan, yaitu microphone
yang respon frekuensinya tidak terlalu lebar dan ada di daerah jangkauan
frekuensi suara manusia. Microphone jenis ini akan menekan suara-suara lain
yang ada di luar daerah jangkauan suara manusia.
2. Penggunaan
alat perekam digital yang mempunyai saluran input microphone kualitas tinggi
dan saluran digital yang memungkinkan transfer data secara digital ke PC.
3. Penggunaan
sound card khusus pada PC yang dilengkapi dengan saluran optik digital.
4. Perekaman
dilakukan tanpa PC atau laptop, sehingga akan mengurangi tingkat kebisingan
akibat kipas pendingin komputer. Setelah perekaman selesai dilakukan, lakukan
transfer data secara digital (optik) ke PC melalui soundcard khusus yang telah
disiapkan.
b. Konfigurasi
Tidak Ideal yang Masih Dapat Diterima, meliputi :
1. Gunakan
microphone kualitas tinggi.
2. Gunakan
pre-amplifier eksternal yang low-noise dan dapat diatur level input dan
outputnya. Hubungkan microphone ke saluran input pre-amplifier.
3. Gunakan
laptop (notebook) yang berkualitas bagus, sehingga suara kipas yang
dihasilkannya tidak terlalu bising.
4. Hubungkan
output pre-amplifier ke notebook melalui jalur audio menggunakan kabel audio
yang kualitasnya baik.
5. Aturlah
level input dan output pre-amplifier serta level input perekaman pada notebook,
sehingga menghasilkan suara yang bersih, noise rendah, levelnya cukup besar,
tapi tidak pernah mencapai level maksimum.
Dengan menggunakan
program yang telah dibuat sesuai dengan parameter perekaman pada gambar 2.2 proses
sampling sinyal standart menggunakan frekuensi sampling sebesar 12000 Hz. Data
sinyal suara yang didapatkan dari kata ”Novi” adalah sebagai berikut :
Gambar 2.5
Sinyal suara “Novi”
Dengan frekuensi sampling sebesar 12000 Hz, maka
didapatkan bentuk sinyal yang hampir mirip dengan sinyal analognya seperti pada
gambar 2.4 karena sinyal suara manusia memiliki jarak frekuensi antara 300
sampai 3400 Hz, dimana syarat Nyquist minimal fsampling ≥ 2 x fsinyal telah
terpenuhi.
Dengan membandingkan program sampling yang terdapat
dalam software, maka didapat maka didapat hasil seperti pada gambar berikut
ini.
Gambar 2.6 Perbandingan Sinyal Hasil Sampling Dengan
Matlab dan Hasil Pengolahan Sistem
Dari gambar dapat dilihat bahwa program pembacaan
sinyal yang telah dibuat dalam bahasa C menghasilkan hasil yang sama persis
dengan sampling menggunakan software Matlab, hal ini membuktikan bahwa algoritma
sampling yang dibuat sudah benar.
2.5
Pemprosesan Suara
Pemprosesan suara
terdiri dari beberapa tahap yaitu :
a. Front
End Detection
Pada
proses front-end ini, sinyal-sinyal yang dideteksi sebagai noise dipotong dan
diambil sinyal informasinya saja sehingga didapatkan hasil sebagai berikut :
Gambar 2.7 Hasil
Front-End Detection Sinyal Informasi
Dari
Gambar dapat dilihat bahwa dengan menggunakan program front end dapat dilakukan
pemisahan antara sinyal informasi dengan noise. Hasil dari standart deviasi dan
rata-rata pada proses sebelumnya akan digunakan sebagai parameter untuk menentukan
awal dan akhir suara/voiced atau suara akan memiliki nilai power yang melebihi
nilai dari standart deviasi dan rata-rata dari voiced. Penentuan awal dan akhir
dari sinyal suara dapat diperoleh dengan Voiced ≥(Standar Deviasi + Rata-rata).
b. Frame
Blocking
Pada proyek akhir ini
sinyal suara dipotong sepanjang 20 mili detik. Setiap potongan tersebut disebut
frame. Jadi dalam satu frame terdapat 240 sampel dari 12000 sampel yang ada.
Hasil nilai dari proses ini adalah sebagai berikut :
Gambar
2.8 Frame Ke-1 Sinyal Suara “Novi”
Dari gambar hasil frame blocking, dapat dilihat
bahwa sinyal informasi dibagi menjadi beberapa frame untuk mempermudah proses
komputasi. Suara memiliki unsur terkecil yang diprediksi oleh para ahli speech
adalah sepanjang 10 ms. Karena pada proses windowing harus dikalikan dua, maka ditentukanlah
20 ms untuk setiap potongan frame.
2.6
Pengolahan Sinyal
Pengolahan sinyal
memiliki beberapa tahapan seperti :
a. Windowing
Setelah
proses frame blocking, sinyal melakukan proses window untuk mengurangi efek diskontinuitas
ketika sinyal ditransformasikan kedomain frekuensi. Proses window dilakukan
tiap-tiap frame yang terdiri 240 data sample. Karena adanya pergeseran inilah
kemungkinan puncak-puncak yang mestinya terambil menjadi terpotong dapat
terjadi. Data sinyal sebelum dan sesudah Windowing untuk kata “diktat”
ditunjukkan dalam gambar berikut ini :
Gambar 2.9 Sinyal Informasi Frame 1
Sebelum dan Sesudah Proses Hamming Window
Terlihat banwa
window hamming menyebabkan sinyal yang di-framing lebih halus. Hal ini membuktikan
bahwa fungsi dari windowing untuk mengurangi efek discontinuitas pada ujung
frame.
b. Discrete
Fourier Transform (DFT)
DFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2,
masing-masing (N/2) titik transformasi. Proses memecah menjadi 2 diteruskan
dengan membagi (N/2) titik menjadi (N/4) dan seterusnya hingga diperoleh titik
minimum. Pemakaian DFT karena untuk penghitungan komputasi yang lebih cepat dan
mampu mereduksi jumlah perkalian dari N2 menjadi N log N perkalian.
DFT yang digunakan memakai 256 titik dan arena hasil DFT simetris, maka
keluaran DFT tersebut hanya diambil sebanyak 128 data. Hasil dari proses DFT
akan diperoleh titik-titik sinyal yang simetris sehingga data yang diambil
hanya setengah dari data keseluruhan. Dari gambar 2.9 hasil Discrete Fourier
Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal
suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz, yang telah
mencakup daerah daerah spektrum frekuensi dari suara manusiayaitu antara 300
sampai 3400 Hz. Agar dapat diketahui, apakah program DFT yang dibuat telah
benar, maka program DFT dibandingkan dengan sintax fft yang sudah tersedia
dalam software WaveSurfer. Berikut contoh dft sinyal suara kata “Novi” yang
dibuat dalam 2 jenis software.
Gambar 2.10 Perbandingan Sinyal Informasi Proses DFT
Sistem dan Program Wavesurfer
Dapat dilihat bahwa hasil DFT sinyal suara yang
telah dibuat dalam bahasa C menghasilkan hasil yang sama persis dengan DFT
menggunakan software Wavesurfer, hal ini membuktikan bahwa algoritma DFT yang
dibuat dan digunakan dalam sistem ini sudah benar.
2.7
Pengolahan Data
Pengolahan data terdiri
dari beberapa tahapan yaitu seperti :
a. Inverse
Discrete Fourier Transform (IDFT)
Pada proses ini
akan mengambil 20 buah data yang dapat mewakili data tiap frame. 20 buah data
nanti yang akan dipakai sebagai fitur yang dapat mempresentasikan masing-masing
frame. Berikut ini merupakan hasil dari liftering dari kata ”Novi”.
Gambar 2.11 Sinyal Informasi Proses DFT
Sistem Pada 1,2,3 Kata Novi 256 Titik dan 128 Titik
b. Liftering
Pada
proses ini mengambil 40 buah data yang dapat mewakili seluruh data dalam 1
frame, alasan mengapa diambil 40 buah data, meskipun sebenarnya yang dibutuhkan
hanya 20 data saja adalah karena pada proses berikutnya (pencarian cepstrum
DFT), data akan berupa pencerminan sehingga nantinya akan didapatkan 20 data
saja. 40 buah data inilah yang nantinya akan dijadikan sebagai input dari
proses pencarian cepstrum DFT yang kemudian akan dipakai sebagai fitur yang
dapat mempresentasikan masing-masing frame. Liftering merupakan proses dari
pemisahan elemen cepstrum dalam dua faktor yaitu fundamentalperiod dan spectral
envelope. Dimana untuk mendapatkan spectral envelope, elemen quefrency yang
rendah harus melalui proses DFT. Sedangkan untuk mendapatkan fundamental
period, elemen quefrency yang tinggi harus melalui proses ekstraksi puncak.

Gambar
2.12 Sinyal Informasi Proses Liftering Sistem Pada Frame 1,2,3, Kata
“Novi”
c.
Cepstrum DFT (Spectral Envelope)
Cepstrum DFT merupakan
bentuk selimut atau selubung dari DFT, jadi sinyal yang masuk proses liftering kemudian di DFT lagi serta dicari
selubung dari DFT tersebut.
Gambar 2.13 Sinyal Informasi Proses Cepstrum Sistem
Pada Frame 1,2,3, Kata “Novi”
BAB
III
PENUTUP
3.1
Kesimpulan
Dari proses perancangan,
implementasi dan pengujian dapat diambil beberapa kesimpulan :
1.
Proses verifikasi user dapat dilakukan dengan menggunakan perintah suara.
2. Suara dapat diklasifikasikan
menjadi 3 keadaan yang berbeda, yaitu silence, voiced dan unvoiced dengan cara
sampling Terdapat library yang dapat diintegrasikan dengan program C yang dapat
membantu mentransformasikan sinyal dari domain waktu ke domain frekuensi agar
dapat diproses lebih lanjut.
3. Fitur untuk membandingkan suara
dapat diperoleh melalui DFT Cepstrum. Rata-rata cepstrum yang dipergunakan
dalam setiap codebook belum sepenuhnya mencerminkan ciri dari suara dikarenakan
besarnya varian antar data yang terjadi.
4. DTW (Dynamic Time Warping)
merupakan cara untuk membandingkan pola wicara dalam menentukan kesamaan jarak
antara pola-pola yangberbeda. Algoritma ini mengukur jarak antara dua time
series sehingga didapatkan pengurutan, kemampuan penggunaan pola pengenalan
wicara dan masalah waktu penjajaran dan normalisasi.
5. Tingkat keberhasilan sistem
berkisar antara 83% - 95% untuk pengujian secara offline dan 77% - 85% untuk
pengujian secara online. Keberhasilan sistem dapat ditunjukkan dengan
berhasilnya proses verifikasi user yang telah diujikan.
3.2
Saran
Sebaiknya teknologi pengenalan
suara ini agar segera diterapkan contohnya pada dunia perbankkan atau dalam hal
keamanan karena keamanan dan kerahasiaannya terjamin jika menggunakan teknologi
ini.
DAFTAR
PUSTAKA
Akhmad Arman Arry, “Konversi Dari
Teks ke Ucapan”, Departemen Teknik Elektro ITB.
Akhmad Arman Arry, “Teknologi
Pemrosesan Bahasa Alami Sebagai Teknologi Kunci untuk
Meningkatkan Cara Interaksi antara Manusia dengan
Mesin”, Departemen Teknik Elektro ITB, 2004.
Buku Diktat Speech Processing”,
Universitas PETRA
Blachere, “Word Distance on the
Discrete Heisenberg Group”, Colloquium Mathematicum, 2003
Campbell P. Joseph JR, “ Voice
Recognition”, IEEE, September 1997
Gabriel COSTACHE, Inge GAVAT,
Adrian RAILEANU, Gabriel COSTACHE, Inge GAVAT, Adrian RAILEANU, ”Voiced Command
Huda Miftahul, Bima, “Pelatihan
Tcl/Snack”,PENS – ITS, Surabaya, 2005 Melissa Gressia, “Pencocokan Pola Suara
(Speech Recognition) Dengan Algoritma FFT Dan Divide And
Conquer”,
Teknik Informatika – Sekolah Teknik Elektro dan Informatika – Institut
Teknologi Bandung, 2008.
Rabiner, Biing Hwang Juang,
“Fundamentals of Speech Recognition”, Prentice Hall International Inc,
Yuan Li-Chan, “Understanding Speech
Recognition”, 1998
Comments
Post a Comment