질문
1. 아래 그림에서 알 수 있는 것은?
2. 뭘 그린건가요?
- vocal tract frequency response
3. 가운데 그림은 뭘 나타낸 건가요?
- 가운데 그림 → 음성을 모델링, glottal pulse에 대해서 vocal tract system의 output
- 가운데에서 왼쪽 걸 빼면 뭐가 나올까요? → glottal pulse train의 log magnitude spectrum (excitation source) log scale이니까 뺄 수 있는 것임 logX(e^jw)
- 세번째에서 첫 번째 그림을 빼면 pitch frequency만 다르게 보일 것
4. zero-crossing rate이 뭔가요?
5. 아래 써져있는 말이 정녕 맞는 말인가요?
6. speech enhancement를 하는 이유는?
- 사람은 noise에 sensitive하지만 시스템의 경우 noise에 sensitive하지 않음
7. 코멘트
- voice fricative의 경우에는 zero crossing rate이 크므로 무작정 높다고 unvoiced라고 판단하는 건 옳지 않음
음성인식 하면 이 단원 중요합니다.