본문 바로가기

신입생세미나_2024_1학기

2024-03-28 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 2/2

질문

1. 아래 그림에서 알 수 있는 것은?

 

 

2. 뭘 그린건가요? 

  • vocal tract frequency response 

 

 

3. 가운데 그림은 뭘 나타낸 건가요?

 

  • 가운데 그림  →  음성을 모델링, glottal pulse에 대해서 vocal tract system의 output
  • 가운데에서 왼쪽 걸 빼면 뭐가 나올까요? → glottal pulse train의 log magnitude spectrum (excitation source) log scale이니까 뺄 수 있는 것임 logX(e^jw)
  • 세번째에서 첫 번째 그림을 빼면 pitch frequency만 다르게 보일 것

 

 

4. zero-crossing rate이 뭔가요?

 

 

5. 아래 써져있는 말이 정녕 맞는 말인가요?

 

 

6. speech enhancement를 하는 이유는?

  • 사람은 noise에 sensitive하지만 시스템의 경우 noise에 sensitive하지 않음

 

 

7. 코멘트

  • voice fricative의 경우에는 zero crossing rate이 크므로 무작정 높다고 unvoiced라고 판단하는 건 옳지 않음

음성인식 하면 이 단원 중요합니다.