본문 바로가기

신입생세미나_2024_1학기

2024-03-21 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 1/2

질문

1. 음성 생성 메커니즘 설명해보기

 

2. quasi-periodic이 뭔가요?

3. quasi-periodic 신호가 되기 전까지 15ms까지 추정하기 힘든 파라미터가 있다고 했는데 그 파라미터 예시를 설명해주세요.

 

4. 두 번째 불렛 설명해보기

 

5. acoustic wave가 time-varying한 이유

6. time-varying으로 인해 발생하는 문제

7. vocal tract이 time-varying하면 acoustic wave가 달라지게 되는데 그러면 뭐가 달라지죠?

  • 조음기관의 변화

8. unvoiced와 voiced가 있을 때 위치를 어떻게 구별할 수 있을까요?

  • zerocrossing rate

9. pitch period, pitch frequency(f0), harmonic 정의

10. frequency response가 뭐에요?

 

11. 아래 그림에서 frequency resonse가 계속 동일할까요?

12. frequency response는 무엇을 표현하기 위함인가요? 무엇을 모델링하는 걸까?

  • vocal tract의 상태, vocal tract을 하나의 필터링 시스템으로 봄

 

13. 아래 그림 상에서 목소리에 대한 특징을 없애고 싶으면 뭘 건드리면 될까요?

  • formant frequency를 조금만 바꿔도 화자 정보가 바뀔 수 있음
  • formant shift, f1/f2/f3 매핑 작업을 통해 voice conversion을 할 수 있음

 

14. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)

 

15. 아래 그림을 통해 resolution이 뭔지 설명해보세요.

  • 분해능: 서로 떨어져있는 두 주파수 성분을 구별할 수 있는 정도
  • 분해능 좋다 -> high resolution
  • 분해능 안좋다 -> low resolution

 

16. 윈도우 길이 짧을때 / 길 때, 각각 wideband / narrowband로 인한 영향 설명해보기

17. 포먼트를 찾으려면 wideband가 나을까? narrowband가 나을까?

18. narrowband일 때 harmonic이 더 잘 관찰되는 이유

  • JW: fundamental frequency를 잘 알려면 pitch period를 잘 추정해야함 -> 시간 축에서 적당히 길게 봐야함 -> 윈도우가 적당히 길어야 함
  • YJ: narrowband면 frequency resolution이 더 좋아지기 때문에 서로 다른 주파수 성분을 더 잘 구별할 수 있게 됨

19. 아래 그림에서 sampling rate는 몇 Hz인가요?

20. 아래 그림을 voiced activity detection (VAD)하면 어떻게 나오나요? 

21. spectral leakage가 무엇인가요?

22. 윈도우 길이에 따른 tradeoff에 대해 설명해주세요.

23. STFT를 수행할 때 short-time 설정 기준이 궁금합니다.

  • 일반적으로 pitch period의 두 세 배 길이, 25ms

24. spectrogram에서 볼 수 있는 정보가 뭐가 있을까요?

  • time, frequency, energy

25. unvoiced 구간 안 중요한가요?

  • /s, /sh 같은 경우 스펙트로그램 상에서 하모닉이 없는 경우가 종종 있는데 이때 unvoiced 구간 보는 게 중요할 수도?

26. STFT를 하면 결과가 어떻게 나오나요? (실수로 나오나요? 복소수로 나오나요?)

  • complex

27. 음성신호를 분석할 때 고주파 대역이 중요한가요? 저주파 대역이 중요할까요?

  • 저주파 대역에 중요한 정보들이 포함돼있음 (ex. 포먼트, f0, 하모닉)

 

숙제

1. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)

2. 위에 있는 Narrowband spectrogram의 1.7~1.9 unvoiced 구간에서, frequency에 대한 magnitude graph를 그려주세요.