질문
1. 음성 생성 메커니즘 설명해보기

2. quasi-periodic이 뭔가요?
3. quasi-periodic 신호가 되기 전까지 15ms까지 추정하기 힘든 파라미터가 있다고 했는데 그 파라미터 예시를 설명해주세요.

4. 두 번째 불렛 설명해보기

5. acoustic wave가 time-varying한 이유
6. time-varying으로 인해 발생하는 문제
7. vocal tract이 time-varying하면 acoustic wave가 달라지게 되는데 그러면 뭐가 달라지죠?
- 조음기관의 변화
8. unvoiced와 voiced가 있을 때 위치를 어떻게 구별할 수 있을까요?
- zerocrossing rate
9. pitch period, pitch frequency(f0), harmonic 정의
10. frequency response가 뭐에요?
11. 아래 그림에서 frequency resonse가 계속 동일할까요?
12. frequency response는 무엇을 표현하기 위함인가요? 무엇을 모델링하는 걸까?
- vocal tract의 상태, vocal tract을 하나의 필터링 시스템으로 봄

13. 아래 그림 상에서 목소리에 대한 특징을 없애고 싶으면 뭘 건드리면 될까요?
- formant frequency를 조금만 바꿔도 화자 정보가 바뀔 수 있음
- formant shift, f1/f2/f3 매핑 작업을 통해 voice conversion을 할 수 있음

14. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)
15. 아래 그림을 통해 resolution이 뭔지 설명해보세요.

- 분해능: 서로 떨어져있는 두 주파수 성분을 구별할 수 있는 정도
- 분해능 좋다 -> high resolution
- 분해능 안좋다 -> low resolution
16. 윈도우 길이 짧을때 / 길 때, 각각 wideband / narrowband로 인한 영향 설명해보기
17. 포먼트를 찾으려면 wideband가 나을까? narrowband가 나을까?
18. narrowband일 때 harmonic이 더 잘 관찰되는 이유
- JW: fundamental frequency를 잘 알려면 pitch period를 잘 추정해야함 -> 시간 축에서 적당히 길게 봐야함 -> 윈도우가 적당히 길어야 함
- YJ: narrowband면 frequency resolution이 더 좋아지기 때문에 서로 다른 주파수 성분을 더 잘 구별할 수 있게 됨
19. 아래 그림에서 sampling rate는 몇 Hz인가요?
20. 아래 그림을 voiced activity detection (VAD)하면 어떻게 나오나요?

21. spectral leakage가 무엇인가요?
22. 윈도우 길이에 따른 tradeoff에 대해 설명해주세요.
23. STFT를 수행할 때 short-time 설정 기준이 궁금합니다.
- 일반적으로 pitch period의 두 세 배 길이, 25ms
24. spectrogram에서 볼 수 있는 정보가 뭐가 있을까요?
- time, frequency, energy
25. unvoiced 구간 안 중요한가요?
- /s, /sh 같은 경우 스펙트로그램 상에서 하모닉이 없는 경우가 종종 있는데 이때 unvoiced 구간 보는 게 중요할 수도?
26. STFT를 하면 결과가 어떻게 나오나요? (실수로 나오나요? 복소수로 나오나요?)
- complex
27. 음성신호를 분석할 때 고주파 대역이 중요한가요? 저주파 대역이 중요할까요?
- 저주파 대역에 중요한 정보들이 포함돼있음 (ex. 포먼트, f0, 하모닉)
숙제
1. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)
2. 위에 있는 Narrowband spectrogram의 1.7~1.9 unvoiced 구간에서, frequency에 대한 magnitude graph를 그려주세요.