2024-03-21 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 1/2

질문

1. 음성 생성 메커니즘 설명해보기

2. quasi-periodic이 뭔가요?

3. quasi-periodic 신호가 되기 전까지 15ms까지 추정하기 힘든 파라미터가 있다고 했는데 그 파라미터 예시를 설명해주세요.

4. 두 번째 불렛 설명해보기

5. acoustic wave가 time-varying한 이유

6. time-varying으로 인해 발생하는 문제

7. vocal tract이 time-varying하면 acoustic wave가 달라지게 되는데 그러면 뭐가 달라지죠?

조음기관의 변화

8. unvoiced와 voiced가 있을 때 위치를 어떻게 구별할 수 있을까요?

zerocrossing rate

9. pitch period, pitch frequency(f0), harmonic 정의

10. frequency response가 뭐에요?

11. 아래 그림에서 frequency resonse가 계속 동일할까요?

12. frequency response는 무엇을 표현하기 위함인가요? 무엇을 모델링하는 걸까?

vocal tract의 상태, vocal tract을 하나의 필터링 시스템으로 봄

13. 아래 그림 상에서 목소리에 대한 특징을 없애고 싶으면 뭘 건드리면 될까요?

formant frequency를 조금만 바꿔도 화자 정보가 바뀔 수 있음
formant shift, f1/f2/f3 매핑 작업을 통해 voice conversion을 할 수 있음

14. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)

15. 아래 그림을 통해 resolution이 뭔지 설명해보세요.

분해능: 서로 떨어져있는 두 주파수 성분을 구별할 수 있는 정도
분해능 좋다 -> high resolution
분해능 안좋다 -> low resolution

16. 윈도우 길이 짧을때 / 길 때, 각각 wideband / narrowband로 인한 영향 설명해보기

17. 포먼트를 찾으려면 wideband가 나을까? narrowband가 나을까?

18. narrowband일 때 harmonic이 더 잘 관찰되는 이유

JW: fundamental frequency를 잘 알려면 pitch period를 잘 추정해야함 -> 시간 축에서 적당히 길게 봐야함 -> 윈도우가 적당히 길어야 함
YJ: narrowband면 frequency resolution이 더 좋아지기 때문에 서로 다른 주파수 성분을 더 잘 구별할 수 있게 됨

19. 아래 그림에서 sampling rate는 몇 Hz인가요?

20. 아래 그림을 voiced activity detection (VAD)하면 어떻게 나오나요?

21. spectral leakage가 무엇인가요?

22. 윈도우 길이에 따른 tradeoff에 대해 설명해주세요.

23. STFT를 수행할 때 short-time 설정 기준이 궁금합니다.

일반적으로 pitch period의 두 세 배 길이, 25ms

24. spectrogram에서 볼 수 있는 정보가 뭐가 있을까요?

time, frequency, energy

25. unvoiced 구간 안 중요한가요?

/s, /sh 같은 경우 스펙트로그램 상에서 하모닉이 없는 경우가 종종 있는데 이때 unvoiced 구간 보는 게 중요할 수도?

26. STFT를 하면 결과가 어떻게 나오나요? (실수로 나오나요? 복소수로 나오나요?)

complex

27. 음성신호를 분석할 때 고주파 대역이 중요한가요? 저주파 대역이 중요할까요?

저주파 대역에 중요한 정보들이 포함돼있음 (ex. 포먼트, f0, 하모닉)

숙제

1. STFT에서 왜 short time으로 분석을 하는 것인가? (time-varying, stationary)

2. 위에 있는 Narrowband spectrogram의 1.7~1.9 unvoiced 구간에서, frequency에 대한 magnitude graph를 그려주세요.

'신입생세미나_2024_1학기' 카테고리의 다른 글

2024-04-04 신입생 세미나_Hearing, Auditory Models, and Speech Perception 1/2 (0)	2024.04.04
2024-03-28 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 2/2 (0)	2024.03.28
2024-03-14 신입생 세미나 Review of Fundamentals of Digital Signal Processing의 Fundamentals of Digital Filters 후기 (0)	2024.03.14
2024-03-07 신입생 세미나_Review of Fundamentals of Digital Signal Processing 1/3 (0)	2024.03.07

sapl_신세

2024-03-21 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 1/2

질문

숙제

'신입생세미나_2024_1학기' 카테고리의 다른 글

티스토리툴바

2024-03-21 신입생 세미나_Fundamentals of Human Speech Production의 The Process of Speech Production과 Short-time Fourier Representation of Speech 1/2

질문

숙제

'신입생세미나_2024_1학기' 카테고리의 다른 글

'신입생세미나_2024_1학기' Related Articles

티스토리툴바