RVC Q&A 페이지 참조 젤다
Q9. 적당한 에포크값은 어느 정도인가
학습 데이터 품질이 낮은경우 ( 노이즈등 ) 20~30 에포크 ( 쓰레기 값이 많으면 학습 많이 돌려도 구리다 )
학습 데이터 품질이 좋은경우 ( 닥터아퀴나스 ) 200 에포크 정도
Q10. 필요한 학습데이터 시간
10분 ~ 50분 ( 총 길이 )
학습 데이터가 균일하면 더 넣어도 됨
학습 데이터 퀄리티가 좋은경우 ( 음색이 다양한, 해당 화자의 음성 특징이 살아있어야함 ) 5 ~ 10분
1 ~ 2분 데이터로 성공한 경우가 있지만 특별한 경우
Q11. 인덱스 검색 특성 비율 ( Search feature ratio ) 은 무슨 용도인가
학습모델 음색값이 약할경우 추론곡에 묻혀버리는 경우를 방지하기 위함
인덱스는 학습한 음색을 추론곡에 섞을때 사용함
특성 비율을 1로 맞추면 음색을 학습 데이터에 덮어버림
이 수치를 조절해서 추론곡의 음색과 학습곡의 음색을 섞어서 자연스럽게 하는게 목적
이 인덱스 부분 독타 방송보다 어떻게 써먹을지 알아서 좋았어요
이제 다른값도 어떻게 작동하는지 공부할시간...
독타맛 보컬 DinoDance