최근에 10덕 그림 그려주는 AI가 화제가 됐었죠
그때 쓰인 모델이 stable-diffusion 모델이라고 하는건데,
diffusion 모델의 원리는 대충 원본 사진을 주고 그 사진을 노이즈가 끼도록 망가뜨리게 시킵니다.
그리고 그걸 다시 복구하라고 시켜요.
원본 사진에는 키워드같은게 매칭되어있겠죠
이걸 반복학습 시키면 나중에 대충 노이즈만 던져주고 "자 이게 ~~였어, 노이즈를 제거해봐" 라고 시키면
AI는 있지도 않은 원본 그림을 복구해내는거죠.
AI 해치는 음성인데 왜 10덕 그림 AI를 설명하냐고요?
지금 유튜브에 나오고 있는 대부분의 AI 음성 학습 모델은 diff-svc 모델을 사용합니다.
diffusion 모델과 diff-svc모델.. 뭔가 이름에서 느낌이 오죠?
diff-svc 모델은 diffusion 모델을 기반으로 만들어졌습니다
diffusion 모델의 원리를 아니 diff-svc모델의 원리도 대충 짐작이 가죠?
음성을 파형, 즉 스펙트럼으로 봤더니 '어? 이거 이미지네?' 라고 생각이 든거죠
그래서 그대로 파형을 학습시키고 결과 추출할 음성에 학습한 파형의 특징을 잡아 덮어 씌우는겁니다.
대충 설명한 영상을 보고 대충 적은 글이라 잘못된 내용이 있을 수 있으니 재미로 참고용으로만 봐주세요
전 해치님의 잘부른 노래를 듣겠다는 일념 하에 AI해치 데이터셋 다시 다듬어서 더 퀄리티 좋게 학습시키러 가보겠읍니다