位置: IT常识 - 正文

基于so-vits-svc语音模型实现AI翻唱歌曲(svc语法)

编辑:rootadmin
基于so-vits-svc语音模型实现AI翻唱歌曲

目录

获取数据集

开始训练

开始推理(翻唱)


获取数据集

推荐整理分享基于so-vits-svc语音模型实现AI翻唱歌曲(svc语法),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于sysml,sov语言,svc语法,基于svm,sov语言,sov型语言是什么意思,基于svm,sov型语言举例,内容如对您有帮助,希望把文章链接给更多的朋友!

工具整合包来源

【AI翻唱/SoVITS 4.0】手把手教你老婆唱歌给你听~无需配置环境的本地训练/推理教程[懒人整合包]_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1H24y187Ko/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=bd7513aedfc5a6d9d2da276ca29e3cb5

音频来源

QQ音乐-HQ高品质下载

zutomayo的歌曲列表

Dear Mr [F]

去和声、混响、切片按上面教程来就好了

已得到数据集

本地硬件水平有限,上云端GPU服务器训练

【so-vits-svc】手把手教你老婆唱歌_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1vM4y1S7zB/?vd_source=bd7513aedfc5a6d9d2da276ca29e3cb5

AutoDL上选一个好显卡,镜像为up的改进版(加了webui和补充了很多注释)

资源清单

显卡:A5000,cuda版本11.6

镜像:so-vits-svc-webui

按readme.ipynb步骤走,最后开始训练

开始训练

训练的相关细节(config.json)

关于训练过程几个指标的关系参考如下

(167条消息) so-vits-svc3.0 中文详细安装、训练、推理使用教程_Sucial的博客-CSDN博客https://blog.csdn.net/Sucial/article/details/129104472

上面最多语音说话人的语音数可以理解为训练集大小,也就是说训练集越大,batch_size越小,训练就越快,但训练集比较大时,batch_size调太小猜测有可能会对训练效果产生影响 

一次处理数据集的数量:batch_size

如果数据集比较小,则推荐设置得小一点,比如我这次训练只是当作测试,数据集只用了一首歌,切成了12份,数据集大小就只有12,batch_size就只设置成了2,如果设置得太大会导致训练很久都训练不出一个模型,batch_size太大据说也比较吃显存,推荐设置成12以内,数据集很大再调高点

基于so-vits-svc语音模型实现AI翻唱歌曲(svc语法)

训练速度:learning_rate

按readme说两者要成正比,我batch_size调成了2,learning_rate调成了0.000033,训练速度不是看epoch的打印快慢,可以参照输出模型的快慢或者输出评估信息的快慢

隔多久输出一次评估信息:log_interval

注意不是代表打印多少次epoch,数据集越小、batch_size越大需要越多的epoch才能输出一次评估信息

下方是评估信息,各个浮点数的值越小代表损失越小,效果越好,不太熟悉可以不管

隔多久输出一次模型:eval_interval

注意不是代表打印多少次epoch,数据集越小、batch_size越大需要越多的epoch才能输出一次模型,输出模型就是log/44k目录下的那些G_开头的pth文件,D_开头的不能用

修改后的config.json如下

QA

停止后继续训练

So-VITS-SVC 4.0 训练/推理常见报错和Q&A - 哔哩哔哩 (bilibili.com)https://www.bilibili.com/read/cv22206231/

训练不出模型

个人记录VITS使用问题(先发一些,持续摸索) - 哔哩哔哩 (bilibili.com)https://www.bilibili.com/read/cv22071912/

开始推理(翻唱)

按改进版镜像中的readme使用webui来推理

Webui中只能转换wav文件,其他格式控制台报错要求我们先装ffmpeg把其他格式转成wav,那些可调参数似乎还不能改,改了就转不成了

为了不爆现存,我本地将歌曲(米泽园的POWDER SNOW)先用UVR分成人声和bgm,将人声用AU切分成每段最长1分钟,一段段传到webui上转换后再下回本地

然后再使用AU将多段音频合成完整一段人声(复制音频粘贴到另一段音频后面),还要使用混合音轨将完整人声和前面的bgm分别拉进两段音轨里并对齐开头

右键混音会话为新建文件,左侧工作区多了一个音频

双击后全选整段音频右键保存,即可得到最后的完整AI音频

本文链接地址:https://www.jiuchutong.com/zhishi/295289.html 转载请保留说明!

上一篇:关于WEB-INF目录及Tomcat部署方式、原理的简单理解(web-inf lib)

下一篇:HTML表格合并行和列(html表单合并行)

  • 税务局代个人开发票
  • 报考中级会计师怎么报名
  • 个体工商户季度不超过30万免增值税吗
  • 用友取消操作在哪里
  • 资本公积只能转现金吗
  • 代收款有手续费怎么做账
  • 小规模升一般纳税人怎么操作
  • 生产经营所得的税率表
  • 税控盘怎么增加专票
  • 房屋出租怎么交税?
  • 进口代收业务
  • 一般纳税人能否开3%的普票
  • 捐赠的所得税怎么处理
  • 公司代扣代缴的个人所得税怎么做账
  • 应收留抵税额退税款科目怎么添加进项
  • 以旧换新的金子划算吗
  • 个人交的工会经费个税
  • 税务局查账一般需要几天
  • 预缴的企业所得税可以税前扣除吗
  • 税务行业软件
  • 请问什么是全员安全生产责任制
  • 工会经费具体用途是什么
  • 发票过期作废不了怎么办
  • 商业银行流动性覆盖率的最低监管标准为
  • 投标财务状况报告怎么提供
  • 金蝶是先过账还是先审核
  • 企业债卷利息收入是营业收入吗
  • 违约方能否要求返还价款
  • 公司个人股份转让需要缴税吗
  • 固定资产改扩建过程中,发生的人工费用
  • 固定资产改造时的账面价值
  • 库存现金清点怎么做
  • 无形资产摊销会影响利润吗
  • 购入无形资产的增值税税率
  • es6的module模块
  • 布拉格下雪
  • php加密zend
  • 租金和物业管理费税率
  • 全盘会计和总账会计一样吗
  • 公司上市的好处
  • 基于opencv的人脸检测算法
  • 个体工商户可以给自己交社保吗
  • 无盘领发票要怎么办
  • 预算凭证可以单张打印吗
  • 安装centos7.2
  • sql2008数据库维护计划
  • sql随机抽样
  • 简述税收筹划的意义
  • 银行电子承兑到期了怎么兑现操作
  • 企业所得税计算题及答案解析
  • 公司充话费
  • 取得技术服务费收入会计分录
  • 开票金额大于收入增值税申报表填写
  • 长期待摊费用装修费分摊分录
  • 内账收入如何确认
  • 公司注销应付账款要为零吗
  • 收到跨月的费用发票怎么入账
  • 开销项负数的流程
  • 免税收入包括哪些项目
  • Mysql 报Row size too large 65535 的原因及解决方法
  • mysql precision
  • win8怎么运行
  • ubuntu16.04.7
  • xp系统鼠标右键无法弹出菜单
  • 苹果电脑快捷键截图怎么截
  • windows10bug严重
  • smon进程
  • Mtdacq.exe - Mtdacq是什么进程 有什么用
  • linux如何创建ftp
  • js实现滑块拖动
  • js原生dialog
  • node js模块
  • python中的整数
  • 北京国税办税服务厅
  • 中国宗教协会如何注册?
  • 税务申报规则
  • 税务登记成功后在哪里查询
  • 税务局网上缴税
  • 如何查询甘肃省博物馆预约成功
  • 深圳交警的微博
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设