找回密码
 立即注册
楼主: yww

如何使用 Ai 辅助啃生肉

20

主题

88

回帖

382

VC币

至尊会员

Rank: 16Rank: 16Rank: 16Rank: 16

积分
233043
肖恩马里奥 发表于 2023-7-9 01:27:14 | 显示全部楼层
本帖最后由 肖恩马里奥 于 2023-7-9 01:33 编辑

做歌词 搭配SpleeterGui简直神器
如果生成的字幕文件里面没有识别到歌词 可以用SpleeterGui把人声分离出来 视情况转换成mp3格式的音频文件(就我个人的使用来说,wav的音频文件识别不到的概率比mp3大) 放进去识别歌词 非常好用
回复

使用道具 举报

20

主题

88

回帖

382

VC币

至尊会员

Rank: 16Rank: 16Rank: 16Rank: 16

积分
233043
肖恩马里奥 发表于 2023-7-9 10:18:31 | 显示全部楼层
syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
Dialogue: 0,1:53: ...

我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的

但是不排除有极个别确实声音很杂无法辨识的
回复

使用道具 举报

4

主题

25

回帖

8

VC币

中级会员

Rank: 3Rank: 3

积分
4703
默沨 发表于 2023-7-10 09:19:15 | 显示全部楼层
肖恩马里奥 发表于 2023-7-9 10:18
我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的

但是 ...

我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
回复

使用道具 举报

20

主题

88

回帖

382

VC币

至尊会员

Rank: 16Rank: 16Rank: 16Rank: 16

积分
233043
肖恩马里奥 发表于 2023-7-10 19:12:00 | 显示全部楼层
本帖最后由 肖恩马里奥 于 2023-7-10 19:15 编辑
默沨 发表于 2023-7-10 09:19
我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
...

我是用最大的那个模型

至于识别不到人声的问题我直接用SpleeterGui提取人声再识别了


AI这块的东西算是我的知识盲区了,我也不知道为什么有的模型大有的模型小,所以就下了最大的。如果有大佬能解释一下就好了emmm

点评

而没有bgm的采访视频,情况单纯许多。模型越大,准确越高。而且大模型并不照搬对话,会自主省去一些对话中多余的语气词和口癖,让人又爱又恨...  发表于 2023-7-16 00:28
像入江老师一小时写真有五分钟对话,其余是bgm。base识别的对话最全面,但不够准确;small的单句准确性ok,但漏句多。其余模型无论大小均只识别bgm  发表于 2023-7-16 00:21
具体来看,不同的模型都有其适用的场景,暂时做不到一个模型打遍全场。  发表于 2023-7-16 00:12
在下这几天拿入江紗綾老师的超长写真和不少番剧sp里的采访啥的测试了一波,发现具体问题要具体分析。大体就如大佬所说,模型越大识别越精细。  发表于 2023-7-16 00:08
yww
我也不太懂,不过看起来越大的文件,识别起来越精准  发表于 2023-7-15 16:15
回复

使用道具 举报

5

主题

10

回帖

16

VC币

中级会员

Rank: 3Rank: 3

积分
5514
yww  楼主| 发表于 2023-7-15 16:12:24 | 显示全部楼层
与中酱 发表于 2023-7-4 23:37
是的,关键就是在于这个科学上网,实在是我个人的一个痛点啊,没这个能力,现在需要下VCB种子都是让肉身 ...

科学上网的问题,这个基本上绕不开,毕竟 Google 访问对我是刚需,甚至有时 GitHub 都打不开。

其实成本也还好,我用的平台一年150 左右,对我来说足够用了。

点评

被你11块年费的备用梯震惊到了,这个价格  发表于 2023-7-16 08:49
+1,大佬这个价位的梯子应该挺稳定了。其实不在意节点稳定性或者流量、速度限制的话,还能便宜。我就找了个11块年费的梯子来防止主力梯子挂掉2333  发表于 2023-7-16 00:59
回复

使用道具 举报

5

主题

10

回帖

16

VC币

中级会员

Rank: 3Rank: 3

积分
5514
yww  楼主| 发表于 2023-7-15 16:14:50 | 显示全部楼层
乂熊貓乂 发表于 2023-7-6 21:30
有沒有不限字數的CHATGPT 推薦
字幕太長 都不能一次翻譯

不介意机翻的的话,Google translate 可以翻译很长的内容。
回复

使用道具 举报

0

主题

2

回帖

0

VC币

新手上路

Rank: 1

积分
42
beiming2000 发表于 2023-7-18 16:16:04 | 显示全部楼层
syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
Dialogue: 0,1:53: ...

好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
回复

使用道具 举报

7

主题

21

回帖

611

VC币

金牌会员

Rank: 6Rank: 6

积分
39696
syochan 发表于 2023-7-19 01:03:00 | 显示全部楼层
beiming2000 发表于 2023-7-18 16:16
好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
...

cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
回复

使用道具 举报

0

主题

2

回帖

0

VC币

新手上路

Rank: 1

积分
42
beiming2000 发表于 2023-7-19 09:53:47 | 显示全部楼层
syochan 发表于 2023-7-19 01:03
cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
...

这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令就是转写samples.wav的,参数包括:模型为中等模型、最大上下文为0、使用GPU0、音频语言为中文、输出格式为srt文件
.\main -m ggml-medium.bin -mc 0 -f samples.wav --use-gpu 0 -l zh -osrt

我也不专业,具体可以研究github上whisper.cpp项目说明
回复

使用道具 举报

7

主题

21

回帖

611

VC币

金牌会员

Rank: 6Rank: 6

积分
39696
syochan 发表于 2023-7-20 00:48:08 | 显示全部楼层
beiming2000 发表于 2023-7-19 09:53
这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令 ...

已经超出我的能力范围了,但还是谢谢你
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表