-
Notifications
You must be signed in to change notification settings - Fork 3.8k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
音频解析之后,文本和声音对不上 #547
Comments
下载的音频链接发一下,我测试一下看。 |
应该是音频前面的音乐导致对齐错误了。 |
我也发现有这个问题 |
实测通过Ultimate Vocal Remover去除背景音只保留人声后,美剧类型的音频对齐率能提高很多,教程详见:https://www.bilibili.com/read/cv27499700/ 不过这个方案也不是那么完美: 我想跟读的剧其实官方的字幕时间轴非常精确,要是能像 https://github.com/CheshireCC/faster-whisper-GUI 中集成的WhisperX一样,能基于已有srt字幕文件的时间轴生成单词级时间戳就太好啦! |
#770 这个 issue 会跟进这个问题 |
您好,我更新了最新版0.2.14后,只要开启“提取人声”,log就会卡在"Compute STFT of full waveform.."然后过一会儿后程序闪退,我试了几个mp3格式的音频都是这样,我把其中一个音频和其srt文件作为附件传了上来,供您测试,请您看看是什么问题。 |
这个功能还是实验性,目前有个 4G 内存的限制,太长的音频会导致闪退。我测试 4 分钟左右的音频可以完成。 后续还会继续优化。 |
v0.3.3 版本之后应该已经大幅改善了。 |
请详见附件
iShot_2024-04-21_15.24.58.mp4
The text was updated successfully, but these errors were encountered: