音频解析之后，文本和声音对不上 #547

sawyerls · 2024-04-21T07:32:11Z

请详见附件

iShot_2024-04-21_15.24.58.mp4

sawyerls · 2024-04-21T07:33:10Z

版本 0.2.3

系统版本
macbookpro 2021
sonoma 14.4.1

an-lee · 2024-04-21T08:06:56Z

下载的音频链接发一下，我测试一下看。

an-lee · 2024-04-21T08:41:16Z

应该是音频前面的音乐导致对齐错误了。

sokach-dev · 2024-06-27T14:07:06Z

我也发现有这个问题

czyrichard · 2024-07-03T17:29:03Z

实测通过Ultimate Vocal Remover去除背景音只保留人声后，美剧类型的音频对齐率能提高很多，教程详见：https://www.bilibili.com/read/cv27499700/

不过这个方案也不是那么完美：
1）有些地方还是会莫名对齐不上
2）在去除背景音的过程中，有些对话也会被误认为是背景音被消除掉

我想跟读的剧其实官方的字幕时间轴非常精确，要是能像 https://github.com/CheshireCC/faster-whisper-GUI 中集成的WhisperX一样，能基于已有srt字幕文件的时间轴生成单词级时间戳就太好啦！

an-lee · 2024-07-04T00:49:58Z

#770 这个 issue 会跟进这个问题

czyrichard · 2024-07-04T02:58:25Z

您好，我更新了最新版0.2.14后，只要开启“提取人声”，log就会卡在"Compute STFT of full waveform.."然后过一会儿后程序闪退，我试了几个mp3格式的音频都是这样，我把其中一个音频和其srt文件作为附件传了上来，供您测试，请您看看是什么问题。

an-lee · 2024-07-04T03:09:09Z

这个功能还是实验性，目前有个 4G 内存的限制，太长的音频会导致闪退。我测试 4 分钟左右的音频可以完成。

后续还会继续优化。

an-lee · 2024-07-30T23:42:50Z

v0.3.3 版本之后应该已经大幅改善了。

an-lee added the bug Something isn't working label Apr 21, 2024

an-lee closed this as completed Jul 30, 2024

Provide feedback