Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Use DTW-RA in alignment #770

Closed
an-lee opened this issue Jul 3, 2024 · 5 comments · Fixed by #870
Closed

Use DTW-RA in alignment #770

an-lee opened this issue Jul 3, 2024 · 5 comments · Fixed by #870
Labels
enhancement New feature or request

Comments

@an-lee
Copy link
Collaborator

an-lee commented Jul 3, 2024

DTW-RA method seems to be more accurate for the audio with music or other background noises.

  • Build timeline from the transcribe result
  • Align with timeline and dtw-ra option
@an-lee an-lee added the enhancement New feature or request label Jul 3, 2024
@an-lee
Copy link
Collaborator Author

an-lee commented Jul 3, 2024

@an-lee
Copy link
Collaborator Author

an-lee commented Jul 4, 2024

echogarden-project/echogarden#60

@czyrichard
Copy link

czyrichard commented Jul 4, 2024

看到您在dtw-ra那里提的建议了,非常感谢您的付出。我不会写代码,所以只能从其他方面尽一下自己的绵薄之力,也请您看看能否提些建议:

tldr版:
1)再完美的除杂音和除音乐,似乎都不能解决enjoy现有最新版的对齐问题
2)除杂音音乐后,截去空白音频片段,增加人声的连贯性,能提升对齐率,但作用有限
3)导入字幕时去除换行符似乎对提升对齐率有一些作用
4)人为在音频中的每句话后添加空白音频,对齐率会不升反降
5)我对提高对齐率的两个想法

以下是具体版:

1)我今天尝试了研究了一下各种去除杂音和音乐的AI模型,然后把保留人声最成功的的一个版本(pure_vocal_untruncated.mp3)和srt文件导入到enjoy当中,结果对齐率还是很低。

2)然后我用Audacity把pure_vocal_untruncated.mp3中的静音片段都截去了,然后进行了“增幅(放大)”,生成了pure_vocal_truncated.mp3,然后和srt文件导入enjoy中,前几行的对齐率基本上是100%,具体到每个词都对齐成功了,但是从第八行开始就不行了,enjoy把第八行的内容对齐到第七行的音频去了(但是明明第七行已经完美对齐了),也就是enjoy把几秒钟的音频既对齐到了第七行,又对齐到了第八行,导致后续的对齐都出错了。

3)我用Subtitle Edit把srt文件里的时间戳和换行符都去掉了,生成了pure_vocal_truncated.txt,把pure_vocal_truncated.mp3和pure_vocal_truncated.txt导入了enjoy,这次enjoy成功对齐到了21行,到了22行的时候发生了和上面一样的问题。

4)我还尝试了另一种方法,用chatgpt和claude写出了一个叫脚本,把音频中有字幕的部分保存,无字幕部分去除,然后在每两个部分之间添加两秒钟的空白音频,想看看空白音频能不能帮助enjoy提高对齐率,但是实际上并无卵用,对齐率不升反降,所以此处不再赘述了。

5)最后我还用whisperX导入了pure_vocal_untruncated.mp3和其srt文件,生成了一个含有每句话和每个词的时间戳的json文件,我把这个文件里的数据和enjoy的SQLite数据库里的数据进行了对比,发现enjoy数据库里就多出了每个音标的时间戳,这个whisperX好像确实无法做到。我在想,对于那些不太在意音标数据而更在意时间轴对齐度的用户来说,要是能提供选项直接导入whisperX的数据就太好啦。

6)其实还有一个可能性:能不能按照srt字幕的时间轴对音频进行切片,每一行的切片音频单独进行对齐,最后再把数据汇总到一起,这样就总不会跑偏啦。

data.zip

@imxw
Copy link

imxw commented Jul 16, 2024

能不能支持自己上传时间戳的字幕文件,比如我已有的资源是有lrc字幕文件的,结果该软件不支持,使用软件自带的whisper生成的又有对不齐的问题

@an-lee
Copy link
Collaborator Author

an-lee commented Jul 16, 2024

能不能支持自己上传时间戳的字幕文件,比如我已有的资源是有lrc字幕文件的,结果该软件不支持,使用软件自带的whisper生成的又有对不齐的问题

这个 issue 就是解决这个问题的。再等等。

@an-lee an-lee linked a pull request Jul 23, 2024 that will close this issue
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants