最佳答案:用语音转文字,实测只能转标准的普通话,如果时间长的视频准确率不超过95%而且转出来的文字分不清意思,得大量手工整理。遇到普通话不标准的,基本就不用转了。遇到人名多的也抓瞎。不过要转二十分钟以上的字幕最