audio.go 9.7 KB


  1. package common
  2. import (
  3. "context"
  4. "encoding/binary"
  5. "fmt"
  6. "io"
  7. "github.com/abema/go-mp4"
  8. "github.com/go-audio/aiff"
  9. "github.com/go-audio/wav"
  10. "github.com/jfreymuth/oggvorbis"
  11. "github.com/mewkiz/flac"
  12. "github.com/pkg/errors"
  13. "github.com/tcolgate/mp3"
  14. "github.com/yapingcat/gomedia/go-codec"
  15. )
  16. // GetAudioDuration 使用纯 Go 库获取音频文件的时长(秒)。
  17. // 它不再依赖外部的 ffmpeg 或 ffprobe 程序。
  18. func GetAudioDuration(ctx context.Context, f io.ReadSeeker, ext string) (duration float64, err error) {
  19. SysLog(fmt.Sprintf("GetAudioDuration: ext=%s", ext))
  20. // 根据文件扩展名选择解析器
  21. switch ext {
  22. case ".mp3":
  23. duration, err = getMP3Duration(f)
  24. case ".wav":
  25. duration, err = getWAVDuration(f)
  26. case ".flac":
  27. duration, err = getFLACDuration(f)
  28. case ".m4a", ".mp4":
  29. duration, err = getM4ADuration(f)
  30. case ".ogg", ".oga", ".opus":
  31. duration, err = getOGGDuration(f)
  32. if err != nil {
  33. duration, err = getOpusDuration(f)
  34. }
  35. case ".aiff", ".aif", ".aifc":
  36. duration, err = getAIFFDuration(f)
  37. case ".webm":
  38. duration, err = getWebMDuration(f)
  39. case ".aac":
  40. duration, err = getAACDuration(f)
  41. default:
  42. return 0, fmt.Errorf("unsupported audio format: %s", ext)
  43. }
  44. SysLog(fmt.Sprintf("GetAudioDuration: duration=%f", duration))
  45. return duration, err
  46. }
  47. // getMP3Duration 解析 MP3 文件以获取时长。
  48. // 注意:对于 VBR (Variable Bitrate) MP3,这个估算可能不完全精确,但通常足够好。
  49. // FFmpeg 在这种情况下会扫描整个文件来获得精确值,但这里的库提供了快速估算。
  50. func getMP3Duration(r io.Reader) (float64, error) {
  51. d := mp3.NewDecoder(r)
  52. var f mp3.Frame
  53. skipped := 0
  54. duration := 0.0
  55. for {
  56. if err := d.Decode(&f, &skipped); err != nil {
  57. if err == io.EOF {
  58. break
  59. }
  60. return 0, errors.Wrap(err, "failed to decode mp3 frame")
  61. }
  62. duration += f.Duration().Seconds()
  63. }
  64. return duration, nil
  65. }
  66. // getWAVDuration 解析 WAV 文件头以获取时长。
  67. func getWAVDuration(r io.ReadSeeker) (float64, error) {
  68. // 1. 强制复位指针
  69. r.Seek(0, io.SeekStart)
  70. dec := wav.NewDecoder(r)
  71. // IsValidFile 会读取 fmt 块
  72. if !dec.IsValidFile() {
  73. return 0, errors.New("invalid wav file")
  74. }
  75. // 尝试寻找 data 块
  76. if err := dec.FwdToPCM(); err != nil {
  77. return 0, errors.Wrap(err, "failed to find PCM data chunk")
  78. }
  79. pcmSize := int64(dec.PCMSize)
  80. // 如果读出来的 Size 是 0,尝试用文件大小反推
  81. if pcmSize == 0 {
  82. // 获取文件总大小
  83. currentPos, _ := r.Seek(0, io.SeekCurrent) // 当前通常在 data chunk header 之后
  84. endPos, _ := r.Seek(0, io.SeekEnd)
  85. fileSize := endPos
  86. // 恢复位置(虽然如果不继续读也没关系)
  87. r.Seek(currentPos, io.SeekStart)
  88. // 数据区大小 ≈ 文件总大小 - 当前指针位置(即Header大小)
  89. // 注意:FwdToPCM 成功后,CurrentPos 应该刚好指向 Data 区数据的开始
  90. // 或者是 Data Chunk ID + Size 之后。
  91. // WAV Header 一般 44 字节。
  92. if fileSize > 44 {
  93. // 如果 FwdToPCM 成功,Reader 应该位于 data 块的数据起始处
  94. // 所以剩余的所有字节理论上都是音频数据
  95. pcmSize = fileSize - currentPos
  96. // 简单的兜底:如果算出来还是负数或0,强制按文件大小-44计算
  97. if pcmSize <= 0 {
  98. pcmSize = fileSize - 44
  99. }
  100. }
  101. }
  102. numChans := int64(dec.NumChans)
  103. bitDepth := int64(dec.BitDepth)
  104. sampleRate := float64(dec.SampleRate)
  105. if sampleRate == 0 || numChans == 0 || bitDepth == 0 {
  106. return 0, errors.New("invalid wav header metadata")
  107. }
  108. bytesPerFrame := numChans * (bitDepth / 8)
  109. if bytesPerFrame == 0 {
  110. return 0, errors.New("invalid byte depth calculation")
  111. }
  112. totalFrames := pcmSize / bytesPerFrame
  113. durationSeconds := float64(totalFrames) / sampleRate
  114. return durationSeconds, nil
  115. }
  116. // getFLACDuration 解析 FLAC 文件的 STREAMINFO 块。
  117. func getFLACDuration(r io.Reader) (float64, error) {
  118. stream, err := flac.Parse(r)
  119. if err != nil {
  120. return 0, errors.Wrap(err, "failed to parse flac stream")
  121. }
  122. defer stream.Close()
  123. // 时长 = 总采样数 / 采样率
  124. duration := float64(stream.Info.NSamples) / float64(stream.Info.SampleRate)
  125. return duration, nil
  126. }
  127. // getM4ADuration 解析 M4A/MP4 文件的 'mvhd' box。
  128. func getM4ADuration(r io.ReadSeeker) (float64, error) {
  129. // go-mp4 库需要 ReadSeeker 接口
  130. info, err := mp4.Probe(r)
  131. if err != nil {
  132. return 0, errors.Wrap(err, "failed to probe m4a/mp4 file")
  133. }
  134. // 时长 = Duration / Timescale
  135. return float64(info.Duration) / float64(info.Timescale), nil
  136. }
  137. // getOGGDuration 解析 OGG/Vorbis 文件以获取时长。
  138. func getOGGDuration(r io.ReadSeeker) (float64, error) {
  139. // 重置 reader 到开头
  140. if _, err := r.Seek(0, io.SeekStart); err != nil {
  141. return 0, errors.Wrap(err, "failed to seek ogg file")
  142. }
  143. reader, err := oggvorbis.NewReader(r)
  144. if err != nil {
  145. return 0, errors.Wrap(err, "failed to create ogg vorbis reader")
  146. }
  147. // 计算时长 = 总采样数 / 采样率
  148. // 需要读取整个文件来获取总采样数
  149. channels := reader.Channels()
  150. sampleRate := reader.SampleRate()
  151. // 估算方法:读取到文件结尾
  152. var totalSamples int64
  153. buf := make([]float32, 4096*channels)
  154. for {
  155. n, err := reader.Read(buf)
  156. if err == io.EOF {
  157. break
  158. }
  159. if err != nil {
  160. return 0, errors.Wrap(err, "failed to read ogg samples")
  161. }
  162. totalSamples += int64(n / channels)
  163. }
  164. duration := float64(totalSamples) / float64(sampleRate)
  165. return duration, nil
  166. }
  167. // getOpusDuration 解析 Opus 文件(在 OGG 容器中)以获取时长。
  168. func getOpusDuration(r io.ReadSeeker) (float64, error) {
  169. // Opus 通常封装在 OGG 容器中
  170. // 我们需要解析 OGG 页面来获取时长信息
  171. if _, err := r.Seek(0, io.SeekStart); err != nil {
  172. return 0, errors.Wrap(err, "failed to seek opus file")
  173. }
  174. // 读取 OGG 页面头部
  175. var totalGranulePos int64
  176. buf := make([]byte, 27) // OGG 页面头部最小大小
  177. for {
  178. n, err := r.Read(buf)
  179. if err == io.EOF {
  180. break
  181. }
  182. if err != nil {
  183. return 0, errors.Wrap(err, "failed to read opus/ogg page")
  184. }
  185. if n < 27 {
  186. break
  187. }
  188. // 检查 OGG 页面标识 "OggS"
  189. if string(buf[0:4]) != "OggS" {
  190. // 跳过一些字节继续寻找
  191. if _, err := r.Seek(-26, io.SeekCurrent); err != nil {
  192. break
  193. }
  194. continue
  195. }
  196. // 读取 granule position (字节 6-13, 小端序)
  197. granulePos := int64(binary.LittleEndian.Uint64(buf[6:14]))
  198. if granulePos > totalGranulePos {
  199. totalGranulePos = granulePos
  200. }
  201. // 读取段表大小
  202. numSegments := int(buf[26])
  203. segmentTable := make([]byte, numSegments)
  204. if _, err := io.ReadFull(r, segmentTable); err != nil {
  205. break
  206. }
  207. // 计算页面数据大小并跳过
  208. var pageSize int
  209. for _, segSize := range segmentTable {
  210. pageSize += int(segSize)
  211. }
  212. if _, err := r.Seek(int64(pageSize), io.SeekCurrent); err != nil {
  213. break
  214. }
  215. }
  216. // Opus 的采样率固定为 48000 Hz
  217. duration := float64(totalGranulePos) / 48000.0
  218. return duration, nil
  219. }
  220. // getAIFFDuration 解析 AIFF 文件头以获取时长。
  221. func getAIFFDuration(r io.ReadSeeker) (float64, error) {
  222. if _, err := r.Seek(0, io.SeekStart); err != nil {
  223. return 0, errors.Wrap(err, "failed to seek aiff file")
  224. }
  225. dec := aiff.NewDecoder(r)
  226. if !dec.IsValidFile() {
  227. return 0, errors.New("invalid aiff file")
  228. }
  229. d, err := dec.Duration()
  230. if err != nil {
  231. return 0, errors.Wrap(err, "failed to get aiff duration")
  232. }
  233. return d.Seconds(), nil
  234. }
  235. // getWebMDuration 解析 WebM 文件以获取时长。
  236. // WebM 使用 Matroska 容器格式
  237. func getWebMDuration(r io.ReadSeeker) (float64, error) {
  238. if _, err := r.Seek(0, io.SeekStart); err != nil {
  239. return 0, errors.Wrap(err, "failed to seek webm file")
  240. }
  241. // WebM/Matroska 文件的解析比较复杂
  242. // 这里提供一个简化的实现,读取 EBML 头部
  243. // 对于完整的 WebM 解析,可能需要使用专门的库
  244. // 简单实现:查找 Duration 元素
  245. // WebM Duration 的 Element ID 是 0x4489
  246. // 这是一个简化版本,可能不适用于所有 WebM 文件
  247. buf := make([]byte, 8192)
  248. n, err := r.Read(buf)
  249. if err != nil && err != io.EOF {
  250. return 0, errors.Wrap(err, "failed to read webm file")
  251. }
  252. // 尝试查找 Duration 元素(这是一个简化的方法)
  253. // 实际的 WebM 解析需要完整的 EBML 解析器
  254. // 这里返回错误,建议使用专门的库
  255. if n > 0 {
  256. // 检查 EBML 标识
  257. if len(buf) >= 4 && binary.BigEndian.Uint32(buf[0:4]) == 0x1A45DFA3 {
  258. // 这是一个有效的 EBML 文件
  259. // 但完整解析需要更复杂的逻辑
  260. return 0, errors.New("webm duration parsing requires full EBML parser (consider using ffprobe for webm files)")
  261. }
  262. }
  263. return 0, errors.New("failed to parse webm file")
  264. }
  265. // getAACDuration 解析 AAC (ADTS格式) 文件以获取时长。
  266. // 使用 gomedia 库来解析 AAC ADTS 帧
  267. func getAACDuration(r io.ReadSeeker) (float64, error) {
  268. if _, err := r.Seek(0, io.SeekStart); err != nil {
  269. return 0, errors.Wrap(err, "failed to seek aac file")
  270. }
  271. // 读取整个文件内容
  272. data, err := io.ReadAll(r)
  273. if err != nil {
  274. return 0, errors.Wrap(err, "failed to read aac file")
  275. }
  276. var totalFrames int64
  277. var sampleRate int
  278. // 使用 gomedia 的 SplitAACFrame 函数来分割 AAC 帧
  279. codec.SplitAACFrame(data, func(aac []byte) {
  280. // 解析 ADTS 头部以获取采样率信息
  281. if len(aac) >= 7 {
  282. // 使用 ConvertADTSToASC 来获取音频配置信息
  283. asc, err := codec.ConvertADTSToASC(aac)
  284. if err == nil && sampleRate == 0 {
  285. sampleRate = codec.AACSampleIdxToSample(int(asc.Sample_freq_index))
  286. }
  287. totalFrames++
  288. }
  289. })
  290. if sampleRate == 0 || totalFrames == 0 {
  291. return 0, errors.New("no valid aac frames found")
  292. }
  293. // 每个 AAC ADTS 帧包含 1024 个采样
  294. totalSamples := totalFrames * 1024
  295. duration := float64(totalSamples) / float64(sampleRate)
  296. return duration, nil
  297. }