备注全部内容来自AI记录下来后续慢慢消化一、整体一览6 大深度学习算法LPCNet / Neural PLC神经网络丢包补偿DREDDNN-based Redundant Encoding 神经网络冗余编码BbWENetBandwidth Extension 带宽扩展Fargan高音质神经语音生成LACE / NOLACE神经网络语音增强 / 降噪OSCEOpus Speech Contrast Enhancement 语音对比度增强二、逐算法 逐文件 详细拆解1、LPCNet Neural PLC神经网络丢包补偿作用Opus 新一代 PLC丢包隐藏完全替代传统插值 PLC使用 RNN / GRU 神经网络预测丢失的语音帧音质接近无损。原理GRU 神经网络基于历史语音预测未来丢包帧。10ms 帧级实时预测极低复杂度可跑在 ARM Cortex-Mlpcnet.h lpcnet_enc.c lpcnet_plc.c -- 核心神经网络丢包补偿 lpcnet_private.h lpcnet_tables.c pitchdnn.c pitchdnn.h pitchdnn_data.c pitchdnn_data.h plc_data.c -- PLC 模型权重 plc_data.h2、 DRED神经网络冗余编码作用用于弱网 / 丢包环境的轻量级神经网络冗余帧发送极小的冗余数据丢包时直接恢复完整语音比FEC强很多。原理RDOVAERate-Distortion Optimized VAE变分自编码器 VAE提取语音核心潜码 (latent) 做冗余传输丢包时用潜码完美恢复语音dred_coding.c dred_coding.h dred_compare.c dred_config.h dred_decoder.c dred_decoder.h dred_encoder.c dred_encoder.h dred_rdovae.h dred_rdovae_constants.h dred_rdovae_dec.c dred_rdovae_dec.h dred_rdovae_dec_data.c dred_rdovae_dec_data.h dred_rdovae_enc.c dred_rdovae_enc.h dred_rdovae_enc_data.c dred_rdovae_enc_data.h dred_rdovae_stats_data.c dred_rdovae_stats_data.h3、BbWENetBandwidth Extension 带宽扩展作用窄带 8kHz → 宽带 16kHz / 超宽带 32kHz用神经网络补全高频信息让电话音变高清。原理DNN 频带扩展从低频语音谱预测高频谱极低复杂度实时运行bbwenet_data.c -- 模型权重9MB bbwenet_data.h4、FarganFast Generative Adversarial Network作用超高音质神经语音生成用于 PLC、带宽扩展、降噪后的最终语音波形生成音质接近原声。原理生成式对抗网络 GAN、声码器vocoder、从语音特征生成波形、Opus DNN 模块音质的核心。fargan.c fargan.h fargan_data.c -- 模型权重21MB最大的文件 fargan_data.h fargan_demo.c5、LACE / NOLACE语音增强 / 降噪作用Lightweight Adaptive Complexity Enhancement实时降噪、去混响、语音舒压。原理DNN 语音降噪、低复杂度实时版、面向嵌入式 / 移动端优化lace_data.c lace_data.h nolace_data.c nolace_data.h6、OSCEOpus Speech Contrast Enhancement作用语音对比度增强让语音更清晰、更有穿透力嘈杂环境更易听懂。原理DNN 频域增强、提升语音清晰度、WebRTC NS 同级但更强osce.c osce.h osce_config.h osce_features.c osce_features.h osce_structs.h三、公共基础模块所有算法共用nndsp.c 神经网络DSP库卷积、GRU、激活函数 nndsp.h nnet.c 神经网络底层推理引擎 nnet.h nnet_arch.h nnet_default.c vec.h 向量优化x86/ARM NEON vec_avx.h vec_neon.h arm/ ARM Neon 优化 x86/ x86 AVX2 优化 burg.c LPC 分析 freq.c 频域处理 lossgen.c 丢包模拟工具
[AI codec]opus-1.6\dnn包含算法汇总和文件功能分类
备注全部内容来自AI记录下来后续慢慢消化一、整体一览6 大深度学习算法LPCNet / Neural PLC神经网络丢包补偿DREDDNN-based Redundant Encoding 神经网络冗余编码BbWENetBandwidth Extension 带宽扩展Fargan高音质神经语音生成LACE / NOLACE神经网络语音增强 / 降噪OSCEOpus Speech Contrast Enhancement 语音对比度增强二、逐算法 逐文件 详细拆解1、LPCNet Neural PLC神经网络丢包补偿作用Opus 新一代 PLC丢包隐藏完全替代传统插值 PLC使用 RNN / GRU 神经网络预测丢失的语音帧音质接近无损。原理GRU 神经网络基于历史语音预测未来丢包帧。10ms 帧级实时预测极低复杂度可跑在 ARM Cortex-Mlpcnet.h lpcnet_enc.c lpcnet_plc.c -- 核心神经网络丢包补偿 lpcnet_private.h lpcnet_tables.c pitchdnn.c pitchdnn.h pitchdnn_data.c pitchdnn_data.h plc_data.c -- PLC 模型权重 plc_data.h2、 DRED神经网络冗余编码作用用于弱网 / 丢包环境的轻量级神经网络冗余帧发送极小的冗余数据丢包时直接恢复完整语音比FEC强很多。原理RDOVAERate-Distortion Optimized VAE变分自编码器 VAE提取语音核心潜码 (latent) 做冗余传输丢包时用潜码完美恢复语音dred_coding.c dred_coding.h dred_compare.c dred_config.h dred_decoder.c dred_decoder.h dred_encoder.c dred_encoder.h dred_rdovae.h dred_rdovae_constants.h dred_rdovae_dec.c dred_rdovae_dec.h dred_rdovae_dec_data.c dred_rdovae_dec_data.h dred_rdovae_enc.c dred_rdovae_enc.h dred_rdovae_enc_data.c dred_rdovae_enc_data.h dred_rdovae_stats_data.c dred_rdovae_stats_data.h3、BbWENetBandwidth Extension 带宽扩展作用窄带 8kHz → 宽带 16kHz / 超宽带 32kHz用神经网络补全高频信息让电话音变高清。原理DNN 频带扩展从低频语音谱预测高频谱极低复杂度实时运行bbwenet_data.c -- 模型权重9MB bbwenet_data.h4、FarganFast Generative Adversarial Network作用超高音质神经语音生成用于 PLC、带宽扩展、降噪后的最终语音波形生成音质接近原声。原理生成式对抗网络 GAN、声码器vocoder、从语音特征生成波形、Opus DNN 模块音质的核心。fargan.c fargan.h fargan_data.c -- 模型权重21MB最大的文件 fargan_data.h fargan_demo.c5、LACE / NOLACE语音增强 / 降噪作用Lightweight Adaptive Complexity Enhancement实时降噪、去混响、语音舒压。原理DNN 语音降噪、低复杂度实时版、面向嵌入式 / 移动端优化lace_data.c lace_data.h nolace_data.c nolace_data.h6、OSCEOpus Speech Contrast Enhancement作用语音对比度增强让语音更清晰、更有穿透力嘈杂环境更易听懂。原理DNN 频域增强、提升语音清晰度、WebRTC NS 同级但更强osce.c osce.h osce_config.h osce_features.c osce_features.h osce_structs.h三、公共基础模块所有算法共用nndsp.c 神经网络DSP库卷积、GRU、激活函数 nndsp.h nnet.c 神经网络底层推理引擎 nnet.h nnet_arch.h nnet_default.c vec.h 向量优化x86/ARM NEON vec_avx.h vec_neon.h arm/ ARM Neon 优化 x86/ x86 AVX2 优化 burg.c LPC 分析 freq.c 频域处理 lossgen.c 丢包模拟工具