时序卷积网络(TCN)百科全书用卷积征服序列

时序卷积网络(TCN)百科全书用卷积征服序列 一、开篇:卷积也能做序列2018 年 3 月,一篇看似"挑衅"的论文出现在 arXiv 上:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence ModelingShaojie Bai, J. Zico Kolter, Vladlen KoltunCarnegie Mellon University / Intel Labs论文的核心论点直接而大胆:在大多数序列建模任务上,一个简单的卷积网络(TCN)能够超过 LSTM、GRU 等经典循环网络——而且训练更快、梯度更稳定。这在 2018 年是个反常识的说法。当时的"常识"2018 年,序列建模的世界被RNN 家族统治:RNN(1986):处理序列的标准方法LSTM(1997):解决长程依赖的王者GRU(2014):LSTM 的简化版Seq2Seq(2014):机器翻译的标准框架