deep learning比较流行的一个原因,主要是因为它能够自主地从数据上学到有用的feature。特别是对于一些不知道如何设计feature的场合,比如说图像和speech。deep learning可以学习到比以往比如说sift或者MFCC这样手工设计的feature更好的方法,而且像slide 4显示的一样,这些feature有很强的semantic的含义。
“caffe能支持lstm、rnn的训练吗?另外,对于百度的dlmc您有什么看法?” Jeff Donahue有一个branch可以来做lstm,我自己在refactor的一些code应该也是可以的,但是因为公司review政策的缘故没法保证什么时候能release smile dmlc我觉得是个挺好的effort,在开源界看到更多中国学生的身影很兴奋!
“师兄您好。想问一个问题,如何将已知的世界知识,比如说语法规则等有效融入到深度学习中?” 这个是个好问题,目前大家都有点倾向于learning from scratch,所以我也说不好怎么做融合,但是应该是一个值得考虑的研究方向
“接着上一轮的提问,caffe实现多层loss反向传播,我能不能直接在prototxt里每一层后加一层loss,最后的结果会是怎样?” 唔,这个得看loss是什么了,比如说googlenet用到了几个branch来inject softmax,所以基本上还是要寻找和问题相关的loss term
“可否评论一下nature 新出的DL文章?reinforcement learning之类的会是下一个主要结合的点吗?” 哈,Hinton本人的说法是“you won't learn much from that paper”。那个更多的是一个overview,如果希望了解一下DL的来龙去脉的话值得读一下。RL其实还是挺热门的,deepmind做的就有点像RL,berkeley Pieter Abbeel组也做了很多RL的工作
“softmax_layer和softmax_loss_layer有什么区别。” softmax_layer是做softmax变换(就是把输入的score变成sum to 1的概率值), softmax_loss是计算prediction和true label之间的cross entropy loss function
“请问除了从分类结果看特征表出的优劣,有没有一种通行的方式去看特征表出的优劣?还有一个问题:lstm简直就是一个编码模型…以后机器学习的结构都要往电子工程上靠了吗?我觉得结构越来越复杂正背离dl的初衷了…” 其实大家经常批评DL的问题就是说,我们从设计feature变成了设计model(我记得原话是jitendra malik讲的...啊我太八卦了)。所以这个的确也是一个难解的问题,兴许我们可以做一个算法来自动生成很多model然后evolve这些model?MIT曾经有一篇paper来自动学习网络的结构,但是目前state of the art的模型还经常靠手调