10-fold CV是什么意思

今天在看《Convolutional Neural Networks for Sentence Classification》这篇论文的时候,在实验部分看到了这样的一个表格(摘取两行数据):

Data c l N |V| |Vpre| Test
MR 2 20 10662 18765 16448 CV
SST-1 5 18 11855 17836 16262 2210

关于表头,论文给出了注释:

c: Number of target classes. l: Average sentence length.
N: Dataset size.
|V|: Vocabulary size.
|Vpre|: Number ofwords present in the set of pre-trained word vectors.
Test:Test set size (CV means there was no standard train/test splitand thus 10-fold CV was used).

关于最后的一个Test,即测试数据集,说是由于没有标准的测试集,所以用一个10-fold CV来代替。

那这个10-fold CV到底是什么来的。

查了下资料,10-fold CV也就是10-fold cross-validation,是一种交叉验证的方法,最简单的解释就是,将数据集分成10份,轮流将其中9份用于训练,1份用于测试,循环10次,求最终准确度的平均值。

依此类推,k-fold CV亦是如此。

所以我下载的http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz 这个数据集,由于没有验证测试集,所以就用10-fold CV 这种方法来做了。

《10-fold CV是什么意思》有10个想法

  1. 哈哈,博主你的博客被找到了,我也是最近在看CNN的那篇文章,也是不明白cv的意思,百度找到了你的答案,很清楚,谢谢啦

  2. 博主我可以请教你一个问题吗:
    RNN的代码:
    self.emb = theano.shared(0.2 * numpy.random.uniform(-1.0, 1.0,\
    (ne+1, de)).astype(theano.config.floatX))
    idxs = T.imatrix() # as many columns as context window size/lines as words in the sentence
    x = self.emb[idxs].reshape((idxs.shape[0], de*cs))
    y = T.iscalar(‘y’) # label

    上面x=self.emb….这句是什么意思呢,我的理解是idxs被定义成一个矩阵,可是矩阵的大小并没有给出啊?那idxs.shape[0]的值怎么确定呢?self.emb[idxs]的意思是在self.emb这个大矩阵中划出来一个如idxs大小的矩阵么?叙述的不太清楚,望见谅。

    1. 恰好最近我也在看rnn哈哈,不过这些用theano写的rnn代码,我还在看,所以不是很清楚。然后我也print了一下,idxs是TensorType(int32, matrix)>,idxs.shape[0]是Subtensor{int64}.0
      等我学会了再回复你哈,或者你弄懂了可以告诉我一声。

      刚刚找了一下,下面这篇博文可能能帮到你:
      http://www.cnblogs.com/alex21/p/5254235.html

      1. 哈哈,好巧啊,现在我有点明白那行代码,但也不是很清楚。等我再琢磨琢磨,然后反馈给你

          1. 同学你好,我想问一下你现在是在读深度学习的研究生吗,纯属个人猜测。我现在在做关于深度学习在文本处理方面的毕设,举步维艰啊,如果同学你也是读研,也是这个方向,我们可以加个联系方式吗,有问题可以及时讨论。不是的话,就没事啦,打扰啦

赵申荷进行回复 取消回复

电子邮件地址不会被公开。 必填项已用*标注