10-fold CV是什么意思

今天在看《Convolutional Neural Networks for Sentence Classification》这篇论文的时候,在实验部分看到了这样的一个表格(摘取两行数据):

Data c l N |V| |Vpre| Test
MR 2 20 10662 18765 16448 CV
SST-1 5 18 11855 17836 16262 2210

关于表头,论文给出了注释:

c: Number of target classes. l: Average sentence length.
N: Dataset size.
|V|: Vocabulary size.
|Vpre|: Number ofwords present in the set of pre-trained word vectors.
Test:Test set size (CV means there was no standard train/test splitand thus 10-fold CV was used).

关于最后的一个Test,即测试数据集,说是由于没有标准的测试集,所以用一个10-fold CV来代替。

那这个10-fold CV到底是什么来的。

查了下资料,10-fold CV也就是10-fold cross-validation,是一种交叉验证的方法,最简单的解释就是,将数据集分成10份,轮流将其中9份用于训练,1份用于测试,循环10次,求最终准确度的平均值。

依此类推,k-fold CV亦是如此。

所以我下载的http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz 这个数据集,由于没有验证测试集,所以就用10-fold CV 这种方法来做了。