Data mining总结


imgage

在OSU上学时上过一个data mining的课,学了一写基础知识,也做了一个project,是拿一大堆路透社的文章,把其中一部分作为建模数据,利用不同算法来建立文章topic的预测模型,剩下一部分文章用来进行测试、验证。我把这个project写在了简历上,但是由于时间已久,具体算法都忘记了很多,这次进行复习总结一下。

输入变量

正如之前所说,我们有很多文章,我们要先做一些预处理,使每篇文章都能转换成以下形式:

Topic,Vector

其中Topic顾名思义,就是此篇文章的主题,Vector可以看做一个数组,里面是很多key-value的元素,其中key是文章中出现的单词,value是单词出现的数量。把每个文章处理成这种形式之后,我们就有了标准的输入,方便我们以后进行处理,这种形式也是构建classifier比较标准的输入形式。

实际操作中,我们还有很多需要考虑的,例如,我们要滤除一写比较常见的单词:the,people等等。还可以适当控制一下vector的长度,等等。

算法

在这个project中,我用到了数种算法,分别是decision tree, K-nn和Apriori。

  1. Decision Tree

待续……