毕业设计工作进展
年前主要工作进展:
- 粗糙集属性约简算法并行化的实现。代码实现在mac上,~/IdeaProjects/AttributeReduction。 在集群上用数据集800+800+200跑了一次,可行
- 三支决策算法并行化实现。代码在mac上~/IdeaProjects/TriTraining。在集群上用数据集800+800+200跑了一次,可行,且准确率似乎不低
- TriTraining算法的并行实现。在集群上依然跑不起来,出现的问题是OOM,问题出在takeSample函数的不可行
- LDA的测试在mac上尝试过,估计可行。
寒假在家需要做的工作:
- 完成论文的基本内容,等待21日回校,集群上跑实验,分析实验结果
- 代码部分:
(1)java完成约简结果选择数据集
(2)TriTraining抽样部分重新改进:可用map+filter实现看看
(3)opencv 抽样视频数据+网格取得词袋+光流显示在图片上,为LDA准备
(4)找视频数据集
回校之后在实验方面的分析需要做的工作:
属性约简实验:
(1)在不同数量级的数据集上:运行时间比较(待考量);(相同维度)运行准确率比较;分析实验结果
(2)在同一数据集上:使用不同节点个数运行时间比较;选择不同维数:准确率分析
(3)需要根据约简结果重新生成新数据集的代码,可用java实现(寒假必须完成)三支决策实验:
(1)在不同数量级上:并行三支与非并行三支运行时间的比较
(2)不同数量集上:关键是:tritraining对边界域个数的减少和准确率的提高(如果能说明:数量级越大,tritraining的优点越大就更好了,可以充分说明在噪声很大的情况下依然很好)
(3)用不同的代价函数的影响视频异常处理实验:
(1)找视频数据集
(2)不同代价函数的比较
(3)和不同的代价敏感机器学习算法的比较