毕业设计进展

毕业设计工作进展

年前主要工作进展:

  • 粗糙集属性约简算法并行化的实现。代码实现在mac上,~/IdeaProjects/AttributeReduction。 在集群上用数据集800+800+200跑了一次,可行
  • 三支决策算法并行化实现。代码在mac上~/IdeaProjects/TriTraining。在集群上用数据集800+800+200跑了一次,可行,且准确率似乎不低
  • TriTraining算法的并行实现。在集群上依然跑不起来,出现的问题是OOM,问题出在takeSample函数的不可行
  • LDA的测试在mac上尝试过,估计可行。

寒假在家需要做的工作:

  • 完成论文的基本内容,等待21日回校,集群上跑实验,分析实验结果
  • 代码部分:
    (1)java完成约简结果选择数据集
    (2)TriTraining抽样部分重新改进:可用map+filter实现看看
    (3)opencv 抽样视频数据+网格取得词袋+光流显示在图片上,为LDA准备
    (4)找视频数据集

回校之后在实验方面的分析需要做的工作:

  • 属性约简实验:
    (1)在不同数量级的数据集上:运行时间比较(待考量);(相同维度)运行准确率比较;分析实验结果
    (2)在同一数据集上:使用不同节点个数运行时间比较;选择不同维数:准确率分析
    (3)需要根据约简结果重新生成新数据集的代码,可用java实现(寒假必须完成)

  • 三支决策实验:
    (1)在不同数量级上:并行三支与非并行三支运行时间的比较
    (2)不同数量集上:关键是:tritraining对边界域个数的减少和准确率的提高(如果能说明:数量级越大,tritraining的优点越大就更好了,可以充分说明在噪声很大的情况下依然很好)
    (3)用不同的代价函数的影响

  • 视频异常处理实验:
    (1)找视频数据集
    (2)不同代价函数的比较
    (3)和不同的代价敏感机器学习算法的比较