大数据不论在研究还是工程领域都是热点之一,算法是大数据办理与计算的核心主题,因此将大数据算法作为信息与计算科学专业的一门选修课程。通过本课程的学习,使学生能掌握一些大数据算法设计的基本思想,较好的理解和传统算法课程不一样的算法设计与分析思路,通过实践练习初步掌握大数据算法设计与分析的技术,并能够将其中的思想应用于实际的研究和开发。从而提高学生的创新实践能力,加强学生开展科研工作能力。为今后进行更深入的研究奠定良好的理论基础。
通过本课程的学习,学生将达到以下要求:
1.掌握大数据算法设计的基本思想,较好的理解大数据算法设计与分析的基本思路;
2.初步掌握大数据算法设计与分析的基本方法和技术;
3.初步具备将大数据算法应用于实际开发的能力,并能够分析算法效率。
(二)知识、能力及技能方面的基本要求
1.基本知识:掌握大数据算法设计和分析的基本思想,掌握概率算法、I/0有效算法、并行算法等大数据算法的基本思想。
2.基本理论和方法:掌握大数据算法设计的一般原理和步骤。要求学生能够掌握亚线性算法、外存算法、并行算法等算法的设计方法和分析技术。
3.基本技能:具备运用亚线性算法、外存算法、并行算法等算法综合解决实际问题的能力,初步具备将大数据算法应用于实际开发的技能。
大数据给数据分析和处理带来了前所未有的机遇和挑战。本课程介绍大数据分析中一些算法 :数据的稀疏和低秩表达,稀疏和低秩矩阵优化,社交网络计算中的图与网络流问题,机器 学习和数据挖掘的最优化算法,随机优化算法,并行计算等等 Big data has brought unprecedented opportunities and challenges to data analysis and processing. This course introduces some basic concepts of algorithms for big data analysis: sparse and low-rank data representation, sparse and low-rank matrix optimization, graph and network flow problems in social network computation, optimization algorithms for machine learning and data mining, stochastic optimization algorithms, parallel computing, etc. 课程对象: 高年级本科生和研究生。 参考书: (1) Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein, Introduction to Algorithms, The MIT Press, http://mitpress.mit.edu/books/introduction-algorithms (2) Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of Massive Datasets, Cambridge University Press, http://www.mmds.org/ (3) Stephen Boyd and Lieven Vandenberghe, Convex optimization, Cambridge University Press, 2004, http://stanford.edu/~boyd/cvxbook/ (4) Jorge Nocedal and Stephen Wright, Numerical Optimization, Springer, 2006, http://www.ece.northwestern.edu/~nocedal/book/ (5) 袁亚湘,孙文瑜,最优化理论与方法,科学出版社,2003 内容提要和学时分配: 1. 课程简介, 3学时 课程简介,大数据分析中的最优化理论与算法介绍 2. 线性规划,半定规划, 6学时 线性规划,单纯形方法,半定规划,对偶理论 4.稀疏优化与低秩矩阵恢复, 9学时 压缩感知和稀疏优化基本理论和算法 低秩矩阵恢复的基本理论和算法 PCA,robust PCA (matrix separation), sparse PCA 5. 社交网络计算中的图和网络流问题,9学时 the network simplex problem the shorted path problem the maximum flow problem the minimum spanning tree problem 6. 机器学习和数据挖掘,9学时 聚类分析: clustering 高维数据降维: eigenvalue, SVD 链接分析: page rank 保举系统: matrix completion, 大规模机器学习: support vector machine 7.现代医学成像与高维图像分析,3学时 相位恢复以及低温电子显微镜和三维重构中的若干反问题 8.大数据分析的随机优化算法,3学时 9.大数据分析的并行计算、分布式计算、分散式计算,6学时 OpenMP, MPI, 稀疏优化的并行计算,分散式计算
The most popular courses