中山大学信息科学与技术学院

本科生毕业论文开题报告

学生姓名	张舟靖	学号	05377041		指导老师	向倩	职称	讲师
开题简况	论文题目	基于高斯混合模型的基因表达谱聚类算法研究
	选题依据（简述选题的目的、思路、方法、相关支持条件及进度安排）： 1．选题目的及研究背景基因表达数据分析的一类重要方法就是聚类分析．聚类分析是指将一组个体按其相互间的相似程度归入几个子类，根本思想是确定类群，使同一类内的各个体间差异最小，而不同类间的差距最大．基因表达谱聚类分析能将功能相关的基因按表达谱的相似程度归纳成类，然后聚焦于那些可能参与某些生物过程的基因群，对这些类进行生物学注释，获得新的生物学知识。基因表达数据分析是后基因组时代的研究热点，目前尚无分析这些数据的最佳方法．由于聚类方法并不足以对不同的分类结果进行系统的比较，开发能胜任这一特定工作的方法具有极其重要的意义，这些工具需要执行特定的方法来鉴别和刻画两个或多个子系统间的相似性或差异，并提供统计显著性评价．由于分析基因的数量极大，系统间相似性可能是偶然出现的，能评价这种相似显著性和有效性的算法十分重要，并急待开发．因此，如何对各种聚类算法的有效性进行分析、并开发新型的、适合于基因表达数据分析的聚类方法是目前该领域研究的重点。　 2．研究思路及方法聚类算法按是否假定内在概率框架可以分成两类：相似性聚类和模型聚类。相似性聚类采用样本相似性或距离准则来划分类别，比如分层聚类算法，自组织映射算法，Kmeans算法等等。模型聚类则假设数据符合内在的概率模型框架，利用每类的样本来估计模型的参数，从而根据不同的模型来划分不同的类别，比如基于混合高斯模型的聚类，基于HMM的聚类等等．相似性聚类算法对于如何确定合适的类数等问题无法给出系统的指导，聚类结果会出现不稳定的情况；而模型聚类算法可以把该类问题转换成模型的选择问题，因此比相似性聚类算法有更大的优势，成为近年来的研究热点。外部分析准则的基因表达数据和人工合成数据进行聚类分析，聚类结果本文将在分析和比较上述聚类算法的基础之上，对模型聚类算法，特别是基于混合高斯模型的基因表达谱聚类算法进行具体研究，进一步提高聚类分析的可靠性和稳定性。 3、相关支持条件 __ 应用matlab对算法进行实现 4．进度安排在12月完成对相关资料的深入了解并尽可能提出对该算法的局限性及其存在的问题， 09年2月左右对该算法做进一步实现及研究改进。同期利用matlab对算法进行实现并测试该算法的性能。对算法进行进一步的修改与完善。最后撰写并修改论文。
	指导教师意见：
	1、同意开题_____________ （） 2、修改后开题_____________ （） 3、重新开题_____________ （）			具体建议：
	指导教师签名：_______________________ _ _______ 年__ _ 月__ 日

下一页