序列比对是生物序列分析中的一个经典问题,旨在找出序列之间的相似性,它对于发现生物序列中的功能、结构和进化信息都具有重要的意义. 该问题可分为双序列比对和多序列比对2类,现有工作多针对特定算法展开,没有设计通用的求解方法;此外,甚少涉及算法可信性的研究. 从生物序列比对问题的形式化规约出发,通过深入分析问题的性质,刻画问题求解的本质特征,借助形式化方法PAR(partition and recursion)设计了序列比对动态规划算法的统一构造框架seqAlign;展示了应用该框架构造序列数为3的多序列比对算法的过程,并使用Isabelle定理证明器对构造结果进行形式化验证;利用PAR平台生成了该算法的C++可执行程序,进一步分析了由seqAlign框架机械化构造其他类型序列比对算法的过程. 通过严密的规约精化和形式验证,有效地保证了生成算法的可信性;开发的seqAlign框架提供了序列比对问题类的通用求解方案,显著提高了序列比对算法族生成的效率. 研究结果在生物序列分析中序列比对问题上的成功应用,从方法学和实践上可为复杂生物信息学领域高可靠算法的构造提供参考.
… … 相似文献基于本地差分隐私的图聚类工作成为近年来的一个研究热点. 已有工作主要针对的是无向图,且大多利用位向量技术通过模块化聚合实现. 由于噪声量与向量维度成线性关系,使得聚类质量和隐私性难以很好地兼顾. 此外,针对无向图中边的有/无设计的2元扰动机制在面对有向图时,因无法对边的方向性进行处理而无法适用. 针对上述问题,提出一种基于本地边差分隐私(edge local differential privacy, Edge-LDP)的有向图聚类算法DGC-LDP (directed graph clustering under LDP). 具体来说,为了降低噪音量同时适用于有向图,基于直接编码方式设计了一种适用于有向星型图的动态扰动机制,通过自适应添加噪声来平衡隐私性和统计效用. 在此基础上,在终端和收集者之间构建迭代机制. 收集者依据终端上传的噪声数据提取节点间的相似性信息,并设计基于轮廓系数测量模型的节点聚合算法,通过迭代机制不断地优化节点聚合形式形成高质量簇. 理论分析和实验结果表明,所提算法在满足Edge-LDP 的同时能够有效兼顾聚类精度.
… … 相似文献