精准医疗是近几年兴起的疾病治疗方案,他强调在治疗时考虑个人的基因变化、环境影响、生活方式等。基于患者的遗传信息的诊断测试结合其他分子或细胞的分析结果,再针对性地选择适当和**疗法。现在研究发现即便临床表现相同的患者,他们体内基因改变的情况也可以存在着巨大的差异,这种分子水平上的差异直接导致了不同患者对临床治疗反应不尽相同。肿瘤为一种复杂多样的疾病,在分子遗传上 具有很大异质性,即使相同病理类型的癌症患者,对抗癌药物也反应迥异,因此根据不同癌症中的基因突变信息,结合患者自身癌细胞独特的基因特征对药物的敏感性进行预测有助于帮助医生基于基因分析选择潜在的靶向治疗药物,从而提高治疗的效率和精度。

1. 寻找敏感基因:针对给定癌症药物,通过现有药物敏感性、基因表达和SNP数据,利用统计学习的方法找到对给定药物敏感的基因型;

2. 通过序列比对找到与疾病相关的SNP;

3. 预测药物敏感性:通过样本数据分析药物敏感性与基因表达、SNP以及患者的个体表现型(如身高、体重、血压、心跳及吸烟史等等)之间的关系,从而实现个体对药物敏感性的预测。

数据主要包含两部分,一部分是公开数据包括CCLE和CGP等网站上发表的癌症相关数据,这些数据主要是给出了不同药物作用于不同癌症患者的基因表达数据、SNP数据、个体表型数据以及药物敏感性的数据,这部分数据主要用来进行模型训练。第二部分是实测数据,包括癌症患者的基因序列、个体表型数据(与医院合作),主要用来进行模型的测试。

1. 数据的获取:CCLE和CGP的公开数据只能用于验证模型是否可行,由于其所测样本来自国外不同的人种,以及其生活环境的差异,因此该样本下学习的模型要想实用与临床必须重新获取大量的实测样本数据来训练模型

2. 序列比对方法包括局部比对和全局比对,主要用来寻找疾病相关SNP;

3. 统计分析方法:包括lasso、弹性网络和支持向量机等,用来进行变量选择,即筛选和疾病相关的基因以及对药物较为敏感的基因。

4. 预测方法,包括线性回归,非线性回归,logistic回归,支持向量机、贝叶斯网络,神经网络等等,主要是根据测得的基因序列(包括表达量),个体表型,SNP等预测药物的敏感性,以指导医生用药

1. 通过对原始数据的数据清理和统计分析,出具针对个体患者的医生用药的指导性报告;

2. 发表癌症药物敏感性相关的科研文章。