有学员提问, 为什么他看到了一个基因,如下所示,居然有两个id,看起来就非常的诡异,让他百思不得其解。

如果去搜索它,你会发现 一个基因,搜索结果就这么一点, 简直是丢脸!

作为对比,你可以搜索咱们生信技能树看看:

假如你的表达量矩阵就是ensembl数据库的id格式,然后需要转为基因的名字,这个时候两个id都转为了同样的名字,后续处理就很尴尬。

其实这个时候你可以随意选择,比如这个基因你可以直接删除,或者两个id随意选择一个,或者选择表达量最高的那个id。

下面给出了一个示范代码:

假如你原来的表达量矩阵是6万个ensembl的id组成的,经过了上面的代码的转换,变成了2万个基因的矩阵。

这个时候你不要害怕,是正常的!人类就只有2万个蛋白编码基因矩阵, 4万个id缺失了就缺失了,这就是人生。如果你问我为什么,我得给你开课,讲解背景知识至少十天半个月!