美国科学家开发出一个可将DNA序列转译成图像的新工具,这将有助于鉴别导致癌症、亨廷顿氏症以及其他遗传疾病的DNA图谱的实时变化,从而使研究人员能更迅速、更有效地区分遗传模式。
北卡罗来纳州立大学计算机科学系博士生戴维·考克斯设计的这个“符号散点图”工具,给DNA序列提供了一个可视化的示意图。考克斯解释说,与现存的那些试图找出重复DNA序列的计算机程序相比,人类的视觉系统更善于识别图样,并在图样之间进行区分。换言之,肉眼看图的能力目前要强于计算机。
确定DNA序列中的图样是很重要的,因为它能帮助研究人员在癌症等疾病患者和健康人之间鉴别实时的基因变异。改进相关DNA序列的鉴别力,将有望加快开发出各种疾病的更成功的治疗方法,并允许研究人员将重点放在和疾病相关的部分DNA上,使人们增强对这些疾病遗传机制的了解。譬如,到底是什么打开或关闭了某个特定基因?
那么,符号散点图工具是如何创建DNA的可视化示意图的呢?DNA由4种核苷酸组成,分别用字母A、T、G和C表示,这些核苷酸的每三个字母串,如AAA或ATG等称为3基体(3-mers)。考克斯解释说,有64种3基体,每个3基体用数字0至63来表示。符号散点图工具将用一个很长的字符串来表示DNA序列,并将其以一个个的3基体形式分开。为每个3基体画一个点,将数字0至63作为Y轴。X轴则代表3基体出现在基因序列中的顺序。由此产生的散点图就可揭示原始DNA中的有趣图样。将这些散点串在一起就能制成动画用来比较DNA序列。
考克斯选择3基体的原因是其与密码子相关,密码子是人体在生产蛋白质过程中插入一个特定氨基酸所用的遗传代码。换句话说,他们监督蛋白质(人体基本构建模块)的产生。
考克斯说,尽管3基体有64个,但只有20个氨基酸,所以每个氨基酸对应3个多一点的3基体。考克斯设计的这个符号散点图可使这些对应相应氨基酸的3基体能够彼此相邻。如此一来,就很容易判断何时3基体中的一个出现明显差异,即从一个氨基酸变成了另一个氨基酸。
编辑:
霍吉和
|