重命名人类基因比对抗Excel更容易

2024-07-01 30

人类基因组中有数以万计的基因:DNA和RNA的微小片段编码了使我们独一无二的所有性状和特征。每个基因都有一个名称和字母数字代码。但在过去的一年里,有27个人类基因被重新命名。你会惊讶地知道为什么。事实上,MicrosoftExcel自动替换一些基因名称并将其转换为日期!

Excel是一种流行的电子表程序,科学家们频繁使用它也就不足为奇了。他们在那里输入数据,甚至使用Excel进行临床试验。但事实是Excel是为更平凡的任务而设计的。当用户在电子表格中输入基因的字母数字名称时,例如MARCH1(“MembraneAssociatedRing-CH-TypeFinger1”的缩写),Excel会将其转换为日期:3月1日。

此类错误至关重要,因为为了纠正扭曲的数据,科学家必须手动对所有信息进行分类。这不仅乏味,而且不切实际。但即使在同行评审的科学论文中,这种错误也很常见。2016年的一项研究查看了3,597篇科学论文发表的遗传数据,发现大约五分之一的数据因Excel错误而损坏。

这个问题没有简单的解决方案。Excel中没有关闭自动格式化的选项,避免它的唯一方法是更改??每列的数据类型。即使在这种情况下,科学家也可以改进数据,但将其导出到CSV文件而不保存格式是行不通的。或者另一位科学家可能会上传没有正确格式的数据,意外地将基因符号替换为日期。

这一决定来自负责标准化基因名称的科学机构HUGO基因命名委员会(HGNC)。HGNC发布了有关基因命名的建议,包括“影响数据处理和检索的字符”。从现在起,人类基因及其表达的蛋白质将使用Excel的自动格式命名。这意味着字符MARCH1现在变为MARCHF1,SEPT1变为SEPTIN1,依此类推。旧角色和名称的记录将保存在HGNC中,以避免将来出现混乱。

这些变化影响了27个基因的名称,但“重命名”的原则并未立即公布。基因命名原则很大程度上基于共识。基因命名委员会必须倾听受其工作影响最大的人们的需求。

不总是。在遗传学的早期,命名基因对于富有创造力的科学家来说通常是一项艰巨的任务,从而产生了诸如“刺猬索尼克”(是的,以同一个索尼克命名)和“印地”(“我不是”的缩写)等怪物。死”)著名的名字。然而”)。”(俄语“我还没死”),指的是基因的功能,如果发生突变,果蝇的寿命会延长一倍。这可能看起来很有趣,但科学家们当然知道得更清楚。

但HGNC已经将事情掌握在自己手中,目前的规则没有给心血来潮或自私(遗憾的是,幻想)留下空间。重点是实际问题:如何最大程度地减少混乱?为此,基因符号必须是唯一的,并且名称必须简短而具体。不得使用下标或上标,只能包含拉丁字母和阿拉伯数字,并且不得包含名称或单词,尤其是冒犯性的名称或单词(任何语言)。

尽管重命名基因的决定并不容易,但这并不罕见。例如,许多可以读作名词的基因符号已被重命名,以避免搜索过程中出现误报。过去,CARS变成了CARS1,WARS变成了WARS1,MARS变成了MARS1。还进行了其他更改以避免侮辱。

为什么遗传学家输给了微软

是的,这个决定是有争议的,特别是因为重命名人类基因比改变Excel的工作方式更容易。科学家为何要放弃?

微软没有回应置评请求,但做出改变是没有意义的。处理基因只是Excel软件的一种用途。微软没有动力对其大型社区成员广泛使用的功能进行重大更改。因此科学家不需要等待假设更新来解决问题。而且,他们本身可以提供长期的解决方案。MicrosoftExcel只能存在有限的一段时间,而人类的基因只要我们还活着,就会继续存在。最好给他们提供有效的名称。

本站文章均由用户上传或转载而来,该文章内容本站无法检测是否存在侵权,如果本文存在侵权,请联系邮箱:2287318951@qq.com告知,本站在7天内对其进行处理。