核心内容摘要
“十五五”规划新机遇:安科瑞如何助你搭上零碳园区“头班车”?
得到ChIP-seq或CUTTag数据结果后你是否有过这样的疑惑明明是寻找转录因子的结合序列Motif最终得到的却不是一段固定不变的碱基组合而是像“高矮不一”的序列Logo图那些碱基的“身高差异”也就是权重到底在向我们传递什么信息今天就从实验原理到生物机制为你彻底讲透这个
常见问题。
在解开疑问前我们先明确两个核心概念避免后续理解跑偏首先是Motif简单说就是转录因子或其他DNA结合蛋白在基因组上的“识别密码”通常是
bp的短序列是蛋白与DNA特异性结合的核心依据。
比如大家熟悉的E-box基序就是bHLH家族转录因子的典型识别序列。
其次是Motif权重我们看到的序列Logo图中每个位置不同碱基的高度就是该碱基的权重高度越高说明这个碱基在该位置出现的频率越高、对蛋白结合的重要性越强反之则说明该位置碱基的可替代性越强。
这种权重信息通常会被量化为位置权重矩阵PWM成为后续结合位点预测的核心数据。
Motif与转录因子的“绑定关系”在表观遗传学领域Motif特指基因组中重复出现、具有特定生物学功能的短而保守的DNA序列它们就像转录因子的“专属docking 位点”。
转录因子要调控基因表达首先得精准找到并结合这些位点。
如今已有较为完善的转录因子数据库我们通过实验获得ChIP/CUT结果后可借助数据库匹配快速定位已发现的Motif或挖掘未报道的疑似结合位点为后续研究铺路。
转录因子在不同基因上的结合位点是“保守但不绝对相同”的。
简单说我们看到的Motif序列并不是单一的结合位点而是从一系列转录因子结合位点中汇总而来的“共性代表”。
再加上多数转录因子与DNA的结合并非“一对一锁死”而是存在多种结合模式实验确定的结合位点与Motif匹配序列往往只是部分重叠这就导致Motif序列不可能“一成不变”。
转录因子与DNA序列灵活结合套路
半位点结合两段相似序列的灵活组合有些转录因子蛋白不会只结合一段连续的DNA序列而是会识别两段独立的“半位点”。
这两段半位点的序列通常是回文结构比如ATCG和CGAT或近回文结构且它们之间的关系很灵活既可以有碱基重叠也可以间隔不同数量的碱基具体怎么组合全由转录因子本身的特性决定图A。
这种灵活的组合方式直接导致汇总后的Motif序列不会是固定的“一刀切”模式而是会呈现出“核心半位点保守间隔/重叠区域可变”的特点。
多DNA结合结构域一个因子的多种识别能力部分转录因子蛋白本身就带有多个独立的DNA结合结构域DBDs。
DBDs是由高度保守的氨基酸序列构成的而多样的DBDs就像“多把钥匙”能让同一个转录因子识别不同的DNA序列图B。
比如有些转录因子凭借多个DBDs能识别3种甚至更多不同的DNA序列片段。
这些不同的识别序列汇总成Motif后自然就不会是单一固定的序列了。
多聚体结合组队后的识别范围扩展很多转录因子不会单独行动而是会通过特定结构域相互作用形成稳定的复合物也就是我们常说的同源二聚体、异源二聚体或是与其他蛋白质形成的复合结构图C。
这种“组队”模式会显著扩展它们的DNA识别范围不同的多聚体组合能结合不同的DNA序列。
目前科研中已经发现了大量转录因子二聚体也证实了这种二聚体图谱的生物学意义而这也正是Motif序列可变的重要原因之一。
构象变化同一因子的形态切换即使是只有单个结构域的转录因子也可能拥有多个不同的DNA结合位点。
这是因为转录因子的结构并不是固定不变的它会像“变形金刚”一样在不同条件下呈现出不同的构象。
这种构象变化的触发条件有很多比如蛋白质本身的结构灵活性、外界环境变化、配体结合、共激活子结合或是表观遗传修饰等。
而不同的构象会直接影响它与DNA的结合方式识别的序列自然也就不同了图D。
图DNA结合的多种模式Siggers and Gordân., 2014。
权重的意义PWM矩阵告诉你谁是核心理解了Motif序列的可变性再看“权重”就很容易了。
除了通过可视化图片观察Motif的变化我们更需要借助PWM矩阵位置权重矩阵来解读这种“权重信息”。
PWM矩阵的核心作用就是记录Motif中每个位置上不同核苷酸A/T/C/G出现的频率。
比如某个位置上A出现的频率高达80%C出现的频率只有20%那么在Motif可视化中A的“权重”就会更高对应的字符也会更大、更醒目。
这背后的逻辑是转录因子对结合位点的碱基具有一定的“容忍度”不是必须某个特定碱基才能结合而是允许多种碱基存在。
这种“容忍度”其实是进化出来的智慧它能释放更多的功能结合序列让转录因子适应基因组中的碱基变异从而在不同生理条件下精准且灵活地调控基因表达。
小结说到底Motif序列的可变性和权重信息本质上是转录因子与DNA结合“灵活性”的体现下次再看到Motif可视化图上高低不一的碱基堆叠时不妨想想它是不是对应着转录因子的某种结合模式这种权重差异又暗示了怎样的调控功能想通这些你的实验分析可能会有新的突破如果您在ChIP-seq或CUTTag中遇到相关问题欢迎在评论区留言讨论参考文献Siggers T, Gordân R. Protein–DNA binding: complexities and multi-protein codes[J].Nucleic acids research, 2014, 42(
: 2099-
2111.