数据输入及前期信息:ChronoGauge 需要一个基因表达矩阵,其中包括来自多个时间进程 RNA-测序实验的观测数据,用于训练,并且需要有关每个基因在连续光照(LL)条件下经过光暗(LD)周期调整后的时程采集过程中表达的昼夜节律性和相位的先验信息(这些信息由 MetaCycle 确定)。具有非显著昼夜节律性(meta2d Q 值小于 0.05)的基因会被过滤掉。基因被分为 6 个相位区间,范围在 0 至 24 小时之间,间隔为 4 小时。b 特征选择:使用一种包含正向和反向步骤的自定义顺序特征选择(SFS)算法,通过迭代构建具有不同波形相位的基因特征集,以五折交叉验证(CV)的平均绝对误差(MAE)作为成本。从每次运行中选择具有最小 MAE 的特征集。c 集成生成与优化:使用随机 50% 的基因抽样对 SFS 算法进行 100 次运行,从而得到独特的特征集,这些特征集用于调整和训练 100 个不同的子预测神经网络(NN)。单时间点 CT 估计:将训练好的子预测器应用于单时间点测试样本,从而得出 100 种不同的昼夜时间(CT)估计值,这些估计值通过圆形平均聚合方法合并为一个总体估计值。可以对不同样本中的 CT 估计值的误差进行比较,例如在野生型植物和时钟突变体之间进行比较28。在每个样本内,昼夜特征指纹代表了针对不同基因特征的子预测器所产生误差的差异。蜂群图的属性包括:中央橙色框 = 平均值,羽状线 = 标准差,蓝色点 = 每个子预测器的误差。
介绍
植物的生物钟对其生存和适应能力起着重要作用。然而,要从转录组层面理解生物钟的功能及其对环境的响应,需要通过高分辨率的时间进程实验来进行测定。生成这些数据集是一项劳动密集型且成本高昂的任务,在大多数情况下是在严格控制的实验室条件下进行的。为了克服这些障碍,我们开发了 ChronoGauge:一个集成模型,能够利用少量指示时间的基因在单个时间点的转录组样本中的表达情况,可靠地估计拟南芥植物的内源生物钟时间。ChronoGauge 可以在未见过的拟南芥整体 RNA-测序和微阵列样本中高精度地预测植物的生物钟时间,并且还可以进一步应用于在非模式物种(包括田间样本)的样本中进行非随机预测。最后,我们展示了如何将 ChronoGauge 应用于生成关于生物钟转录组对特定基因型或环境条件反应的假设。
The circadian clock of plants contributes to their survival and fitness. However, understanding clock function at the transcriptome level and its response to the environment requires assaying across high resolution time-course experiments. Generating these datasets is labour-intensive, costly and, in most cases, performed under tightly controlled laboratory conditions. To overcome these barriers, we have developed ChronoGauge: an ensemble model that can reliably estimate the endogenous circadian time of Arabidopsis plants using the expression of a handful of time-indicating genes within a single time-pointed transcriptomic sample. ChronoGauge can predict a plant’s circadian time with high accuracy across unseen Arabidopsis bulk RNA-seq and microarray samples, and can be further applied to make non-random predictions across samples in non-model species, including field samples. Finally, we demonstrate how ChronoGauge can be applied to generate hypotheses regarding the response of the circadian transcriptome to specific genotypes or environmental conditions.
代码
https://github.com/ConnorReynoldsUK/ChronoGauge
“ChronoGauge”是一种类似装袋的组合模型,用于从转录组样本(例如 RNA 测序、微阵列)中估算昼夜时间(CT)。该模型是专门为植物转录组数据的分析而开发的。
ChronoGauge 是基于拟南芥 RNA-测序数据进行训练的,并已在多种应用场景中得到应用,包括:
在 RNA-seq 数据中检验与生物钟相关的假设(例如,对照样本与接受实验干扰的样本之间的差异)
微阵列样本
使用基因同源物的非模式物种
通过多次使用不同的种子值运行自定义顺序特征选择(SFS)包装器来生成子预测器的集合。每次 SFS 运行都会输出一个独特的特征集,可用于训练子预测器。这些子预测器可以应用于包含这些特征集的测试数据集,并将它们的预测结果汇总以提供一个稳健的 CT 估计,尽管存在技术变异/批次效应。
- https://github.com/ConnorReynoldsUK/ChronoGauge_Xspecies
此存储库是“ChronoGauge”的扩展,其中包含了专门针对我们使用拟南芥表达数据训练而成的组合模型在非模式物种中的应用(用于昼夜时间(CT)预测)的相关工作。
在此我们先说明一下,将 ChronoGauge 应用于不同物种(在仅针对拟南芥进行训练后)所得到的预测结果,预计不会像在相同物种上进行训练和测试那样具有高度的可靠性。
我们还注意到,对于非模型物种,有如下要求:需采集至少两个时间点的样本,且这两个时间点之间的间隔应约为 12 小时。
参考
- https://github.com/ConnorReynoldsUK/ChronoGauge_Xspecies
- https://github.com/ConnorReynoldsUK/ChronoGauge
- Machine learning models highlight environmental and genetic factors associated with the Arabidopsis circadian clock