迪赢最新推出AI bait design 1.0：AI 重塑序列，智能定义精准！

2026. 03. 13

近年来，人工智能（AI）技术的快速迭代突破，为生物学研究提供了全新范式。AI技术（包括机器学习、深度学习、生成模型等）凭借其强大的数据挖掘、模式识别与复杂系统模拟能力，在分子生物学研究、抗体筛选、蛋白进化等关键方向实现了突破性进展，推动研究模式从“假设驱动”向“数据驱动”转型，为生命科学研究与生物医药开发注入了新活力。

在细分领域靶向捕获测序中，捕获探针的设计也面临着靶标和背景序列的高度复杂化，使得靶向测序虽然解决了全基因组测序带来诸多痛点：成本高，有效深度低，数据冗杂不利于保存和分析等，但在实际应用中依然存在不少困扰：

1.Panel整体QC符合预期，但是局部重要位点深度低，从序列基本特征无法明确原因。

2.少数重要位点特异性较差，常规探针设计只能在ontarget ratio和coverage中做艰难取舍。

3.位点平均深度符合预期，但是变异检出不佳或变异频率低于预期

4.探针捕获效率预估能力差，增加优化周期和成本。

以上问题的主要原因可能在于，当前市面主流的探针设计逻辑主要基于探针或靶标碱基序列基本属性进行的，例如长度，GC含量，Tm值，焓值等，但是在复杂的杂交体系中，分子杂交的热动力学规律可能无法涵盖所有的靶标场景。例如相同的GC含量、相同的碱基单体数量、不同的碱基排列或者错配位置等，都有可能带来不同的富集效率和特异性效果。为此，迪赢生物在探针设计中引入了人工智能模型，将探针的碱基组成和排列转换为高维特征向量矩阵，通过1000+定制panel、超500w探针序列和靶标的训练和验证，模拟和还原杂交真实场景，以更高的精度给出最优的探针设计结果。

模型训练基本思路

核心模型流程

模型以“捕获深度关联信息”为核心，通过三大模块、双分支并行处理探针与捕获区域之间的关系，实现了从寡核苷酸序列到测序深度特征的端到端的预测，各模块功能如下：

嵌入模块：序列的高维编码

核心作用是将序列中的基础碱基单元转化为高维向量表示，同时融入位置坐标信息。通过将Token嵌入与位置嵌入向量相加，将序列内容与位置坐标共同表示为高维特征向量，为后续探针设计与分析奠定基础。

特征提取模块：全局与链特异性特征捕获

作为模型的核心模块，本模型采用了DNA的预训练模型，每层编码器包含Transformer模块，具体优势如下：

1.Transformer模块：多头自注意力机制可同时捕捉探针、捕获区域各自序列不同位置token的关联，精准识别双向杂交的不对称特征及探针-捕获区域的结合关系。

2.迁移学习：通过迁移学习快速收敛模型，显著提升探针设计任务中的泛化能力与预测能力，探针-捕获区域序列对采用DNA预训练模型进行特征表示，通过全量微调模型使得特征表示更加贴合核酸序列特征。

随后将探针与捕获区域的两个输出特征向量拼接，形成统一的高维特征矩阵。

Virtual hybridization模块：精准输出探针与捕获区域序列对的测序深度

拼接后的矩阵随后输入两层前馈网络，通过非线性变换映射为测序深度预测相关特征。前馈网络最终输出单个数值，对应探针的预测测序深度与捕获区域测序深度的比值，为探针筛选提供直观依据。

设计优势

模型性能可靠，可动态迭代优化。

依托基因领域的预训练DNA模型作为嵌入（该预训练模型在上百个高质量基因组基准数据中进行训练，实现了对基因组序列长达百万碱基的上下文建模能力），搭建了探针深度预测模型。在16个测试数据集上，模型的预测准确性超过80%，足以精准区分合格与不合格探针。后续模型会依据项目产生的实验数据继续训练，通过进一步微调校准参数，模型性能会随数据积累不断提升。