实战DrugBank：用Python构建药物-靶点关系图谱-尧图企业网站定制

1. 从零开始认识DrugBank数据库第一次接触DrugBank时我被这个数据库的全面性震惊了。它就像药物研究领域的百科全书不仅包含常见药物的基本信息还详细记录了药物靶点、代谢途径、相互作用等关键数据。这个由加拿大阿尔伯塔大学维护的数据库已经成为全球药物研发人员不可或缺的工具。我刚开始用DrugBank时最头疼的就是数据获取。这里分享个小技巧虽然完整数据库需要申请许可但初学者完全可以从开放数据集入手。DrugBank提供了多种数据格式包括XML、CSV和SDF。其中XML格式包含的信息最全适合做深度分析而SDF格式则包含了药物分子的结构信息适合做化学信息学研究。记得我第一次下载数据时犯了个低级错误——没注意文件编码。DrugBank的XML文件默认使用UTF-8编码如果读取时没指定中文系统很可能会报错。后来我养成了个好习惯每次处理XML文件都会显式声明编码with open(drugbank.xml, r, encodingutf-8) as f: data f.read()2. 准备Python解析环境工欲善其事必先利其器。在开始解析DrugBank数据前我们需要配置合适的Python环境。我推荐使用Anaconda创建独立环境这样可以避免包冲突问题。以下是必须安装的几个关键库xmltodict将XML转换为Python字典比传统DOM解析更简单pandas数据处理和分析神器rdkit处理化学结构数据仅当需要分析分子结构时安装安装这些库很简单pip install xmltodict pandas rdkit这里有个坑我踩过——rdkit在某些系统上安装可能报错。如果遇到问题可以尝试conda安装conda install -c conda-forge rdkit配置好环境后建议先做个简单的测试确认所有库都能正常导入import xmltodict import pandas as pd from rdkit import Chem print(所有库导入成功)3. 解析DrugBank的XML数据XML是DrugBank提供的最完整的数据格式但也是最难处理的。经过多次尝试我发现xmltodict是最省事的解析方案。它能将XML直接转换成Python字典大大简化了数据提取过程。首先我们需要加载XML文件import xmltodict with open(full_database.xml, r, encodingutf-8) as f: xml_data f.read() drugbank_dict xmltodict.parse(xml_data)这个字典的结构很复杂我花了些时间才理清。顶层是drugbank键下面包含多个drug条目。每个drug又包含药物ID、名称、靶点等信息。其中靶点信息在targets字段中可能单个靶点或多个靶点。提取药物-靶点关系的核心代码如下drugs drugbank_dict[drugbank][drug] results [] for drug in drugs: drug_id drug[drugbank-id][0][#text] if isinstance(drug[drugbank-id], list) else drug[drugbank-id][#text] drug_name drug[name] if targets not in drug or drug[targets] is None: continue targets drug[targets][target] # 处理单个靶点的情况 if isinstance(targets, dict): uniprot_id targets[polypeptide][id] if polypeptide in targets else None if uniprot_id: results.append([drug_id, drug_name, uniprot_id, targets[name]]) # 处理多个靶点的情况 elif isinstance(targets, list): for target in targets: uniprot_id target[polypeptide][id] if polypeptide in target else None if uniprot_id: results.append([drug_id, drug_name, uniprot_id, target[name]])4. 构建药物-靶点关系图谱有了药物-靶点数据后下一步就是构建关系图谱。我常用networkx这个库来做网络分析配合matplotlib或pyvis进行可视化。首先我们需要将数据转换成适合网络分析的格式import pandas as pd import networkx as nx # 假设results是我们之前提取的药物-靶点关系列表 df pd.DataFrame(results, columns[Drug_ID, Drug_Name, Uniprot_ID, Target_Name]) # 创建空的有向图 G nx.DiGraph() # 添加节点和边 for _, row in df.iterrows(): # 添加药物节点红色 G.add_node(row[Drug_ID], labelrow[Drug_Name], typedrug, colorred) # 添加靶点节点蓝色 G.add_node(row[Uniprot_ID], labelrow[Target_Name], typetarget, colorblue) # 添加边 G.add_edge(row[Drug_ID], row[Uniprot_ID])对于简单的可视化可以使用matplotlibimport matplotlib.pyplot as plt plt.figure(figsize(12, 12)) pos nx.spring_layout(G, k0.15) colors [G.nodes[n][color] for n in G.nodes] nx.draw(G, pos, node_colorcolors, with_labelsTrue, font_size8) plt.show()但如果数据量很大通常DrugBank的数据都很大我推荐使用pyvis生成交互式图表from pyvis.network import Network net Network(notebookTrue, height750px, width100%) net.from_nx(G) net.show(drug_target.html)5. 高级分析与实际应用基础的关系图谱建立后我们可以进行更深入的分析。比如计算网络的基本统计特征print(f节点数: {G.number_of_nodes()}) print(f边数: {G.number_of_edges()}) print(f平均聚类系数: {nx.average_clustering(G.to_undirected())}) print(f网络直径: {nx.diameter(G.to_undirected())})在实际研究中我常用这些分析来识别关键靶点计算节点的度中心性找出连接最多的靶点degree_centrality nx.degree_centrality(G) sorted_targets sorted(degree_centrality.items(), keylambda x: x[1], reverseTrue) print(Top 10关键靶点:, sorted_targets[:10])发现药物重定位机会寻找连接多个药物的靶点可能提示老药新用的机会构建预测模型将网络特征作为机器学习模型的输入预测新的药物-靶点相互作用记得有次分析中我发现一个原本用于高血压的药物通过这个网络分析显示出可能对阿尔茨海默病有作用后来查文献确实有相关研究。这种发现让我特别兴奋也体现了这种分析方法的价值。6. 处理大规模数据的技巧当处理完整版DrugBank数据时可能会遇到内存不足的问题。我总结了几点优化经验增量解析不要一次性加载整个XML文件使用SAX解析器逐行处理from xml.sax import parse from xml.sax.handler import ContentHandler class DrugHandler(ContentHandler): def __init__(self): self.current self.drug_data {} def startElement(self, name, attrs): self.current name def characters(self, content): if self.current drugbank-id: self.drug_data[id] content # 其他字段处理... handler DrugHandler() parse(full_database.xml, handler)使用数据库对于超大规模分析建议将数据导入SQLite或Neo4jimport sqlite3 conn sqlite3.connect(drugbank.db) df.to_sql(drug_target, conn, if_existsreplace, indexFalse)并行处理将数据分块后用多进程处理from multiprocessing import Pool def process_chunk(chunk): # 处理数据块的函数 pass with Pool(4) as p: results p.map(process_chunk, data_chunks)7. 常见问题与解决方案在实际项目中我遇到过各种奇怪的问题这里分享几个典型的编码问题DrugBank数据包含特殊字符确保所有文件操作都指定utf-8编码内存不足可以尝试分块处理或使用更高效的数据结构如Python的array模块网络可视化混乱对于大型网络建议先进行社区检测然后按社区分组可视化from networkx.algorithms import community communities community.greedy_modularity_communities(G.to_undirected())数据不一致有些字段可能缺失需要做好异常处理try: target_name target[name] except KeyError: target_name Unknown性能瓶颈使用适当的数据结构比如对于频繁查找操作考虑将列表转为字典记得有次分析跑了几个小时都没结果后来发现是因为在循环内进行了不必要的计算。优化后只需要几分钟这个教训让我深刻理解了算法效率的重要性。

相关新闻

Qwen3-ASR-0.6B惊艳案例：带咳嗽/停顿/语速不均医生问诊语音精准还原

API配置踩坑实录：OpenClaw与DeepSeek、百炼大模型对接的密钥验证与网络调试

卡证检测矫正模型与数据库联动：构建自动化证件信息录入系统

VMware替代不是替换，而是重构：Gartner认证的5层迁移成熟度模型（附自评工具）

Jmeter 压测保姆级入门教程

诺贝尔经济学奖得主预警：AI“准泡沫”或破裂，芯片板块大跌背后暗藏危机

微信网页版终极解锁指南：5分钟快速解决Chrome/Firefox/Edge登录问题

视频号资源下载难题如何破解？3个核心功能带你轻松获取网络素材

不动点迭代法：从非线性方程求解到MATLAB工程实践

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

暗黑2存档编辑器终极指南：5分钟快速掌握d2s-editor完整使用教程

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI开发实战：emWin控件API解析与避坑指南

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定