博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PVM(同源验证方法)
阅读量:5296 次
发布时间:2019-06-14

本文共 1962 字,大约阅读时间需要 6 分钟。

PVM(同源验证方法)

PVM来自于
Protein Interactions 
TWO METHODS FOR ASSESSMENT OF THE RELIABILITY OF HIGH THROUGHPUT OBSERVATIONS这篇论文
 

PVM的计算方式

给你两个蛋白P1和P2,考虑P1和P2的同源蛋白,然后在DIP数据库统计这些同源蛋白相互作用的个数 ,不包括P1和P2。这个数量就是相互作用分数。
上图的P1和P2的分数是2。如果这个分数大于0,就认为是相互作用的。
 

PVM网址

 
 DIP提供的在线工具,一次只能提交1000对蛋白。他上传文件的格式要求是 DIP codes、YPD codes或者酵母基因代码。
目前 YPD codes或者酵母基因代码不好找。我们的输入可以使用 DIP codes这个比较方便点。

实验

1.下载酵母蛋白数据

首先我们从DIP数据库下载酵母蛋白数据(DIP20160731)

2.提取DIP codes和uniprot codes

我们用EXCEL打开下载的数据可以看到,ID interactor A 包含DIP codes、refseq codes、和uniprot codes。
目前我们需要 DIP codes和 uniprot codes两个数据。
在EXCEL中我们使用两个代码获得 ID interactor A  的 DIP codes和 uniprot codes,同理也可以获得 ID interactor B的 DIP codes和 uniprot codes
  1. =RIGHT(C2,6)
  2. =MID(C2,1,FIND("N",C2))
然后我们统计出 DIP codes和 uniprot codes一对一的关系。
uid_dip.csv
 
 

 3.获取原论文的数据

Ensemble learning prediction of protein–protein interactions using proteins functional annotations
 
 获取原论文的 uniprot codes列和PVM列
uid.csv

4.获取DIP codes

然后我们根据第2步得到的 DIP codes和 uniprot codes一对一的关系,获取论文数据的 DIP codes
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Tue Nov 01 15:32:44 2016
  4. @author: sun
  5. """
  6. import pandas as pd
  7. import numpy as np
  8. uid_dip=pd.read_csv('uid_dip.csv',header=None,index_col=0)
  9. uid=pd.read_csv('uid.csv')
  10. dip_a=uid_dip.loc[uid.idA,:]
  11. dip_b=uid_dip.loc[uid.idB,:]
  12. dip_a.index=np.arange(3006)
  13. dip_b.index=np.arange(3006)
  14. dip=pd.concat([dip_a,dip_b,uid],axis=1)
  15. dip.to_csv('dip_with_na.csv',index=False,header=False)
  16. dip_no_na=pd.concat([dip_a,dip_b],axis=1)
  17. dip_no_na=dip_no_na.dropna(how='any')#删除有nan值的所有行
  18. dip_no_na.to_csv('dip_no_na.txt',index=False,header=False,sep=' ')
最后我们得到两个文件
dip_with_na.csv
   
dip_no_na.txt
 
 

5.获取PVM

然后我们把上面获得dip_no_na.txt文件每1000个样本分成一个文件上传到下面这个网站。获取PVM值。
最后我们获得pvm分数。
 

 6.结果比较

最终跑出来的数据跟原论文提供的数据不太一样。至于与原因,我想应该是DIP数据库更新引起的。

 总结

  1. 首先这个PVM是2002提出的,有点旧。
  2. 这个工具只有web端的,没有客户端,而且一次只能处理1000个样本。限制太大,不适合大样本的处理。
  3. 上传文件的格式只能是 DIP codes、YPD codes或者酵母基因代码这3类,并没有提供一一对应的关系。操作起来比较复杂。
  4. 小样本可以使用这个特征,大样本建议丢弃这个特征。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

附件列表

 

转载于:https://www.cnblogs.com/ahusun/p/cffd8f389bf4acd3c1d0f83683575eb1.html

你可能感兴趣的文章
设计模式 - Java中单例模式的6种写法及优缺点对比
查看>>
axios的配置项
查看>>
Excel中针对IP地址的排序方法
查看>>
MySQL常用函数
查看>>
如何创建C# Closure ?
查看>>
android 优秀图表库之MPAndroidChart
查看>>
MyBatis
查看>>
vscode mac下终端code .快速打开工程文件
查看>>
登陆界面的记住密码
查看>>
Hadoop的体系结构之HDFS的体系结构
查看>>
java基础(一):我对java的三个环境变量的简单理解和配置
查看>>
arcgis api 4.x for js 结合 Echarts4 实现散点图效果(附源码下载)
查看>>
YTU 2734: 国家排序
查看>>
YTU 2625: B 构造函数和析构函数
查看>>
Notepad++ 16进制编辑功能
查看>>
Caffe: Cannot create Cublas handle. Cublas won't be available
查看>>
Linux 下 LXD 容器搭建 Hadoop 集群
查看>>
mysql describe
查看>>
Hello博客园
查看>>
apache自带压力测试工具ab的使用及解析
查看>>