您的位置:首页 > 其它

RNA的.fasta数据转换为数字数据

2017-04-22 22:16 323 查看

特征转换:.fasta->.numerical

将.fasta格式的数据转换为数字格式的数据

特征转换fasta-numerical
fasta格式1

RNA_m5c数据集

手动将fasta数据集转换为csv格式

使用Anaconda_Spyder_python实现数据转换

.fasta格式1

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。— [百度百科]

RNA_m5c数据集

Supporting Information S1. The benchmark dataset consists of a positive dataset and a negative dataset. The former contains 120 true m5C site containing sequences with the m5C site in the center, while the latter contains 120 false m5C site containing sequences. Each of these segments is 41-bp long.

m5c_P.fasta
I. 120 true m5C site containing sequences

P_1

CGCCUCCCACGCGGGAGACCCGGGUUCAAUUCCCGGCCAAU

P_2

CCGGGUUCAAUUCCCGGCCACUGCACGUGGUUGUUUUUCAC

P_3

GGCCGUGGGUGUGUAGAGGCCUUGGUGGUGCAGUGGUAGAA

m5c_N.fasta
II. 120 false m5C site containing sequences

N_1

GGGAGUGGGAACAGGAUUUGCAAGACUCCUAGUACCUAAAU

N_2

GAAAUGGCCUCAUUUGAUAACUAGUAGGUUUUACACAGUGU

N_3

GGGCAGCCUCCUUCUUGUCUCUGUUGUUGAGGAGUGGAAUG

手动将.fasta数据集转换为.csv格式



只保留.fasta数据集中的RNA序列,并且添加标签“serial”,方便进行下一步数据转换,生成m5c_N.csv和m5c_P.csv两个文件

使用Anaconda_Spyder_python实现数据转换

import pandas as pd
import csv

m5c_N_data=pd.read_csv('.\\m5c_N.csv')
m5c_P_data=pd.read_csv('.\\m5c_P.csv')

csvfile=file('.\\data.csv','wb')
writer=csv.writer(csvfile)

data=[]
for i in range(120):
temp=[]
for j in range(41):
if m5c_N_data['serial'][i][j]=='A':
temp.append(0)
elif m5c_N_data['serial'][i][j]=='C':
temp.append(1)
elif m5c_N_data['serial'][i][j]=='G':
temp.append(2)
else:
temp.append(3)
temp.append(0)
data.append(temp)

for i in range(120):
temp=[]
for j in range(41):
if m5c_P_data['serial'][i][j]=='A':
temp.append(0)
elif m5c_P_data['serial'][i][j]=='C':
temp.append(1)
elif m5c_P_data['serial'][i][j]=='G':
temp.append(2)
else:
temp.append(3)
temp.append(1)
data.append(temp)

writer.writerows(data)
csvfile.close()


http://baike.baidu.com/item/fasta%E6%A0%BC%E5%BC%8F
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: