Biopython là gói tin sinh học lớn nhất và phổ biến nhất dành cho Python. Nó chứa một số mô-đun con khác nhau cho các nhiệm vụ tin sinh học phổ biến. Nó được phát triển bởi Chapman và Chang, chủ yếu được viết bằng Python. Nó cũng chứa mã C để tối ưu hóa phần tính toán phức tạp của phần mềm. Nó chạy trên Windows, Linux, Mac OS X, v.v.
Về cơ bản, Biopython là một tập hợp các mô-đun python cung cấp các chức năng để xử lý các hoạt động của chuỗi DNA, RNA & protein như bổ sung ngược chuỗi DNA, tìm mô típ trong chuỗi protein, v.v. Nó cung cấp nhiều trình phân tích cú pháp để đọc tất cả các cơ sở dữ liệu di truyền chính như GenBank, SwissPort, FASTA, v.v. , cũng như các trình bao bọc/giao diện để chạy các phần mềm/công cụ tin sinh học phổ biến khác như NCBI BLASTN, Entrez, v.v. , bên trong môi trường python. Nó có các dự án anh chị em như BioPerl, BioJava và BioRuby
Đặc trưng
Biopython có tính di động, rõ ràng và có cú pháp dễ học. Một số tính năng nổi bật được liệt kê bên dưới –
Giải thích, tương tác và hướng đối tượng
Hỗ trợ các định dạng liên quan đến FASTA, PDB, GenBank, Blast, SCOP, PubMed/Medline, ExPASy
Tùy chọn để xử lý các định dạng trình tự
Công cụ quản lý cấu trúc protein
BioSQL – Bộ bảng SQL tiêu chuẩn để lưu trữ trình tự cùng với các tính năng và chú thích
Truy cập vào các dịch vụ và cơ sở dữ liệu trực tuyến, bao gồm các dịch vụ NCBI (Blast, Entrez, PubMed) và các dịch vụ ExPASY (SwissProt, Prosite)
Truy cập vào các dịch vụ địa phương, bao gồm Blast, Clustalw, EMBOSS
Bàn thắng
Mục tiêu của Biopython là cung cấp khả năng truy cập đơn giản, tiêu chuẩn và rộng rãi vào tin sinh học thông qua ngôn ngữ python. Các mục tiêu cụ thể của Biopython được liệt kê dưới đây -
Cung cấp quyền truy cập tiêu chuẩn vào các tài nguyên tin sinh học
Các mô-đun và tập lệnh chất lượng cao, có thể tái sử dụng
Thao tác mảng nhanh có thể được sử dụng trong Mã cụm, PDB, NaiveBayes và Mô hình Markov
phân tích dữ liệu bộ gen
Thuận lợi
Biopython yêu cầu rất ít mã và có những ưu điểm sau –
Cung cấp kiểu dữ liệu microarray được sử dụng trong phân cụm
Đọc và ghi các tệp loại Tree-View
Hỗ trợ dữ liệu cấu trúc được sử dụng để phân tích, biểu diễn và phân tích PDB
Hỗ trợ dữ liệu tạp chí được sử dụng trong các ứng dụng Medline
Hỗ trợ cơ sở dữ liệu BioSQL, cơ sở dữ liệu tiêu chuẩn được sử dụng rộng rãi trong tất cả các dự án tin sinh học
Hỗ trợ phát triển trình phân tích cú pháp bằng cách cung cấp các mô-đun để phân tích tệp tin sinh học thành một đối tượng bản ghi định dạng cụ thể hoặc một lớp trình tự chung cộng với các tính năng
Xóa tài liệu dựa trên phong cách sách dạy nấu ăn
Nghiên cứu tình huống mẫu
Hãy để chúng tôi kiểm tra một số trường hợp sử dụng (di truyền dân số, cấu trúc RNA, v.v. ,) và cố gắng hiểu Biopython đóng vai trò quan trọng như thế nào trong lĩnh vực này −
Di truyền dân số
Di truyền quần thể là nghiên cứu về sự biến đổi di truyền trong quần thể, và liên quan đến việc kiểm tra và mô hình hóa những thay đổi về tần số gen và alen trong quần thể theo không gian và thời gian
Biopython cung cấp Bio. Mô-đun PopGen cho di truyền quần thể. Mô-đun này chứa tất cả các chức năng cần thiết để thu thập thông tin về di truyền dân số cổ điển
cấu trúc ARN
Ba đại phân tử sinh học chính cần thiết cho sự sống của chúng ta là DNA, RNA và Protein. Protein là con ngựa của tế bào và đóng một vai trò quan trọng như các enzym. DNA (axit deoxyribonucleic) được coi là “bản thiết kế” của tế bào. Nó mang tất cả các thông tin di truyền cần thiết để tế bào phát triển, hấp thụ chất dinh dưỡng và nhân giống. RNA (Ribonucleic acid) đóng vai trò “bản sao DNA” trong tế bào
Từ trang web biopython, mục tiêu của họ là “làm cho việc sử dụng Python cho tin sinh học dễ dàng nhất có thể bằng cách tạo các mô-đun và tập lệnh chất lượng cao, có thể tái sử dụng. ” Các mô-đun này sử dụng hướng dẫn biopython làm mẫu cho những gì bạn sẽ học ở đây. Dưới đây là danh sách một số định dạng dữ liệu phổ biến nhất trong sinh học tính toán được hỗ trợ bởi biopython
UsesNoteBlasttìm các vùng tương tự cục bộ giữa các trình tựClustalWchương trình căn chỉnh nhiều trình tựGenBankCơ sở dữ liệu trình tự NCBIPubMed và MedlineDocumentcơ sở dữ liệuExPASySIB cổng tài nguyên (Enzyme và Prosite)SCOPSPhân loại cấu trúc của Protein (e. g. 'dom','lin')UniGenecomputationally xác định các bản phiên mã từ cùng một locusSwissCơ sở dữ liệu trình tự protein được chú thích và không dư thừaMột số chức năng chính khác của biopython
- Một lớp trình tự tiêu chuẩn liên quan đến trình tự, id trên trình tự và các tính năng trình tự
- Các công cụ để thực hiện các thao tác phổ biến trên trình tự, chẳng hạn như dịch mã, sao chép và tính toán trọng lượng
- Mã để thực hiện phân loại dữ liệu bằng k Nearest Neighbors, Naive Bayes hoặc Support Vector Machines
- Mã xử lý sự sắp xếp, bao gồm cách tiêu chuẩn để tạo và xử lý ma trận thay thế
- Mã giúp dễ dàng phân chia các tác vụ có thể song song hóa thành các quy trình riêng biệt
- Các chương trình dựa trên GUI để thực hiện các thao tác trình tự cơ bản, bản dịch, BLASTing, v.v.
Bắt đầu
>>> import Bio >>> Bio.__version__ '1.58'
Một số ví dụ cũng sẽ yêu cầu kết nối internet đang hoạt động để chạy
>>> from Bio.Seq import Seq >>> my_seq = Seq("AGTACACTGGT") >>> my_seq Seq('AGTACACTGGT', Alphabet()) >>> aStringSeq = str(my_seq) >>> aStringSeq 'AGTACACTGGT' >>> my_seq_complement = my_seq.complement() >>> my_seq_complement Seq('TCATGTGACCA', Alphabet()) >>> my_seq_reverse = my_seq.reverse() >>> my_seq_rc = my_seq.reverse_complement() >>> my_seq_rc Seq('ACCAGTGTACT', Alphabet())
Còn rất nhiều điều nữa, nhưng trước tiên trước khi tìm hiểu về nó, chúng ta nên tìm hiểu cách đưa các chuỗi vào và ra khỏi python
Tệp tải xuống
Các định dạng FASTA là định dạng chuẩn để lưu trữ dữ liệu trình tự. Đây là một lời nhắc nhỏ về trình tự