Sử dụng biopython

Biopython là gói tin sinh học lớn nhất và phổ biến nhất dành cho Python. Nó chứa một số mô-đun con khác nhau cho các nhiệm vụ tin sinh học phổ biến. Nó được phát triển bởi Chapman và Chang, chủ yếu được viết bằng Python. Nó cũng chứa mã C để tối ưu hóa phần tính toán phức tạp của phần mềm. Nó chạy trên Windows, Linux, Mac OS X, v.v.

Về cơ bản, Biopython là một tập hợp các mô-đun python cung cấp các chức năng để xử lý các hoạt động của chuỗi DNA, RNA & protein như bổ sung ngược chuỗi DNA, tìm mô típ trong chuỗi protein, v.v. Nó cung cấp nhiều trình phân tích cú pháp để đọc tất cả các cơ sở dữ liệu di truyền chính như GenBank, SwissPort, FASTA, v.v. , cũng như các trình bao bọc/giao diện để chạy các phần mềm/công cụ tin sinh học phổ biến khác như NCBI BLASTN, Entrez, v.v. , bên trong môi trường python. Nó có các dự án anh chị em như BioPerl, BioJava và BioRuby

Đặc trưng

Biopython có tính di động, rõ ràng và có cú pháp dễ học. Một số tính năng nổi bật được liệt kê bên dưới –

  • Giải thích, tương tác và hướng đối tượng

  • Hỗ trợ các định dạng liên quan đến FASTA, PDB, GenBank, Blast, SCOP, PubMed/Medline, ExPASy

  • Tùy chọn để xử lý các định dạng trình tự

  • Công cụ quản lý cấu trúc protein

  • BioSQL – Bộ bảng SQL tiêu chuẩn để lưu trữ trình tự cùng với các tính năng và chú thích

  • Truy cập vào các dịch vụ và cơ sở dữ liệu trực tuyến, bao gồm các dịch vụ NCBI (Blast, Entrez, PubMed) và các dịch vụ ExPASY (SwissProt, Prosite)

  • Truy cập vào các dịch vụ địa phương, bao gồm Blast, Clustalw, EMBOSS

Bàn thắng

Mục tiêu của Biopython là cung cấp khả năng truy cập đơn giản, tiêu chuẩn và rộng rãi vào tin sinh học thông qua ngôn ngữ python. Các mục tiêu cụ thể của Biopython được liệt kê dưới đây -

  • Cung cấp quyền truy cập tiêu chuẩn vào các tài nguyên tin sinh học

  • Các mô-đun và tập lệnh chất lượng cao, có thể tái sử dụng

  • Thao tác mảng nhanh có thể được sử dụng trong Mã cụm, PDB, NaiveBayes và Mô hình Markov

  • phân tích dữ liệu bộ gen

Thuận lợi

Biopython yêu cầu rất ít mã và có những ưu điểm sau –

  • Cung cấp kiểu dữ liệu microarray được sử dụng trong phân cụm

  • Đọc và ghi các tệp loại Tree-View

  • Hỗ trợ dữ liệu cấu trúc được sử dụng để phân tích, biểu diễn và phân tích PDB

  • Hỗ trợ dữ liệu tạp chí được sử dụng trong các ứng dụng Medline

  • Hỗ trợ cơ sở dữ liệu BioSQL, cơ sở dữ liệu tiêu chuẩn được sử dụng rộng rãi trong tất cả các dự án tin sinh học

  • Hỗ trợ phát triển trình phân tích cú pháp bằng cách cung cấp các mô-đun để phân tích tệp tin sinh học thành một đối tượng bản ghi định dạng cụ thể hoặc một lớp trình tự chung cộng với các tính năng

  • Xóa tài liệu dựa trên phong cách sách dạy nấu ăn

Nghiên cứu tình huống mẫu

Hãy để chúng tôi kiểm tra một số trường hợp sử dụng (di truyền dân số, cấu trúc RNA, v.v. ,) và cố gắng hiểu Biopython đóng vai trò quan trọng như thế nào trong lĩnh vực này −

Di truyền dân số

Di truyền quần thể là nghiên cứu về sự biến đổi di truyền trong quần thể, và liên quan đến việc kiểm tra và mô hình hóa những thay đổi về tần số gen và alen trong quần thể theo không gian và thời gian

Biopython cung cấp Bio. Mô-đun PopGen cho di truyền quần thể. Mô-đun này chứa tất cả các chức năng cần thiết để thu thập thông tin về di truyền dân số cổ điển

cấu trúc ARN

Ba đại phân tử sinh học chính cần thiết cho sự sống của chúng ta là DNA, RNA và Protein. Protein là con ngựa của tế bào và đóng một vai trò quan trọng như các enzym. DNA (axit deoxyribonucleic) được coi là “bản thiết kế” của tế bào. Nó mang tất cả các thông tin di truyền cần thiết để tế bào phát triển, hấp thụ chất dinh dưỡng và nhân giống. RNA (Ribonucleic acid) đóng vai trò “bản sao DNA” trong tế bào

Từ trang web biopython, mục tiêu của họ là “làm cho việc sử dụng Python cho tin sinh học dễ dàng nhất có thể bằng cách tạo các mô-đun và tập lệnh chất lượng cao, có thể tái sử dụng. ” Các mô-đun này sử dụng hướng dẫn biopython làm mẫu cho những gì bạn sẽ học ở đây. Dưới đây là danh sách một số định dạng dữ liệu phổ biến nhất trong sinh học tính toán được hỗ trợ bởi biopython

UsesNoteBlasttìm các vùng tương tự cục bộ giữa các trình tựClustalWchương trình căn chỉnh nhiều trình tựGenBankCơ sở dữ liệu trình tự NCBIPubMed và MedlineDocumentcơ sở dữ liệuExPASySIB cổng tài nguyên (Enzyme và Prosite)SCOPSPhân loại cấu trúc của Protein (e. g. 'dom','lin')UniGenecomputationally xác định các bản phiên mã từ cùng một locusSwissCơ sở dữ liệu trình tự protein được chú thích và không dư thừa

Một số chức năng chính khác của biopython

  • Một lớp trình tự tiêu chuẩn liên quan đến trình tự, id trên trình tự và các tính năng trình tự
  • Các công cụ để thực hiện các thao tác phổ biến trên trình tự, chẳng hạn như dịch mã, sao chép và tính toán trọng lượng
  • Mã để thực hiện phân loại dữ liệu bằng k Nearest Neighbors, Naive Bayes hoặc Support Vector Machines
  • Mã xử lý sự sắp xếp, bao gồm cách tiêu chuẩn để tạo và xử lý ma trận thay thế
  • Mã giúp dễ dàng phân chia các tác vụ có thể song song hóa thành các quy trình riêng biệt
  • Các chương trình dựa trên GUI để thực hiện các thao tác trình tự cơ bản, bản dịch, BLASTing, v.v.

Bắt đầu

>>> import Bio
>>> Bio.__version__
'1.58'

Một số ví dụ cũng sẽ yêu cầu kết nối internet đang hoạt động để chạy

>>> from Bio.Seq import Seq
>>> my_seq = Seq("AGTACACTGGT")
>>> my_seq
Seq('AGTACACTGGT', Alphabet())
>>> aStringSeq = str(my_seq)
>>> aStringSeq
'AGTACACTGGT'
>>> my_seq_complement = my_seq.complement()
>>> my_seq_complement
Seq('TCATGTGACCA', Alphabet())
>>> my_seq_reverse = my_seq.reverse()
>>> my_seq_rc = my_seq.reverse_complement()
>>> my_seq_rc
Seq('ACCAGTGTACT', Alphabet())

Còn rất nhiều điều nữa, nhưng trước tiên trước khi tìm hiểu về nó, chúng ta nên tìm hiểu cách đưa các chuỗi vào và ra khỏi python

Tệp tải xuống

Các định dạng FASTA là định dạng chuẩn để lưu trữ dữ liệu trình tự. Đây là một lời nhắc nhỏ về trình tự

Sinh học tính toán được sử dụng để làm gì?

Sinh học tính toán là ngành khoa học trả lời câu hỏi “Làm cách nào chúng ta có thể tìm hiểu và sử dụng các mô hình hệ thống sinh học được xây dựng từ các phép đo thực nghiệm ?” .

Biopython có phải là một mô-đun không?

Về cơ bản, Biopython là tập hợp các mô-đun python cung cấp các chức năng xử lý các hoạt động của chuỗi DNA, RNA & protein chẳng hạn như bổ sung ngược của .

Python được sử dụng như thế nào trong công nghệ sinh học?

Một ứng dụng chính của Python hoặc lập trình là trong giải trình tự bộ gen . Kết hợp với NGS và lập trình, chúng ta có thể căn chỉnh các trình tự cụ thể, rút ​​ra các so sánh và tương đồng. Nhìn vào toàn bộ bộ gen, một số protein hoặc RNA & DNA, khả năng là vô tận.

Biopython có sử dụng NumPy không?

Bản phát hành cũ. Các bản phát hành gần đây của Biopython yêu cầu NumPy (chứ không phải Numeric).