Tôi nên học R hay Python cho khoa học dữ liệu

Tôi nên học R hay Python? . Ở đây chúng tôi cung cấp cho bạn câu trả lời dứt khoát dựa trên các trường hợp sử dụng, mức độ phổ biến, tính dễ học và hơn thế nữa

Thời gian đọc 4 phút

Nếu bạn đang muốn trở thành một nhà khoa học dữ liệu chuyên nghiệp, bạn sẽ cần học ít nhất một ngôn ngữ lập trình. Đó là một câu hỏi thông minh để hỏi. Tôi nên học R hay Python?

Là một nhà khoa học dữ liệu, bạn có thể muốn và cần học Ngôn ngữ truy vấn có cấu trúc hoặc SQL. SQL là ngôn ngữ thực tế của cơ sở dữ liệu quan hệ, nơi hầu hết thông tin công ty vẫn nằm. Nhưng điều đó chỉ cung cấp cho bạn khả năng truy xuất dữ liệu — không phải để dọn sạch dữ liệu hoặc chạy các mô hình dựa trên dữ liệu đó — và đó là lúc Python và R xuất hiện

Tôi nên học R hay Python cho khoa học dữ liệu

Một chút nền tảng về R

R được tạo ra bởi Ross Ihaka và Robert Gentleman - hai nhà thống kê từ Đại học Auckland ở New Zealand. Nó được phát hành lần đầu vào năm 1995 và họ đã tung ra phiên bản beta ổn định vào năm 2000. Đó là một ngôn ngữ được giải thích (bạn không cần chạy nó qua trình biên dịch trước khi chạy mã) và có một bộ công cụ cực kỳ mạnh mẽ để lập mô hình thống kê và vẽ biểu đồ

Đối với những người mê lập trình, R là một triển khai của S — một ngôn ngữ lập trình thống kê được phát triển vào những năm 1970 tại Bell Labs— và nó được lấy cảm hứng từ Scheme — một biến thể của Lisp. Nó cũng có thể mở rộng, giúp dễ dàng gọi các đối tượng R từ nhiều ngôn ngữ lập trình khác

R miễn phí và ngày càng trở nên phổ biến với chi phí của các gói thống kê thương mại truyền thống như SAS và SPSS. Hầu hết người dùng viết và chỉnh sửa mã R của họ bằng RStudio, Môi trường phát triển tích hợp (IDE) để viết mã trong R

Tôi nên học R hay Python cho khoa học dữ liệu

Như một lưu ý phụ. Các biểu đồ bên trên và bên dưới cho thấy mức độ phổ biến tương đối dựa trên số lượt kéo GitHub được thực hiện mỗi năm cho ngôn ngữ đó. Chúng dựa trên dữ liệu từ , được tạo bởi littleark

Một chút nền tảng về Python

Python cũng đã xuất hiện được một thời gian. Ban đầu nó được Guido van Rossum phát hành vào năm 1991 dưới dạng ngôn ngữ lập trình đa năng. Giống như R, nó cũng là một ngôn ngữ được giải thích và có một thư viện tiêu chuẩn toàn diện cho phép lập trình dễ dàng nhiều tác vụ phổ biến mà không cần phải cài đặt thêm thư viện. Python có một số thư viện viết mã mạnh mẽ nhất hiện có. Chúng cũng có sẵn miễn phí

Đối với khoa học dữ liệu, có một số thư viện Python cực mạnh. Có NumPy (tính toán số hiệu quả), Pandas (một loạt các công cụ để làm sạch và phân tích dữ liệu) và StatsModels (các phương pháp thống kê phổ biến). Bạn cũng có TensorFlow, Keras và PyTorch (tất cả các thư viện để xây dựng mạng thần kinh nhân tạo – hệ thống học sâu)

Ngày nay, nhiều nhà khoa học dữ liệu sử dụng Python viết và chỉnh sửa mã của họ bằng Jupyter Notebooks. Jupyter Notebooks cho phép dễ dàng tạo các tài liệu là sự kết hợp của văn xuôi, mã, dữ liệu và trực quan hóa, giúp bạn dễ dàng ghi lại quy trình của mình và giúp các nhà khoa học dữ liệu khác xem xét và sao chép công việc của bạn

Tôi nên học R hay Python cho khoa học dữ liệu

Chọn ngôn ngữ cho khoa học dữ liệu

Trong lịch sử đã có sự chia rẽ khá đồng đều trong cộng đồng khoa học dữ liệu và phân tích dữ liệu. R vs Python cho khoa học dữ liệu bắt nguồn từ nền tảng của một nhà khoa học. Thông thường, các nhà khoa học dữ liệu có nền tảng khoa học dữ liệu học thuật hoặc toán học vững chắc hơn sẽ ưu tiên R, trong khi các nhà khoa học dữ liệu có nền tảng lập trình nhiều hơn có xu hướng thích Python hơn

Điểm mạnh của Python

So với R, Python là ngôn ngữ có mục đích chung

Python là một ngôn ngữ lập trình mục đích chung. Thật tuyệt vời để phân tích thống kê, nhưng mã Python sẽ là lựa chọn linh hoạt, có khả năng hơn nếu bạn muốn xây dựng một trang web để chia sẻ kết quả của mình hoặc một dịch vụ web để tích hợp dễ dàng với các hệ thống sản xuất của bạn

Python phổ biến hơn nhiều so với R

Trong chỉ số Tiobe về các ngôn ngữ lập trình phổ biến nhất vào tháng 9 năm 2019, Python là ngôn ngữ lập trình phổ biến thứ ba (và đã tăng hơn 2% trong năm ngoái) trong tất cả các lĩnh vực khoa học máy tính và phát triển phần mềm, trong khi R đã giảm trong năm qua

R vs Python để học sâu — Python lại phổ biến hơn

Hầu hết các dự án deep learning nghiêm túc đều sử dụng TensorFlow hoặc PyTorch. Cả hai đều hoạt động tốt với Python và mặc dù hiện tại đã có giao diện R cho TensorFlow, nhưng nhiều công việc học sâu hơn đang được thực hiện với Python so với R. Khi học sâu có thể áp dụng cho nhiều lĩnh vực ngày càng rộng (bắt đầu với thị giác máy tính, giờ đây nó cũng trở thành cách tiếp cận mặc định cho hầu hết các tác vụ Xử lý ngôn ngữ tự nhiên), điều đó ngày càng quan trọng

Python cũng cực kỳ phổ biến trong dữ liệu lớn, trí tuệ nhân tạo và máy học. Cuối cùng, nó cũng có thể được sử dụng làm ngôn ngữ giao diện người dùng và trong các ứng dụng web

Python giống với các ngôn ngữ khác hơn R là

Mặc dù ai đó có nền tảng về Lisp có thể học R khá nhanh nếu ai đó có nền tảng lập trình bằng ngôn ngữ lập trình mục đích chung phổ biến hơn - như Java, C #, JavaScript hoặc Ruby - họ sẽ thấy việc học dễ dàng hơn

Kết luận - tốt hơn hết là bạn nên học Python trước khi học R

Vẫn còn rất nhiều công việc yêu cầu R, vì vậy nếu bạn có thời gian thì học cả hai cũng không hại gì, nhưng tôi khuyên rằng ngày nay, Python đang trở thành ngôn ngữ lập trình thống trị cho các nhà khoa học dữ liệu và là lựa chọn đầu tiên tốt hơn

Trường Flatiron bao gồm rộng rãi Python trong chương trình Khoa học dữ liệu của chúng tôi, khóa học 15 tuần của chúng tôi dạy cho bạn tất cả các kỹ năng bạn cần để bắt đầu sự nghiệp trong lĩnh vực dữ liệu. Đây là cách để tham gia khóa học khoa học dữ liệu đó

Nếu bạn đang nghĩ về một nghề nghiệp mới nhưng đang tự hỏi làm thế nào để tài trợ cho chương trình đào tạo của mình, hãy đọc “Cách thanh toán cho một chương trình đào tạo viết mã” hoặc truy cập trang Học phí & Tài chính.  

Đăng bởi Peter Bell  /  Ngày 4 tháng 2 năm 2021

Khoa học dữ liệu Xu hướng công nghệ

bài viết liên quan

xu hướng công nghệ

Học viết mã Python. Bài học miễn phí cho người mới bắt đầu

xu hướng công nghệ

Chuyên gia khách mời về an ninh mạng

xu hướng công nghệ

Greg Damico. Từ học thuật đến công nghệ

Tài nguyên liên quan

Tôi nên học R hay Python cho khoa học dữ liệu

Khoa học dữ liệu

Học viết mã Python. Bài học miễn phí cho người mới bắt đầu

Xếp sau JavaScript, HTML/CSS và SQL, Python là ngôn ngữ phổ biến thứ tư với 44. 1% nhà phát triển. Kiểm tra bài viết này về cách bạn có thể học ngôn ngữ lập trình phổ biến này miễn phí

Tôi nên học R hay Python cho khoa học dữ liệu

Kỹ thuật an ninh mạng

Chuyên gia khách mời về an ninh mạng

Các khóa học của chúng tôi thường xuyên mời các chuyên gia khách mời để học viên có thể nghe về kinh nghiệm của họ. Dưới đây là bốn chuyên gia khách mời về An ninh mạng nổi bật gần đây

Tôi nên học R hay Python cho khoa học dữ liệu

Nhân viên / Huấn luyện viên

Greg Damico. Từ học thuật đến công nghệ

Greg Damico, Giám đốc Khoa Kỹ thuật tại Trường Flatiron, đã dành hơn 2 thập kỷ trong giới học thuật trước khi chuyển hướng sang lĩnh vực công nghệ để tìm kiếm triển vọng nghề nghiệp ổn định hơn

R tốt hơn cho khoa học dữ liệu hay Python?

Không còn nghi ngờ gì nữa, Python phổ biến hơn R đối với khoa học dữ liệu . Mặt khác, khi nói đến khoa học dữ liệu, các nhà tuyển dụng tìm kiếm những thứ khác nhau ở các chuyên gia Python và R.

Có đáng học R cho khoa học dữ liệu không?

Một nhà khoa học dữ liệu giỏi là một nhà thống kê đam mê lập trình và không có ngôn ngữ lập trình nào tốt hơn ngôn ngữ lập trình dành cho nhà thống kê học hơn ngôn ngữ R. Tiêu chuẩn trong số các ngôn ngữ lập trình thống kê, R đôi khi được gọi là “đứa con vàng” của khoa học dữ liệu .