Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bạn có thể sử dụng các khung dữ liệu pandas để làm điều này mà không gặp rắc rối của split:

parsed_file = pandas.read_csv("filename", header = 0)

Sẽ tự động đọc điều này vào một dataFrame cho bạn. Sau đó, bạn có thể lọc theo những hàng đó chứa dns.exe, v.v. Bạn có thể cần xác định tiêu đề của riêng mình


Dưới đây là sự thay thế chung hơn cho read_csv nếu bạn muốn kiểm soát nhiều hơn. Tôi đã giả sử các cột của bạn đều được phân tách tab, nhưng bạn có thể cảm thấy tự do để thay đổi ký tự chia tách theo cách bạn muốn:

with open('filename','r') as logs:
    logs.readline() # skip header so you can can define your own.
    columns = ["Proto","Local Address","Foreign Address","State","PID", "Process"]
    formatted_logs = pd.DataFrame([dict(zip(columns,line.split('\t'))) for line in logs])

Sau đó bạn chỉ có thể lọc các hàng bằng cách

formatted_logs = formatted_logs[formatted_logs['Process'].isin(['dns.exe','lsass.exe', ...])]

Nếu bạn chỉ muốn tên quy trình, nó thậm chí còn đơn giản hơn. Cứ làm đi

processes = formatted_logs['Process'] # returns a Series object than can be iterated through

Tổng quan

  • Trích xuất thông tin là một khái niệm NLP mạnh mẽ sẽ cho phép bạn phân tích cú pháp qua bất kỳ đoạn văn bản nào
  • Tìm hiểu cách thực hiện trích xuất thông tin bằng các kỹ thuật NLP trong Python

Giới thiệu

Tôi là một bibliophile - Tôi thích đổ qua những cuốn sách trong thời gian rảnh rỗi và trích xuất càng nhiều kiến ​​thức càng tốt. Nhưng trong ngày hôm nay, thông tin quá tải tuổi, cách chúng ta đọc đã thay đổi. Hầu hết chúng ta có xu hướng bỏ qua toàn bộ văn bản, cho dù đó là một bài viết, một cuốn sách hay một hướng dẫn - và chỉ đọc các bit văn bản có liên quan.

Hãy để tôi chia sẻ một ví dụ cá nhân xung quanh điều này. Gần đây tôi đã đọc một bài báo về chuyến lưu diễn sắp tới của Ấn Độ ở Úc khi tôi nhận ra rằng tôi đã đạt được sự kết thúc của văn bản nhanh như thế nào. Tôi lướt qua hầu hết nó, chỉ đọc các tiêu đề và một vài bit về Virat Kohli. Ở đây, một đoạn văn từ bài báo:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bạn có thể đoán tại sao một số từ được tô sáng màu đỏ? Đúng, tôi tập trung vào chúng khi đọc bài báo. Và điều này khiến tôi suy nghĩ - với tư cách là một người trong không gian xử lý ngôn ngữ tự nhiên (NLP), tôi có thể xây dựng một mô hình có thể trích xuất các phần có liên quan này từ bất kỳ văn bản nào không?

Hóa ra câu trả lời là có - nhờ một khái niệm gọi là trích xuất thông tin. Chúng tôi sẽ tìm hiểu thêm về việc trích xuất thông tin sau này, nhưng đủ để nói rằng nó thực sự giúp tôi tinh chỉnh các kỹ năng NLP của mình và xây dựng một mô hình trích xuất mạnh mẽ mà tôi có thể sử dụng để phân tích thông qua hầu hết các bài viết.

Trong bài viết này, tôi trình bày cho bạn những bài học của tôi từ khi tôi làm việc trong một dự án trích xuất thông tin. Đây là một hướng dẫn toàn diện vì vậy dây đeo để đi xe và tận hưởng hành trình tìm kiếm NLP!

Nếu bạn đã đọc về bất kỳ khái niệm NLP nào trước đây, tôi khuyên bạn nên bắt đầu cho khóa học miễn phí dưới đây:

  • Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP)

Mục lục

  • Trích xuất thông tin là gì?
  • Làm thế nào để trích xuất thông tin hoạt động?
  • Làm quen với bộ dữ liệu NLP
  • Bài phát biểu trước xử lý trước
  • Chia văn bản của chúng tôi thành các câu
  • Khai thác thông tin bằng cách sử dụng Spacy
  • Trích xuất thông tin số 1 - Tìm kiếm đề cập của Thủ tướng trong bài phát biểu
  • Trích xuất thông tin #2 - Tìm kiếm các sáng kiến
  • Tìm kiếm các mẫu trong bài phát biểu
  • Trích xuất thông tin #3- Quy tắc trên các cụm từ danh từ-danh từ
  • Trích xuất thông tin #4-Quy tắc trên các cụm từ tính từ
  • Trích xuất thông tin #5 - Quy tắc về giới từ

Dữ liệu văn bản chứa rất nhiều thông tin nhưng không phải tất cả sẽ quan trọng đối với bạn. Chúng tôi có thể đang tìm kiếm tên của các thực thể, những người khác sẽ muốn trích xuất các mối quan hệ cụ thể giữa các thực thể đó. Ý định của chúng tôi khác nhau theo yêu cầu của chúng tôi.

Hãy tưởng tượng phải thông qua tất cả các tài liệu pháp lý để tìm ưu tiên pháp lý để xác nhận trường hợp hiện tại của bạn. Hoặc phải trải qua tất cả các tài liệu nghiên cứu để tìm thông tin liên quan để chữa bệnh. Có nhiều ví dụ khác như thu hoạch sơ yếu lý lịch, phân tích phương tiện truyền thông, quét email, v.v.

Nhưng chỉ cần tưởng tượng phải thủ công tất cả các dữ liệu văn bản và trích xuất các thông tin phù hợp nhất. Rõ ràng, đó là một trận chiến khó khăn và cuối cùng bạn có thể bỏ qua một số thông tin quan trọng.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Đối với bất kỳ ai cố gắng phân tích dữ liệu văn bản, nhiệm vụ khó khăn không phải là tìm đúng tài liệu, mà là tìm đúng thông tin từ các tài liệu này. Hiểu về mối quan hệ giữa các thực thể, hiểu làm thế nào các sự kiện đã diễn ra, hoặc chỉ đơn giản là tìm những viên đá quý ẩn, rõ ràng là điều mà bất cứ ai đang tìm kiếm khi chúng trải qua một đoạn văn bản.

Do đó, việc đưa ra một cách tự động trích xuất thông tin từ dữ liệu văn bản và trình bày nó theo cách có cấu trúc sẽ giúp chúng tôi gặt hái được nhiều lợi ích và giảm rất nhiều thời gian chúng tôi phải dành thời gian lướt qua các tài liệu văn bản. Đây chính xác là những gì trích xuất thông tin phấn đấu để đạt được.

Nhiệm vụ trích xuất thông tin (IE) liên quan đến việc trích xuất thông tin có ý nghĩa từ dữ liệu văn bản phi cấu trúc và trình bày nó ở định dạng có cấu trúc.Information Extraction (IE) involves extracting meaningful information from unstructured text data and presenting it in a structured format.

Sử dụng trích xuất thông tin, chúng tôi có thể truy xuất thông tin được xác định trước như tên của một người, vị trí của một tổ chức hoặc xác định mối quan hệ giữa các thực thể và lưu thông tin này theo định dạng có cấu trúc như cơ sở dữ liệu.

Hãy để tôi chỉ cho bạn một ví dụ khác mà tôi đã lấy từ một bài báo về Cricket News:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Chúng tôi có thể trích xuất các thông tin sau từ văn bản:

  • Quốc gia - Ấn Độ, Thuyền trưởng - Virat Kohli
  • Batsman - Virat Kohli, Chạy - 2
  • Bowler - Kyle Jamieson
  • Địa điểm trận đấu - Wellington
  • Sê -ri Trận đấu - New Zealand
  • Sê -ri nổi bật - Độc thân năm mươi, 8 hiệp, 3 định dạng

Điều này cho phép chúng tôi gặt hái những lợi ích của các công cụ truy vấn mạnh mẽ như SQL để phân tích thêm. Tạo dữ liệu có cấu trúc như vậy bằng cách sử dụng trích xuất thông tin sẽ không chỉ giúp chúng tôi phân tích các tài liệu tốt hơn mà còn giúp chúng tôi tìm hiểu các mối quan hệ ẩn trong văn bản.

Làm thế nào để trích xuất thông tin hoạt động?

Làm quen với bộ dữ liệu NLP

Bài phát biểu trước xử lý trướcParts of Speech (POS). There are eight different POS in the English language: noun, pronoun, verb, adjective, adverb, preposition, conjunction, and intersection.

Chia văn bản của chúng tôi thành các câu

Khai thác thông tin bằng cách sử dụng Spacy

Trích xuất thông tin số 1 - Tìm kiếm đề cập của Thủ tướng trong bài phát biểu

Trích xuất thông tin #2 - Tìm kiếm các sáng kiến

Tìm kiếm các mẫu trong bài phát biểu

Trích xuất thông tin #3- Quy tắc trên các cụm từ danh từ-danh từ.pos_, and extract them accordingly.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Trích xuất thông tin #4-Quy tắc trên các cụm từ tính từ

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Nếu tôi muốn trích xuất chủ đề và đối tượng từ một câu, tôi có thể làm điều đó dựa trên các thẻ POS của họ. Đối với điều đó, tôi cần xem xét làm thế nào những từ này có liên quan đến nhau. Chúng được gọi là phụ thuộc.Dependencies.

Chúng ta có thể sử dụng trình hiển thị hiển thị Spacy, hiển thị các phụ thuộc từ theo cách đồ họa:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Tuyệt đấy! Biểu đồ định hướng này được gọi là biểu đồ phụ thuộc. Nó đại diện cho mối quan hệ giữa các từ khác nhau của một câu.dependency graph. It represents the relations between different words of a sentence.

Mỗi từ là một nút trong biểu đồ phụ thuộc. Mối quan hệ giữa các từ được ký hiệu là các cạnh. Ví dụ, người Viking là một người quyết định ở đây, trẻ em là chủ đề của câu, Bánh quy là một đối tượng của câu và Cream Cream là một từ ghép cho chúng ta biết thêm thông tin về đối tượng.node in the Dependency graph. The relationship between words is denoted by the edges. For example, “The” is a determiner here, “children” is the subject of the sentence, “biscuits” is the object of the sentence, and “cream” is a compound word that gives us more information about the object.

Các mũi tên mang rất nhiều ý nghĩa ở đây:

  • Đầu mũi tên chỉ vào các từ phụ thuộc vào từ được trỏ bởi nguồn gốc của mũi tênarrowhead points to the words that are dependent on the word pointed by the origin of the arrow
  • Cái trước được gọi là nút trẻ của cái sau. Ví dụ, trẻ em "là nút trẻ của tình yêu" child node of the latter. For example, “children” is the child node of “love”
  • Từ không có mũi tên đến được gọi là nút gốc của câuroot node of the sentence

Hãy để xem cách chúng ta có thể trích xuất đối tượng và đối tượng từ câu. Giống như chúng tôi có một thuộc tính cho POS trong mã thông báo Spacy, chúng tôi cũng có một thuộc tính để trích xuất sự phụ thuộc của mã thông báo được ký hiệu bởi DEP_:dep_:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Voila! Chúng tôi có chủ đề và đối tượng của câu của chúng tôi.

Sử dụng thẻ POS và thẻ phụ thuộc, chúng ta có thể tìm kiếm mối quan hệ giữa các thực thể khác nhau trong một câu. Ví dụ, trong câu, con mèo cá nhỏ trên bệ cửa sổ, chúng ta có chủ đề, Cat Cat, đối tượng Sill Window Sill, liên quan đến giới từ trên mạng. Chúng tôi có thể tìm kiếm các mối quan hệ như vậy và nhiều hơn nữa để trích xuất thông tin có ý nghĩa từ dữ liệu văn bản của chúng tôi.cat perches on the window sill“, we have the subject, “cat”, the object “window sill”, related by the preposition “on”. We can look for such relationships and much more to extract meaningful information from our text data.

Tôi khuyên bạn nên trải qua hướng dẫn tuyệt vời này giải thích chi tiết chi tiết thông tin với hàng tấn ví dụ.

Chúng ta sẽ đi đâu từ đây?

Chúng tôi đã nói ngắn gọn về lý thuyết về trích xuất thông tin mà tôi tin là rất quan trọng để hiểu trước khi nhảy vào mấu chốt của bài viết này.

Một ounce thực hành thường có giá trị hơn một tấn lý thuyết. Tiếte.f. Schumacher

Trong các phần sau, tôi sẽ khám phá một bộ dữ liệu văn bản và áp dụng kỹ thuật trích xuất thông tin để lấy một số thông tin quan trọng, hiểu cấu trúc của các câu và mối quan hệ giữa các thực thể.

Vì vậy, không có gì khó chịu, hãy để Lừa bị nứt trên mã!

Làm quen với bộ dữ liệu văn bản

Bộ dữ liệu mà chúng tôi sẽ làm việc cùng là Tập đoàn tranh luận chung của Liên Hợp Quốc. Nó chứa các bài phát biểu được thực hiện bởi các đại diện của tất cả các quốc gia thành viên từ năm 1970 đến 2018 tại cuộc tranh luận chung của phiên họp thường niên của Đại hội đồng Liên Hợp Quốc.

Nhưng chúng tôi sẽ lấy một tập hợp con của bộ dữ liệu này và làm việc với các bài phát biểu của Ấn Độ tại các cuộc tranh luận này. Điều này sẽ cho phép chúng tôi đi đúng hướng và hiểu rõ hơn về nhiệm vụ tìm hiểu trích xuất thông tin. Điều này để lại cho chúng tôi 49 bài phát biểu của Ấn Độ trong nhiều năm qua, mỗi bài phát biểu từ bất cứ nơi nào từ 2000 đến 6000 từ.

Phải nói rằng, hãy để Lôi có một cái nhìn vào bộ dữ liệu của chúng tôi:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Tôi sẽ in một ảnh chụp nhanh của một trong các bài phát biểu để cho bạn cảm giác về dữ liệu trông như thế nào:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bây giờ, hãy để bắt đầu làm việc với bộ dữ liệu của chúng tôi!

Bài phát biểu trước xử lý trước

Đầu tiên, chúng ta cần làm sạch dữ liệu văn bản của chúng ta. Khi tôi xem qua một vài bài phát biểu, tôi thấy mỗi đoạn trong bài phát biểu đã được đánh số để xác định rõ ràng nó. Rõ ràng có các nhân vật không mong muốn như nhân vật Newline, dấu gạch nối, chào và dấu nháy đơn, như trong bất kỳ bộ dữ liệu văn bản nào khác.

Nhưng một thông tin độc đáo và không mong muốn khác là các tài liệu tham khảo được thực hiện trong mỗi bài phát biểu cho các tài liệu khác. Chúng tôi rõ ràng cũng không muốn điều đó.

Tôi đã viết một chức năng đơn giản để làm sạch các bài phát biểu. Một điểm quan trọng ở đây là tôi đã sử dụng sự thông minh hoặc thay đổi các từ thành chữ thường vì nó có khả năng thay đổi thẻ POS của từ này. Chúng tôi chắc chắn không muốn làm điều đó như bạn sẽ thấy trong các tiểu mục sắp tới.An important point here is that I haven’t used lemmatization or changed the words to lowercase as it has the potential to change the POS tag of the word. We certainly don’t want to do that as you will see in the upcoming subsections.

Phải, bây giờ chúng tôi có các bài phát biểu được làm sạch tối thiểu, chúng tôi có thể chia nó thành các câu riêng biệt.

Chia bài phát biểu thành các câu khác nhau

Chia các bài phát biểu của chúng tôi thành các câu riêng biệt sẽ cho phép chúng tôi trích xuất thông tin từ mỗi câu. Sau đó, chúng tôi có thể kết hợp nó để có được thông tin tích lũy cho bất kỳ năm cụ thể nào.

Cuối cùng, chúng ta có thể tạo một khung dữ liệu chứa các câu từ các năm khác nhau:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Sau khi thực hiện thao tác này, chúng tôi kết thúc với 7150 câu. Đi qua chúng và trích xuất thông tin theo cách thủ công sẽ là một nhiệm vụ khó khăn. Đó là lý do tại sao chúng tôi đang xem xét trích xuất thông tin bằng các kỹ thuật NLP!

Khai thác thông tin bằng cách sử dụng Spacy

Bây giờ, chúng ta có thể bắt đầu thực hiện nhiệm vụ trích xuất thông tin. Chúng tôi sẽ sử dụng thư viện Spacy để làm việc với dữ liệu văn bản. Nó có tất cả các công cụ cần thiết mà chúng ta có thể khai thác cho tất cả các nhiệm vụ chúng ta cần để trích xuất thông tin.

Hãy để tôi nhập các mô -đun Spacy có liên quan mà chúng tôi sẽ yêu cầu cho nhiệm vụ phía trước:

Chúng ta sẽ cần lớp Matcher Spacy để tạo một mẫu để khớp các cụm từ trong văn bản. Chúng tôi cũng yêu cầu mô -đun hiển thị để trực quan hóa biểu đồ phụ thuộc của các câu.

Thư viện Visualise_Spacy_Tree sẽ cần thiết để tạo cấu trúc giống như cây ra khỏi biểu đồ phụ thuộc. Điều này giúp hình dung biểu đồ một cách tốt hơn. Cuối cùng, các lớp hình ảnh và hiển thị IPYTHON được yêu cầu để xuất ra cây.visualise_spacy_tree library will be needed for creating a tree-like structure out of the Dependency graph. This helps in visualizing the graph in a better way. Finally, IPython Image and display classes are required to output the tree.

Nhưng bạn không cần phải lo lắng về những điều này quá nhiều. Nó sẽ trở nên rõ ràng khi bạn nhìn vào mã.

Trích xuất thông tin số 1 - Tìm kiếm đề cập của Thủ tướng trong bài phát biểu

Khi làm việc trên các tác vụ trích xuất thông tin, điều quan trọng là phải tự mình đi qua một tập hợp con của bộ dữ liệu để hiểu văn bản là như thế nào và xác định xem có bất cứ điều gì thu hút sự chú ý của bạn ngay từ cái nhìn đầu tiên không. Khi tôi lần đầu tiên xem qua các bài phát biểu, tôi đã tìm thấy nhiều người trong số họ đề cập đến những gì Thủ tướng đã nói, nghĩ hoặc đạt được trong quá khứ.

Chúng tôi biết rằng một quốc gia không có gì nếu không có nhà lãnh đạo của nó. Điểm đến mà một quốc gia kết thúc là kết quả của sự hướng dẫn có thể của người lãnh đạo. Do đó, tôi tin rằng điều quan trọng là phải trích xuất những câu đó từ các bài phát biểu được đề cập đến Thủ tướng Ấn Độ, và cố gắng và hiểu suy nghĩ và quan điểm của họ là gì, và cũng cố gắng làm sáng tỏ bất kỳ niềm tin phổ biến hoặc khác nhau nào trong những năm qua.

Để đạt được nhiệm vụ này, tôi đã sử dụng lớp Matcher Spacy. Nó cho phép chúng ta phù hợp với một chuỗi các từ dựa trên các mẫu nhất định. Đối với nhiệm vụ hiện tại, chúng tôi biết rằng bất cứ khi nào một thủ tướng được nhắc đến trong bài phát biểu, nó sẽ theo một trong những cách sau:

  • Thủ tướng của [quốc gia]
  • Thủ tướng [Tên]

Sử dụng sự hiểu biết chung này, chúng ta có thể đưa ra một mô hình:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Hãy để tôi dẫn bạn qua mô hình này:

  • Ở đây, mỗi từ điển trong danh sách phù hợp với một từ duy nhất
  • Từ điển thứ nhất và thứ hai phù hợp với từ khóa của Thủ tướng Thủ tướng, bất kể nó có ở chữ hoa hay không, đó là lý do tại sao tôi đã bao gồm các khóa thấp hơn
  • Từ điển thứ ba phù hợp với một từ là một giới từ. Những gì tôi đang tìm kiếm ở đây là từ "của". Bây giờ, như đã thảo luận trước đây, nó có thể có hoặc không có mặt trong mẫu, do đó, một khóa bổ sung, OP OP hoặc tùy chọn, được đề cập để chỉ ra điều đó
  • Cuối cùng, từ điển cuối cùng trong mẫu nên là một danh từ thích hợp. Đây có thể là tên của đất nước hoặc tên của Thủ tướng
  • Các từ khóa phù hợp phải được tiếp tục nếu không mẫu sẽ không khớp với cụm từ

Dưới đây là một số câu mẫu từ năm 1989 phù hợp với mô hình của chúng tôi:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bây giờ, vì chỉ có 58 câu trong số 7150 câu cho một đầu ra phù hợp với mẫu của chúng tôi, tôi đã tóm tắt các thông tin liên quan từ các đầu ra này ở đây:

  • Thủ tướng Indira Gandhi và Thủ tướng Jawaharlal Nehru tin vào việc làm việc cùng nhau trong sự thống nhất và với các nguyên tắc của Liên Hợp Quốc
  • Thủ tướng Indira Gandhi tin tưởng vào sự cân bằng giữa sản xuất và tiêu dùng toàn cầu. Cô đặt ra các chính sách dành riêng cho Tái thiết quốc gia và hợp nhất một hệ thống chính trị thế tục và đa nguyên
  • Thủ tướng Indira Gandhi nhấn mạnh rằng Ấn Độ không can thiệp vào các vấn đề nội bộ của các quốc gia khác. Tuy nhiên, lập trường này trong chính sách đối ngoại đã quay đầu dưới Thủ tướng Rajiv Gandhi khi ông ký thỏa thuận với Thủ tướng Sri Lanka đã mang lại hòa bình cho Sri Lanka
  • Cả Thủ tướng Indira Gandhi và Thủ tướng Rajiv Gandhi đều tin vào mối liên hệ giữa phát triển kinh tế và bảo vệ môi trường
  • Thủ tướng Rajiv Gandhi ủng hộ việc giải giáp vũ khí hạt nhân, một niềm tin được Ấn Độ giữ nguyên trong những năm qua
  • Ấn Độ, dưới các PM khác nhau, luôn luôn mở rộng một bàn tay hòa bình đối với Pakistan trong những năm qua
  • Thủ tướng Narendra Modi tin rằng trao quyền kinh tế và nâng cao bất kỳ quốc gia nào liên quan đến việc trao quyền cho phụ nữ của mình
  • Thủ tướng Narendra Modi đã đưa ra một số chương trình sẽ giúp Ấn Độ đạt được các mục tiêu SGD của mình

Sử dụng trích xuất thông tin, chúng tôi chỉ có thể cô lập một vài câu mà chúng tôi yêu cầu đã cho chúng tôi kết quả tối đa.

Trích xuất thông tin #2 - Tìm kiếm các sáng kiến

Điều thú vị thứ hai tôi nhận thấy trong khi trải qua các bài phát biểu là có rất nhiều sáng kiến, chương trình, thỏa thuận, hội nghị, chương trình, v.v. đã được đề cập trong các bài phát biểu. Ví dụ, thỏa thuận Paris, Thỏa thuận Simla, Hội nghị về Hội đồng Bảo an, Hội nghị của các quốc gia không phù hợp, liên minh năng lượng mặt trời quốc tế, ‘Skill India Sáng kiến, v.v.

Trích xuất những điều này sẽ cho chúng ta một ý tưởng về các ưu tiên của Ấn Độ là gì và liệu có một mô hình về lý do tại sao chúng được đề cập khá thường xuyên trong các bài phát biểu.

Tôi sẽ đề cập đến tất cả các chương trình, sáng kiến, hội nghị, chương trình, v.v ... Từ khóa như các sáng kiến.

Để trích xuất các sáng kiến ​​từ văn bản, điều đầu tiên tôi sẽ làm là xác định những câu nói về các sáng kiến. Vì vậy, tôi sẽ sử dụng Regex đơn giản để chỉ chọn những câu có chứa từ khóa ‘Sáng kiến,‘ Sơ đồ, ‘Thỏa thuận, v.v ... Điều này sẽ làm giảm tìm kiếm của chúng tôi cho mẫu Sáng kiến ​​mà chúng tôi đang tìm kiếm:

Bây giờ, bạn có thể nghĩ rằng nhiệm vụ của chúng tôi được thực hiện ở đây vì chúng tôi đã xác định các câu. Chúng ta có thể dễ dàng tìm kiếm những thứ này và xác định những gì đang được nói đến trong những câu này. Nhưng, hãy nghĩ về nó, không phải tất cả những thứ này sẽ chứa tên sáng kiến. Một số trong số này thường có thể nói về các sáng kiến ​​nhưng không có tên sáng kiến ​​nào có thể có trong đó.

Do đó, chúng ta cần đưa ra một giải pháp tốt hơn chỉ trích xuất những câu có chứa tên sáng kiến. Đối với điều đó, tôi sẽ sử dụng trình kết hợp Spacy, một lần nữa, để đưa ra một mô hình phù hợp với các sáng kiến ​​này.

Hãy xem các câu ví dụ sau và xem liệu bạn có thể đưa ra một mẫu để trích xuất các sáng kiến ​​này không:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Như bạn có thể nhận thấy, tên sáng kiến ​​là một danh từ thích hợp bắt đầu bằng một trình xác định và kết thúc bằng ‘Sáng kiến ​​của chương trình/Hồi giáo/Hồi giáo, v.v ... Các từ cuối cùng. Nó cũng bao gồm một giới từ thường xuyên ở giữa. Tôi cũng nhận thấy rằng hầu hết các tên sáng kiến ​​dài từ hai đến năm từ. Hãy ghi nhớ điều này, tôi đã đưa ra mô hình sau để phù hợp với tên sáng kiến:

Chúng tôi có 62 câu phù hợp với mô hình của chúng tôi - không tệ. Hãy xem đầu ra từ năm 2018:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Nhưng một điều tôi phải chỉ ra ở đây là có rất nhiều sáng kiến ​​trong các bài phát biểu không phù hợp với mô hình của chúng tôi. Ví dụ, vào năm 2018, có những sáng kiến ​​khác cũng giống như Mud Mudra ,, Ujjwala, thỏa thuận của Paris, v.v. Vì vậy, có cách nào tốt hơn để trích xuất chúng không?

Hãy nhớ làm thế nào chúng ta đã xem xét các phụ thuộc vào đầu bài viết? Vâng, chúng tôi sẽ sử dụng những điều đó để thực hiện một số quy tắc để phù hợp với tên sáng kiến. Nhưng trước khi đưa ra một quy tắc, bạn cần hiểu cách cấu trúc câu, chỉ sau đó bạn mới có thể đưa ra một quy tắc chung để trích xuất thông tin liên quan.

Để hiểu cấu trúc của câu, tôi sẽ in biểu đồ phụ thuộc của một ví dụ mẫu nhưng theo kiểu cây mang lại trực giác tốt hơn về cấu trúc. Có một cái nhìn bên dưới:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Xem cách ‘Ujjwala, là một nút trẻ của‘ chương trình. Hãy xem một ví dụ khác:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Lưu ý cách liên minh năng lượng mặt trời quốc tế được cấu trúc.

Bây giờ bạn phải có ý tưởng rằng các tên sáng kiến ​​thường là trẻ em của các nút có chứa các từ như ‘sáng kiến,‘ chương trình, v.v. Dựa trên kiến ​​thức này, chúng ta có thể phát triển quy tắc của riêng mình.

Quy tắc tôi đề xuất là khá đơn giản. Hãy để tôi dẫn bạn qua nó:

  • Tôi sẽ tìm kiếm các mã thông báo trong các câu có chứa các từ khóa sáng kiến ​​của tôi
  • Sau đó, tôi sẽ nhìn vào cây con của nó (hoặc các từ phụ thuộc vào nó) bằng cách sử dụng mã thông báo.

Lần này chúng tôi phù hợp với 282 mục. Đó là một cải tiến đáng kể so với kết quả trước đó. Hãy cùng đi qua đầu ra 2018 và xem liệu chúng ta có làm tốt hơn bất kỳ lần này không:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Trong số hơn 7000 câu, chúng tôi có thể giảm xuống chỉ còn 282 câu nói về các sáng kiến. Tôi đã lặp qua các đầu ra này và bên dưới là cách tôi sẽ tóm tắt đầu ra:

  • Có rất nhiều sáng kiến ​​hoặc chương trình quốc tế khác nhau mà Ấn Độ đã đề cập trong các bài phát biểu của mình. Điều này cho thấy Ấn Độ là một thành viên tích cực của cộng đồng quốc tế làm việc hướng tới việc xây dựng một tương lai tốt hơn bằng cách giải quyết các vấn đề thông qua các sáng kiến ​​này
  • Một điểm khác để làm nổi bật ở đây là các sáng kiến ​​được đề cập trong những năm đầu đã tập trung hơn vào những người quan tâm đến cộng đồng quốc tế. Tuy nhiên, trong thời gian gần đây, đặc biệt là sau năm 2014, rất nhiều sáng kiến ​​trong nước đã được đề cập trong các bài phát biểu như 'Ayushman Bharat', 'Pradhan Mantri Jan Dhan Yojana', v.v. cộng đồng. Bằng cách đề cập đến rất nhiều sáng kiến ​​trong nước, Ấn Độ đã bắt đầu đặt nhiều công việc trong nước trước cộng đồng quốc tế để chứng kiến ​​và, có lẽ, thậm chí theo bước chân của họ

Phải nói rằng, kết quả chắc chắn không hoàn hảo. Có những trường hợp khi những từ không mong muốn cũng được trích xuất với các tên sáng kiến. Nhưng đầu ra có nguồn gốc bằng cách làm cho các quy tắc của chúng ta chắc chắn tốt hơn các quy tắc có nguồn gốc từ việc sử dụng trình kết hợp mẫu Spacy. Điều này cho thấy sự linh hoạt mà chúng ta có thể đạt được bằng cách thực hiện các quy tắc của riêng mình.

Tìm kiếm các mẫu trong các bài phát biểu

Cho đến nay, chúng tôi chỉ trích xuất thông tin đó đáp ứng con mắt phân tích của chúng tôi khi chúng tôi lướt qua dữ liệu. Nhưng có bất kỳ thông tin nào khác ẩn trong bộ dữ liệu của chúng tôi không? Chắc chắn có và chúng ta sẽ khám phá rằng bằng cách đưa ra các quy tắc của riêng mình bằng cách sử dụng sự phụ thuộc của các từ, như chúng ta đã làm trong phần trước.

Nhưng trước đó, tôi muốn chỉ ra hai điều.

Đầu tiên, khi chúng ta đang cố gắng hiểu cấu trúc của bài phát biểu, chúng ta không thể nhìn vào toàn bộ bài phát biểu, điều đó sẽ diễn ra vĩnh cửu, và thời gian là điều cốt yếu ở đây. Thay vào đó, những gì chúng ta sẽ làm là nhìn vào các câu ngẫu nhiên từ bộ dữ liệu và sau đó, dựa trên cấu trúc của chúng, cố gắng đưa ra các quy tắc chung để trích xuất thông tin.

Nhưng làm thế nào để chúng ta kiểm tra tính hợp lệ của các quy tắc này? Đó là nơi mà điểm thứ hai của tôi đến! Không phải tất cả các quy tắc mà chúng tôi đưa ra sẽ mang lại kết quả thỏa đáng. Vì vậy, để sàng lọc các quy tắc không liên quan, chúng ta có thể xem xét tỷ lệ phần trăm các câu phù hợp với quy tắc của chúng ta trong tất cả các câu. Điều này sẽ cho chúng ta một ý tưởng công bằng về việc quy tắc hoạt động tốt như thế nào, và trên thực tế, có bất kỳ cấu trúc chung nào như vậy trong kho văn bản!

Một điểm rất quan trọng khác cần được làm nổi bật ở đây là bất kỳ kho văn bản nào bị ràng buộc chứa các câu phức tạp dài. Làm việc với những câu này để thử và hiểu cấu trúc của chúng sẽ là một nhiệm vụ rất khó khăn. Do đó, chúng ta sẽ xem xét các câu nhỏ hơn. Điều này sẽ cho chúng tôi cơ hội để hiểu rõ hơn về cấu trúc của họ. Vì vậy, những gì mà số ma thuật? Trước tiên, hãy nhìn vào cách độ dài câu thay đổi trong kho văn bản của chúng tôi.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Nhìn vào biểu đồ, chúng ta có thể thấy rằng hầu hết các câu nằm trong khoảng từ 15-20 từ. Vì vậy, tôi sẽ làm việc với các câu có chứa không quá 15 từ:

Bây giờ, hãy để viết một chức năng đơn giản sẽ tạo ra các câu ngẫu nhiên từ DataFrame này:

Cuối cùng, hãy để Lừa tạo ra một chức năng để đánh giá kết quả của quy tắc của chúng tôi:

Phải, hãy để Lừa xuống công việc thực hiện một số quy tắc!

Trích xuất thông tin #3-Quy tắc trên các cụm từ danh từ-danh từ

Khi bạn nhìn vào một câu, nó thường chứa một chủ đề (danh từ), hành động (động từ) và một đối tượng (danh từ). Phần còn lại của các từ chỉ ở đó để cung cấp cho chúng tôi thông tin bổ sung về các thực thể. Do đó, chúng ta có thể tận dụng cấu trúc cơ bản này để trích xuất các bit thông tin chính từ câu. Lấy ví dụ câu sau:subject (noun), action (verb), and an object (noun). The rest of the words are just there to give us additional information about the entities. Therefore, we can leverage this basic structure to extract the main bits of information from the sentence. Take for example the following sentence:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Những gì sẽ được trích xuất từ ​​câu mẫu này dựa trên quy tắc là - các quốc gia đối mặt với các mối đe dọa. Điều này sẽ cho chúng ta một ý tưởng công bằng về những gì câu đang cố gắng nói.

Vì vậy, hãy để Lôi nhìn vào cách các hội chợ quy tắc này những gì chúng ta chạy nó so với các câu ngắn mà chúng ta đang làm việc:

Chúng tôi đang nhận được hơn 20% mẫu phù hợp với quy tắc của mình và chúng tôi có thể kiểm tra tất cả các câu trong kho văn bản:

Chúng tôi đang nhận được hơn 30% phù hợp với các quy tắc của mình, điều đó có nghĩa là 2226 trong số 7150 câu phù hợp với mẫu này. Hãy để hình thành một khung dữ liệu mới chỉ chứa những câu có đầu ra và sau đó tách biệt động từ với các danh từ:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Hãy cùng xem 10 động từ xuất hiện hàng đầu được sử dụng trong các câu:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bây giờ, chúng ta có thể xem xét các động từ cụ thể để xem loại thông tin nào có mặt. Ví dụ, ‘chào mừng và hỗ trợ có thể cho chúng tôi biết những gì Ấn Độ khuyến khích. Và những động từ như ‘khuôn mặt có thể cho chúng ta biết những vấn đề chúng ta gặp phải trong thế giới thực.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bằng cách nhìn vào đầu ra, chúng ta có thể cố gắng đưa ra bối cảnh của câu là gì. Ví dụ, chúng ta có thể thấy rằng Ấn Độ ủng hộ 'những nỗ lực', 'quan điểm', 'các sáng kiến', 'đấu tranh', 'mong muốn,' khát vọng ', v.v. trong khi Ấn Độ tin rằng thế giới phải đối mặt với' mối đe dọa ',' xung đột ',', ' Chủ nghĩa thực dân ',' đại dịch ', v.v.

Chúng ta có thể chọn các câu để khám phá chuyên sâu bằng cách nhìn vào đầu ra. Điều này chắc chắn sẽ giúp chúng tôi tiết kiệm rất nhiều thời gian hơn là chỉ đi qua toàn bộ văn bản.

Trích xuất thông tin #4 - Quy tắc về cấu trúc danh từ tính từ

Trong quy tắc trước đây mà chúng tôi đã thực hiện, chúng tôi đã trích xuất các đối tượng và đối tượng danh từ, nhưng thông tin không cảm thấy đầy đủ. Điều này là do nhiều danh từ có tính từ hoặc một từ với sự phụ thuộc hợp chất làm tăng ý nghĩa của một danh từ. Trích xuất những thứ này cùng với danh từ sẽ cung cấp cho chúng tôi thông tin tốt hơn về chủ đề và đối tượng.

Hãy xem câu mẫu dưới đây:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Những gì chúng ta đang tìm kiếm để đạt được ở đây là - cuộc sống tốt hơn.

Mã cho quy tắc này rất đơn giản, nhưng hãy để tôi hướng dẫn bạn cách nó hoạt động:

  • Chúng tôi tìm kiếm các mã thông báo có thẻ pos danh từ và có sự phụ thuộc của chủ thể hoặc đối tượng
  • Sau đó, chúng tôi nhìn vào các nút trẻ của các mã thông báo này và chỉ nối nó vào cụm từ chỉ khi nó sửa đổi danh từ

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

51% các câu ngắn phù hợp với quy tắc này. Bây giờ chúng ta có thể cố gắng kiểm tra nó trên toàn bộ kho văn bản:

Trên toàn bộ tập đoàn 7150, 76% hoặc 5117 câu phù hợp với quy tắc mẫu của chúng tôi, vì hầu hết chúng bị ràng buộc chứa danh từ và công cụ sửa đổi của nó.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bây giờ chúng ta có thể kết hợp quy tắc này cùng với quy tắc mà chúng ta đã tạo trước đây. Điều này sẽ cho chúng ta một viễn cảnh tốt hơn về những gì thông tin có mặt trong một câu:

Chúng tôi nhận được một số khớp đầu ra 31% được hiển thị bên dưới:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Ở đây, chúng tôi kết thúc với các cụm từ như Hồi Chúng tôi thực hiện một cam kết mới, chúng tôi có một sự gia tăng đáng kể, những người mong đợi cuộc sống tốt hơn, v.v. bao gồm các danh từ và các sửa đổi của họ. Điều này cho chúng tôi thông tin tốt hơn về những gì đang được trích xuất ở đây.

Như bạn có thể thấy, chúng tôi không chỉ đưa ra một quy tắc mới để hiểu cấu trúc của các câu mà còn kết hợp hai quy tắc để có được thông tin tốt hơn từ văn bản được trích xuất.

Trích xuất thông tin #5 - Quy tắc về giới từ

Cảm ơn Chúa vì giới từ! Họ cho chúng tôi biết nơi nào hoặc khi nào đó trong mối quan hệ với một thứ khác. Ví dụ, người dân Ấn Độ tin vào các nguyên tắc của Liên Hợp Quốc. Trích xuất rõ ràng các cụm từ bao gồm các giới từ sẽ cung cấp cho chúng tôi rất nhiều thông tin từ câu. Đây chính xác là những gì chúng ta sẽ đạt được với quy tắc này.of India believe in the principles of the United Nations. Clearly extracting phrases including prepositions will give us a lot of information from the sentence. This is exactly what we are going to achieve with this rule.

Hãy để cố gắng hiểu cách thức hoạt động của quy tắc này bằng cách vượt qua nó trên một câu mẫu - Ấn Độ đã một lần nữa thể hiện niềm tin vào nền dân chủ.

  • Chúng tôi lặp lại tất cả các mã thông báo tìm kiếm giới từ. Ví dụ, trong câu nàyin this sentence
  • Khi gặp phải giới từ, chúng tôi kiểm tra xem nó có tiêu đề là danh từ không. Ví dụ, từ niềm tin vào câu nàyfaith in this sentence
  • Sau đó, chúng tôi nhìn vào các mã thông báo trẻ em của mã thông báo giới từ rơi ở phía bên phải của nó. Ví dụ, từ dân chủ từdemocracy

Điều này cuối cùng sẽ trích xuất cụm từ niềm tin vào nền dân chủ từ bản án. Hãy xem biểu đồ phụ thuộc của câu dưới đây:faith in democracy from the sentence. Have a look at the dependency graph of the sentence below:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Bây giờ, hãy để áp dụng quy tắc này cho các câu ngắn của chúng tôi:

Khoảng 48% các câu tuân theo quy tắc này:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Chúng ta có thể kiểm tra mẫu này trên toàn bộ kho văn bản vì chúng ta có một lượng câu hay phù hợp với quy tắc:

74% tổng số câu phù hợp với mẫu này. Hãy để tách các giới từ khỏi các danh từ và xem loại thông tin nào chúng tôi có thể trích xuất:

DataFrame sau đây cho thấy kết quả của quy tắc trên toàn bộ kho văn bản, nhưng giới từ và danh từ được phân tách để phân tích tốt hơn:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Chúng ta có thể xem xét 10 giới từ xuất hiện hàng đầu nhất trong toàn bộ kho văn bản:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Chúng tôi xem xét các giới từ nhất định để khám phá các câu một cách chi tiết. Ví dụ, giới từ ‘chống lại, có thể cung cấp cho chúng tôi thông tin về những gì Ấn Độ không hỗ trợ:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Lướt qua các danh từ, một số cụm từ quan trọng như:

  • Nỗ lực chống lại sự phổ biến
  • Chiến đấu chống khủng bố, hành động chống khủng bố, cuộc chiến chống khủng bố
  • phân biệt đối xử với phụ nữ
  • Chiến tranh chống đói nghèo
  • Đấu tranh chống lại chủ nghĩa thực dân

… và như thế. Điều này sẽ cho chúng tôi một ý tưởng công bằng về những câu chúng tôi muốn khám phá chi tiết. Ví dụ, những nỗ lực chống lại sự phổ biến nói về những nỗ lực đối với giải giáp hạt nhân. Hoặc bản án về cuộc đấu tranh chống chủ nghĩa thực dân nói về mối liên hệ lịch sử giữa Ấn Độ và Châu Phi từ cuộc đấu tranh chung của họ chống lại chủ nghĩa thực dân.

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Như bạn có thể thấy, giới từ cho chúng ta một mối quan hệ quan trọng giữa hai danh từ. Và với một chút kiến ​​thức về miền, chúng ta có thể dễ dàng rây qua dữ liệu rộng lớn và xác định những gì Ấn Độ hỗ trợ hoặc không hỗ trợ, trong số những thứ khác.

Nhưng đầu ra có vẻ hơi không đầy đủ. Ví dụ, trong những nỗ lực của câu chống lại sự phổ biến, chúng ta đang nói về loại phổ biến nào? Chắc chắn, chúng ta cần bao gồm các công cụ sửa đổi được đính kèm vào các danh từ trong cụm từ như chúng ta đã làm trong trích xuất thông tin #4. Điều này chắc chắn sẽ làm tăng tính hiểu biết của cụm từ trích xuất.

Quy tắc này có thể dễ dàng sửa đổi để bao gồm thay đổi mới. Tôi đã tạo một chức năng mới để trích xuất các công cụ sửa đổi danh từ cho các danh từ mà chúng tôi đã trích xuất từ ​​trích xuất thông tin #4:

Tất cả những gì chúng ta phải làm là gọi chức năng này bất cứ khi nào chúng ta gặp một danh từ trong cụm từ của mình:

Hướng dẫn how extract specific data from text in python? - làm thế nào để trích xuất dữ liệu cụ thể từ văn bản trong python?

Điều này chắc chắn có nhiều thông tin hơn trước. Ví dụ, ‘trở ngại trong phát triển kinh tế, thay vì‘ trở ngại trong sự phát triển và ‘người vi phạm nhân quyền lớn hơn là‘ người vi phạm quyền.

Một lần nữa, việc kết hợp các quy tắc đã cho chúng ta nhiều sức mạnh và tính linh hoạt hơn để chỉ khám phá những câu đó một cách chi tiết có một cụm từ được trích xuất có ý nghĩa.

Mã số

Bạn có thể tìm thấy tệp mã hoàn chỉnh ở đây.

Ghi chú kết thúc

Trích xuất thông tin không có nghĩa là một nhiệm vụ NLP dễ dàng để thực hiện. Bạn cần dành thời gian với dữ liệu để hiểu rõ hơn về cấu trúc của nó và những gì nó cung cấp.

Trong bài viết này, chúng tôi đã sử dụng kiến ​​thức lý thuyết và đưa nó vào sử dụng thực tế. Chúng tôi đã làm việc với một bộ dữ liệu văn bản và cố gắng trích xuất thông tin bằng các kỹ thuật trích xuất thông tin truyền thống.

Chúng tôi đã tìm kiếm các cụm từ và mối quan hệ chính trong dữ liệu văn bản để thử và trích xuất thông tin từ văn bản. Loại phương pháp này đòi hỏi sự kết hợp giữa máy tính và nỗ lực của con người để trích xuất thông tin liên quan.

Trong tương lai, bạn có thể khám phá các khóa học sau để mở rộng kiến ​​thức của mình trong lĩnh vực NLP:

  • Xử lý ngôn ngữ tự nhiên (NLP) bằng cách sử dụng Python
  • Một con đường học tập toàn diện để hiểu và làm chủ NLP vào năm 2020

Làm thế nào để bạn trích xuất một phần của văn bản trong Python?

Bạn có thể trích xuất một chuỗi con trong phạm vi bắt đầustart <= x < stop with [start:step] . If start is omitted, the range is from the beginning, and if end is omitted, the range is to the end. You can also use negative values. If start > end , no error is raised and an empty character '' is extracted.

Làm cách nào để trích xuất một từ cụ thể từ một câu trong Python?

Để tìm một từ trong chuỗi, chúng tôi đang sử dụng các phương thức indexof () và chứa () của lớp chuỗi.Phương thức indexof () được sử dụng để tìm một chỉ mục của chuỗi con được chỉ định trong chuỗi hiện tại.Nó trả về một số nguyên dương dưới dạng một chỉ mục nếu cơ sở tìm thấy khác trả về -1.using indexOf() and contains() methods of String class. The indexOf() method is used to find an index of the specified substring in the present string. It returns a positive integer as an index if substring found else returns -1.

Làm cách nào để trích xuất văn bản cụ thể từ một trang web trong Python?

Để trích xuất dữ liệu bằng cách sử dụng máy quét web với Python, bạn cần làm theo các bước cơ bản sau:..
Tìm URL mà bạn muốn cạo ..
Kiểm tra trang ..
Tìm dữ liệu bạn muốn trích xuất ..
Viết mã ..
Chạy mã và trích xuất dữ liệu ..
Lưu trữ dữ liệu theo định dạng cần thiết ..

Làm cách nào để tìm một từ cụ thể trong một tệp văn bản python?

Phương pháp 1: Tìm chỉ mục của chuỗi trong tệp văn bản bằng cách sử dụng readline () trong phương thức này, chúng tôi đang sử dụng hàm readline () và kiểm tra hàm find (), phương thức này trả về -1 nếu không tìm thấy giá trịvà nếu thấy nó trả về 0.Finding the index of the string in the text file using readline() In this method, we are using the readline() function, and checking with the find() function, this method returns -1 if the value is not found and if found it returns 0.