Làm cách nào để xóa thẻ HTML khỏi chuỗi trong gấu trúc?

Question

Hướng dẫn này sẽ trình bày hai phương pháp khác nhau về cách một người có thể xóa các thẻ html khỏi một chuỗi, chẳng hạn như chuỗi mà chúng tôi đã truy xuất trong hướng dẫn trước của tôi về cách tìm nạp một trang web bằng Python

Nội dung chính Show

Phương pháp 1
Phương pháp 2
kết luận
Làm cách nào để xóa thẻ HTML khỏi chuỗi trong gấu trúc Python?
Làm cách nào để xóa HTML khỏi chuỗi trong Python?
Làm cách nào để xóa HTML khỏi chuỗi?
Làm cách nào để xóa thẻ HTML khỏi chuỗi regex?

Phương pháp 1

Phương pháp này sẽ trình bày cách chúng ta có thể xóa thẻ html khỏi chuỗi bằng cách sử dụng chuỗi regex.

import re

TAG_RE = re.compile(r'<[^>]+>')

def remove_tags(text):
    return TAG_RE.sub('', text)

Phương pháp 2

Đây là một phương pháp khác mà chúng ta có thể sử dụng để xóa các thẻ html bằng chức năng có trong thư viện Python Standard để không cần nhập bất kỳ

def remove_tags(text):
    ''.join(xml.etree.ElementTree.fromstring(text).itertext())

kết luận

Trong các hướng dẫn sắp tới, chúng ta sẽ học cách tính toán các số liệu seo quan trọng như mật độ từ khóa sẽ cho phép chúng ta thực hiện phân tích seo quan trọng của các trang web cạnh tranh để thử và hiểu họ đã đạt được thành công như thế nào

Các phương pháp để loại bỏ thẻ có thể được tìm thấy ở đây. http. // stackoverflow. com/câu hỏi/9662346/python-code-to-remove-html-tags-from-a-string

Tôi đang sử dụng thư viện gấu trúc trên Python 3. 5. 1. Làm cách nào để xóa thẻ html khỏi giá trị trường?

Mã của tôi trả về một lỗi

import pandas as pd

code=[1,2,3]
overview =['Environments subject.',
          ' property ;
markets and exchange;',
          '']
# '
The subject.
']
df= pd.DataFrame(overview,code)

df.columns = ['overview']
df['overview_copy'] = df['overview']

# print(df)

tags_list = ['' ,'
' , '',
             '
','',
             '','',
             '
',
             '','',
             '','',
             '','',
             '','']

for tag in tags_list:
#     df['overview_copy'] = df['overview_copy'].str.replace(tag, '')
  df['overview_copy'].replace(to_replace=tag, value='', regex=True, inplace=True)
print(df)

Trong hướng dẫn này, chúng ta sẽ tìm hiểu và áp dụng một số phương pháp để xóa các thẻ HTML khỏi chuỗi. Chúng tôi sẽ sử dụng biểu thức chính quy, BeautifulSoup và cây phần tử XML

Vì các thẻ HTML luôn chứa ký hiệu <>. Chúng tôi sẽ nhập mô-đun

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

0 tích hợp (biểu thức chính quy) và sử dụng phương thức

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

1 để tìm kiếm mẫu đã xác định trong chuỗi đầu vào

Ở đây, mẫu

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

2 có nghĩa là không hoặc nhiều ký tự bên trong thẻ <> và khớp với càng ít ký tự càng tốt

Phương thức

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

4 được sử dụng để thay thế các lần xuất hiện của một chuỗi bằng một chuỗi khác. Ở đây, nó sẽ thay thế các lần xuất hiện được tìm thấy bằng một chuỗi rỗng

Mã ví dụ

#Python 3.x
import re
string='Delftstack'
print('String before cleaning:', string)
to_clean = re.compile('<.*?>')
cleantext = re.sub(to_clean, '', string)
print('String after cleaning:', cleantext)

đầu ra

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

BeautifulSoup là một thư viện Python để lấy dữ liệu từ HTML và XML. Nó sử dụng một trình phân tích cú pháp để phân tích cú pháp HTML và XML;

Chúng ta cần cài đặt cả hai trước khi tiếp tục, sử dụng các lệnh sau

#Python 3.x
pip install beautifulsoup4

#Python 3.x
pip install lxml

Chúng tôi đã nhập mô-đun BeautifulSoup và phân tích cú pháp chuỗi HTML đã cho trong đoạn mã sau. Chúng tôi đã truy cập văn bản từ HTML bằng thuộc tính

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

8

Mã ví dụ

#Python 3.x
from bs4 import BeautifulSoup
string='Delftstack'
print('String after cleaning:', string)
cleantext = BeautifulSoup(string, "lxml").text
print('String after cleaning:', cleantext)

đầu ra

#Python 3.x
String after cleaning: Delftstack
String after cleaning: Delftstack

ElementTree là một thư viện phân tích cú pháp và điều hướng thông qua XML. Phương thức

#Python 3.x
String before cleaning: Delftstack
String after cleaning: Delftstack

9 phân tích cú pháp XML trực tiếp từ một chuỗi thành một phần tử, là phần tử gốc của cây phân tích cú pháp

#Python 3.x
pip install beautifulsoup4

0 tạo ra một trình lặp văn bản lặp qua phần tử này và tất cả các phần tử con của nó theo thứ tự tài liệu, trả về tất cả văn bản bên trong. Bằng cách hợp nhất tất cả các thành phần (văn bản bên trong) của một iterable (chuỗi đầu vào), được phân tách bằng dấu tách chuỗi, phương thức

#Python 3.x
pip install beautifulsoup4

1 trả về một chuỗi không có thẻ HTML

Làm cách nào để xóa thẻ HTML khỏi chuỗi trong gấu trúc Python?

str. replace(' ', '') # Sử dụng regex để xóa thẻ html.

Làm cách nào để xóa HTML khỏi chuỗi trong Python?

Mã trên hoạt động như thế nào? .

Ban đầu, chúng tôi nhập mô-đun regex trong python có tên 're'

Sau đó, chúng tôi sử dụng lại. compile() chức năng của mô-đun regex. .

'. *' có nghĩa là không hoặc nhiều hơn 0 ký tự. .

Sau đó, chúng tôi sử dụng lại. .

Cuối cùng, chúng tôi gọi hàm remove_html để xóa các thẻ HTML khỏi chuỗi đầu vào

Làm cách nào để xóa HTML khỏi chuỗi?

Có thể xóa các thẻ HTML khỏi một chuỗi đã cho bằng cách sử dụng phương thức replaceAll() của lớp Chuỗi . Chúng tôi có thể xóa các thẻ HTML khỏi một chuỗi nhất định bằng cách sử dụng biểu thức chính quy. Sau khi xóa các thẻ HTML khỏi một chuỗi, nó sẽ trả về một chuỗi dưới dạng văn bản bình thường.

Làm cách nào để xóa thẻ HTML khỏi chuỗi regex?

Dưới đây là biểu thức chính quy đơn giản để xác thực chuỗi theo mẫu thẻ HTML. Điều này sau này có thể được sử dụng để xóa tất cả các thẻ và chỉ để lại văn bản. / Thử đi.

programming html