Hướng dẫn how do you remove br in python? - làm thế nào để bạn loại bỏ br trong python?

HTML tôi đang cào từ:

<tr>
    <td align="left" bgcolor="#ffff99">
        <font size="2">
            <a href="some/link.htm">
                <b>SomeStuff</b>
            </a>
        </font>
    </td>
</tr>
</tr>
    <td align="left" bgcolor="#ffff99">
        <font size="2">
            <a href="some/link2.htm">
                <b>SomeMoreStuff</b>
            </a>
        </font>
    </td>
</tr>

Làm thế nào tôi quét thông tin:

my_list = []
for i in soup.find_all('a',href=re.compile('some/link')):
    my_list.append(str(i.find('b')))
    my_list.append(i['href'])

Tôi cần xóa các thẻ HTML khỏi các phần tử trong danh sách. Tuy nhiên, khi tôi tạo vòng lặp, nó không lưu bất kỳ thay đổi nào trong danh sách. Danh sách của tôi trông giống như thế này:
However, when I create the loop it doesn't save any changes in the list. My list looks something like this:

my_list = ['<br>SomeStuff</br>','some/link.htm',
           '<br>SomeMoreStuf</br>', 'some/link2.htm',
           '<br>EvenMoreStuff</br>', 'some/link3.htm']

Tôi đã thử điều này:

for i in my_list:
    i = i.replace('<br>','')
    i = i.replace('</br>','')

Và tôi đã thử điều này:

for i in my_list:
    if '<br>' in i:
        i = i.replace('<br>','')
    if '</br> in i:    
        i = i.replace('</br>','')

Không ai trong số này là thực hiện bất kỳ thay đổi trong danh sách ban đầu. Tôi có thể in ra các sửa chữa mà tôi muốn bằng cách không lưu trữ các thay đổi trong bất cứ điều gì:

for i in my_list:
    i.replace('<br>','')

Tuy nhiên tôi cần thay đổi để được lưu trong danh sách.

Có thể xóa ngắt dòng khỏi chuỗi bằng cách sử dụng hàm str_replace ().

34 main,
Boston, MA

Làm cách nào để xóa thẻ BR khỏi đẹp?
i scrape out using this code:

Đối với các thuộc tính BR chỉ cần thay thế trong re.sub ('', '', page_text) - minocha. Ngày 10 tháng 1 năm 2013 lúc 19:53 ..
strTitle += oText.strip()
strTitle = string.replace(strTitle,'
','')

Nếu bạn chắc chắn rằng các thẻ BR luôn trông giống như '

Tôi có thể sử dụng gì thay vì BR?

Thay vì sử dụng thẻ, bạn nên sử dụng phần tử HTML ngữ nghĩa và biên độ CSS hoặc các thuộc tính đệm nếu cần thiết.

Tôi có một số HTML trông giống như 34 Main này, Boston, MA

Và tôi đang cố gắng sử dụng chức năng thay thế để loại bỏ cái mà tôi bỏ ra bằng cách sử dụng mã này:

cho otext trong sự cố.fetchtext (ore): strtitle += otext.strip () strtitle = string.replace (strtitle, '', '')

Nhưng nó dường như không loại bỏ

Bất kỳ ý tưởng?
work perfectly on my box.

9 tháng 2 '06 #1

Đã thử điều đó, không làm việc cho tôi

9 tháng 2 '06 #3
print txt.replace("
", "") an unfortunate in the middle

lo**************@gmail đã viết:

Không làm việc

Bạn có thể cụ thể hơn về lỗi? Cả ví dụ của tôi và của bạn đều hoạt động hoàn hảo trên hộp của tôi.

9 tháng 2 '06 #5
txt = "an unfortunate
in the middle"
print txt.replace("
", "") an unfortunate in the middle

lo**************@gmail đã viết:


Không làm việc
one situation where regular expressions might be useful: the situation is
simple enough not to warrant a parser, but apart from the whitespace a

tag could have attributes or be written in xhtml style
. Also judging
by the inconsistency between the OP's subject line and his original
question he doesn't seem sure whether the tag is
or
or even
.
import re
nobr = re.compile('\W*\W*', re.I)
nobr.sub(' ', "an unfortunate
in the middle") 'an unfortunate in the middle' nobr.sub(' ', "an unfortunate
in the middle")

Bạn có thể cụ thể hơn về lỗi? Cả ví dụ của tôi và của bạn đều hoạt động hoàn hảo trên hộp của tôi.

9 tháng 2 '06 #5

Bạn có thể cụ thể hơn về lỗi? Cả ví dụ của tôi và của bạn đều hoạt động hoàn hảo trên hộp của tôi.

9 tháng 2 '06 #5
txt = "an unfortunate
in the middle"
print txt.replace("
", "")

Làm việc cho tôi.

lo**************@gmail đã viết:

Không làm việc

Bạn có thể cụ thể hơn về lỗi? Cả ví dụ của tôi và của bạn đều hoạt động hoàn hảo trên hộp của tôi.
albert

9 tháng 2 '06 #5

cho otext trong sự cố.fetchtext (ore): strtitle += otext.strip () strtitle = string.replace (strtitle, '', '')

Có thể xóa ngắt dòng khỏi chuỗi bằng cách sử dụng hàm str_replace ().
34 main,
Boston, MA

Làm cách nào để xóa thẻ BR khỏi đẹp?
i scrape out using this code:

Đối với các thuộc tính BR chỉ cần thay thế trong re.sub ('', '', page_text) - minocha. Ngày 10 tháng 1 năm 2013 lúc 19:53 ..
strTitle += oText.strip()
Why concatening ?
strTitle = string.replace(strTitle,'
','')
Use strTitle.replace('
', '') instead. And BTW, hungarian notation is
evil, so:
for text in incident.fetchText(...):
title = text.strip().replace('
', '')
but it doesn't seem to remove the

it does :

Nếu bạn chắc chắn rằng các thẻ BR luôn trông giống như '
[GCC 3.4.5 (Gentoo 3.4.5, ssp-3.4.5-1.0, pie-8.7.9)] on linux2
Type "help", "copyright", "credits" or "license" for more information.

Tôi có thể sử dụng gì thay vì BR?
s.replace('
', '') '
34 main, Boston, MA
'

Thay vì sử dụng thẻ, bạn nên sử dụng phần tử HTML ngữ nghĩa và biên độ CSS hoặc các thuộc tính đệm nếu cần thiết.
figured out by yourself very easily.
any ideas?

Tôi có một số HTML trông giống như 34 Main này, Boston, MA

Vấn đề của bạn có lẽ là ở nơi khác, và được đưa ra một số bài viết trước đây ('Vấn đề viết Tuple to Log File' và 'thụt lề làm hỏng tuple của tôi?'), Tôi nói rằng khóa học Lập trình101 nên là bước đầu tiên của bạn. - **@xiludom.gro'.split ('@')]]) "
here ('problems writing tuple to log file' and 'indentation messing up
my tuple?'), I'd say that a programming101 course should be your first
move.
--
bruno desthuilliers
python -c "print '@'.join(['.'.join([w[::-1] for w in p.split('.')]) for
p in 'o****@xiludom.gro'.split('@')])"

9 tháng 2 '06 #9

Gian hàng Duncan đã viết:

Mặc dù tôi thường khuyên bạn không nên lạm dụng các biểu thức thường xuyên, nhưng tình huống isone này có thể là hữu ích: [...]
one situation where regular expressions might be useful: [ ... ]
Nobr = re.compile ('\ w*\ w*', re.i)

Đã đồng ý (trên cả hai tính), nhưng r '\ s*\ s*' có thể tốt hơn (hãy xem xét những gì xảy ra với "một điều không may ... ở giữa" nếu bạn sử dụng \ w thay vì \ s).
(consider what happens with "an unfortunate...
in the middle"
if you use \W rather than \s).

- \ S- si***@chiard.greenend.org.uk- http://www.chaos.org.uk/~sion/ ___ | "Thành thật mà nói, tôi không có cảm xúc với chim cánh cụt theo cách này hay cách khác" \ x/ | - Arthur C. Clarke Nu của cô ấy trở nên
\S -- si***@chiark.greenend.org.uk -- http://www.chaos.org.uk/~sion/
___ | "Frankly I have no feelings towards penguins one way or the other"
\X/ | -- Arthur C. Clarke
her nu become� se bera eadward ofdun hl�ddre heafdes b�ce bump bump bump

9 tháng 2 '06 #10

Sion Arrowsmith đã viết:

Gian hàng Duncan đã viết:
Mặc dù tôi thường khuyên bạn không nên lạm dụng các biểu thức thường xuyên, nhưng tình huống isone này có thể là hữu ích: [...]
this is one situation where regular expressions might be useful: [ ...
]
Nobr = re.compile ('\ w*\ w*', re.i)

Đã đồng ý (trên cả hai tính), nhưng r '\ s*\ s*' có thể tốt hơn (hãy xem xét những gì xảy ra với "một điều không may ... ở giữa" nếu bạn sử dụng \ w thay vì \ s).
(consider what happens with "an unfortunate...
in the middle"
if you use \W rather than \s).

- \ S- si***@chiard.greenend.org.uk- http://www.chaos.org.uk/~sion/ ___ | "Thành thật mà nói, tôi không có cảm xúc với chim cánh cụt theo cách này hay cách khác" \ x/ | - Arthur C. Clarke Nu của cô ấy trở nên
for correcting that.

9 tháng 2 '06 #10

Sion Arrowsmith đã viết:

Mặc dù tôi thường khuyên bạn không nên lạm dụng các biểu thức thường xuyên, nhưng đây là một tình huống mà các biểu thức thường xuyên có thể hữu ích: [...]

> Nobr = re.compile ('\ w*\ w*', re.i)

Làm thế nào để bạn loại bỏ một dòng phá vỡ trong Python?

Phương pháp 1: Sử dụng hàm thay thế để xóa ký tự dòng mới khỏi chuỗi trong Python ..
Phương pháp 2: Sử dụng hàm Dải () để xóa ký tự dòng mới khỏi chuỗi trong Python ..
Phương pháp 4: Sử dụng RE.hàm sub () để xóa một ký tự dòng mới khỏi chuỗi trong python ..

Làm thế nào để bạn xóa thẻ BR khỏi chuỗi?

Có thể xóa ngắt dòng khỏi chuỗi bằng cách sử dụng hàm str_replace ().using str_replace() function.

Làm cách nào để xóa thẻ BR khỏi đẹp?

Đối với các thuộc tính BR chỉ cần thay thế trong re.sub ('', '', page_text) - minocha.Ngày 10 tháng 1 năm 2013 lúc 19:53 ..
Nếu bạn chắc chắn rằng các thẻ BR luôn trông giống như '

Tôi có thể sử dụng gì thay vì BR?

Thay vì sử dụng thẻ, bạn nên sử dụng phần tử HTML ngữ nghĩa và biên độ CSS hoặc các thuộc tính đệm nếu cần thiết.a semantic HTML element and the CSS margin or padding properties if necessary.