Tôi có một cái bàn như dưới đây: URN Firm_Name
0 104472 R.X. Yah & Co
1 104873 Big Building Society
2 109986 St James's Society
3 114058 The Kensington Society Ltd
4 113438 MMV Oil Associates Ltd
Và tôi muốn đếm tần số của tất cả các từ trong cột Firm_Name, để có được đầu ra như bên dưới:
Tôi đã thử mã sau: import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
Tuy nhiên, mã sau không tạo ra một số từ duy nhất. Số không 70K16 Huy hiệu vàng144 Huy hiệu bạc153 Huy hiệu đồng16 gold
badges144 silver badges153 bronze badges Hỏi ngày 17 tháng 10 năm 2017 lúc 8:54Oct 17, 2017 at 8:54 IiUic, sử dụng import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
0In [3361]: df.Firm_Name.str.split(expand=True).stack().value_counts()
Out[3361]:
Society 3
Ltd 2
James's 1
R.X. 1
Yah 1
Associates 1
St 1
Kensington 1
MMV 1
Big 1
& 1
The 1
Co 1
Oil 1
Building 1
dtype: int64
Or, pd.Series(np.concatenate([x.split() for x in df.Firm_Name])).value_counts()
Or, pd.Series(' '.join(df.Firm_Name).split()).value_counts()
Đối với hàng đầu n, ví dụ 3 In [3379]: pd.Series(' '.join(df.Firm_Name).split()).value_counts()[:3]
Out[3379]:
Society 3
Ltd 2
James's 1
dtype: int64
Thông tin chi tiết In [3380]: df
Out[3380]:
URN Firm_Name
0 104472 R.X. Yah & Co
1 104873 Big Building Society
2 109986 St James's Society
3 114058 The Kensington Society Ltd
4 113438 MMV Oil Associates Ltd
Đã trả lời ngày 17 tháng 10 năm 2017 lúc 8:58Oct 17, 2017 at 8:58
ZlozeroZero 70K16 Huy hiệu vàng144 Huy hiệu bạc153 Huy hiệu đồng16 gold badges144 silver
badges153 bronze badges 8 Hỏi ngày 17 tháng 10 năm 2017 lúc 8:54 top_N = 4
#if not necessary all lower
a = data['Firm_Name'].str.lower().str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
print (word_dist)
<FreqDist with 17 samples and 20 outcomes>
rslt = pd.DataFrame(word_dist.most_common(top_N),
columns=['Word', 'Frequency'])
print(rslt)
Word Frequency
0 society 3
1 ltd 2
2 the 1
3 co 1
IiUic, sử dụng import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
0top_N = 4
a = data['Firm_Name'].str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
rslt = pd.DataFrame(word_dist.most_common(top_N),
columns=['Word', 'Frequency'])
print(rslt)
Word Frequency
0 Society 3
1 Ltd 2
2 MMV 1
3 Kensington 1
Đối với hàng đầu n, ví dụ 3Oct 17, 2017 at 9:05 Thông tin chi tiếtjezrael Đã trả lời ngày 17 tháng 10 năm 2017 lúc 8:5886 gold badges1234 silver badges1169 bronze badges 2 Zlozero from collections import Counter
c = Counter()
df = pd.DataFrame(
[[104472,"R.X. Yah & Co"],
[104873,"Big Building Society"],
[109986,"St James's Society"],
[114058,"The Kensington Society Ltd"],
[113438,"MMV Oil Associates Ltd"]
], columns=["URN","Firm_Name"])
df.Firm_Name.str.split().apply(c.update)
Counter({'R.X.': 1,
'Yah': 1,
'&': 1,
'Co': 1,
'Big': 1,
'Building': 1,
'Society': 3,
'St': 1,
"James's": 1,
'The': 1,
'Kensington': 1,
'Ltd': 2,
'MMV': 1,
'Oil': 1,
'Associates': 1})
Bạn cần import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
1 với import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
2 Trước tiên để Concanecate tất cả các giá trị thành một import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
3, sau đó cần import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
4 và sử dụng cuối cùng giải pháp của bạn:Apr 23, 2020 at 20:29
Cũng có thể xóa import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
2 nếu cần thiết:biophetik Đã trả lời ngày 17 tháng 10 năm 2017 lúc 9:058 silver badges5 bronze badges |