Nhật ký chứa thông tin rất chi tiết về các sự kiện xảy ra trên máy tính. Và các chi tiết bổ sung mà họ cung cấp đi kèm với sự phức tạp bổ sung mà chúng ta cần phải tự xử lý. Một lượt xem trang có thể chứa nhiều dòng nhật ký và một phiên có thể bao gồm một số lượt xem trang chẳng hạn. Một đặc điểm quan trọng khác của các tệp nhật ký là chúng thường không lớn. Họ rất lớn. Vì vậy, chúng tôi cũng cần phục vụ cho kích thước lớn của họ, cũng như những thay đổi nhanh chóng. TL;DR >>> import advertools as adv
>>> import pandas as pd
>>> adv.logs_to_df(log_file='access.log',
... output_file='access_logs.parquet',
... errors_file='log_errors.csv',
... log_format='common',
... fields=None)
>>> logs_df = pd.read_parquet('access_logs.parquet')
Cách chạy chức năng !head data/sample_log.log
7: !head data/sample_log.log
8: Đường dẫn đến tệp nhật ký bạn đang cố gắng phân tích.!head data/sample_log.log
9: Đường dẫn đến nơi bạn muốn tệp được phân tích cú pháp và nén. Chỉ có định dạng sàn gỗ được hỗ trợ.66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
0: Bạn gần như chắc chắn sẽ có các dòng nhật ký không phù hợp với định dạng mà bạn có, vì vậy tất cả các dòng không được phân tích cú pháp đúng cách sẽ đi đến tệp này. Tệp này cũng chứa các thông báo lỗi, vì vậy bạn biết điều gì đã sai và cách bạn có thể sửa nó. Trong một số trường hợp, bạn có thể chỉ cần thực hiện các "lỗi" này và phân tích lại chúng. Chúng có thể không thực sự là lỗi, nhưng các dòng ở một định dạng khác hoặc tin nhắn gỡ lỗi tạm thời.66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
1: Định dạng trong đó nhật ký của bạn được định dạng. Nhật ký có thể (và là) được định dạng theo nhiều cách, và không có cách đúng hay sai. Tuy nhiên, có mặc định và một vài định dạng phổ biến mà hầu hết các máy chủ sử dụng. Có khả năng tệp của bạn ở một trong các định dạng phổ biến. Tham số này có thể lấy bất kỳ một trong các định dạng được xác định trước, ví dụ "phổ biến" hoặc "kết hợp" hoặc biểu thức chính quy mà bạn cung cấp. Điều này có nghĩa là bạn có thể phân tích bất kỳ định dạng nhật ký nào (miễn là các dòng là các dòng đơn và không được định dạng trong JSON).you can parse any log format (as long as lines are single lines, and not formatted in JSON).66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
2: Nếu bạn đã chọn một trong các định dạng được hỗ trợ, thì không cần phải cung cấp giá trị cho tham số này. Bạn phải cung cấp một danh sách các trường trong trường hợp bạn cung cấp định dạng tùy chỉnh (regex). Các trường sẽ trở thành tên của các cột của DataFrame kết quả, do đó bạn có thể phân biệt giữa chúng (máy khách, thời gian, mã trạng thái, kích thước phản hồi, v.v.)
Các định dạng nhật ký được hỗ trợPhân tích tệp nhật ký - Chuẩn bị dữ liệuChúng tôi trải qua một ví dụ trong đó chúng tôi chuẩn bị dữ liệu để phân tích và đây là kế hoạch: Phân tích tệp nhật ký vào một khung dữ liệu được lưu vào đĩa có phần mở rộng .Parquet. Một tác dụng phụ là tệp nhật ký của bạn cũng bị nén xuống tới 5% - 15% kích thước ban đầu của nó. Nó cũng làm cho nó siêu hiệu quả để truy vấn và phân tích một lần ở định dạng này. Hàm được sử dụng: 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
3.Chuyển đổi các loại dữ liệu khi cần thiết (tùy chọn): Quan trọng nhất là chuyển đổi cột DateTime thành một đối tượng ngày giúp rất nhiều trong việc truy vấn dữ liệu. Các khả năng khác bao gồm chuyển đổi thành các loại dữ liệu phân loại để lưu trữ và truy vấn hiệu quả hơn. Hàm được sử dụng: 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
4.Nhận tên máy chủ của địa chỉ IP của khách hàng gửi yêu cầu. Hàm được sử dụng: Reversion_DNS_Lookup. Sau đó, chúng ta có thể dễ dàng thêm cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
5 vào DataFrame gốc.reverse_dns_lookup. We can then easily add a 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
5 column to the original DataFrame.Phân chia và phân chia các cột URL vào các thành phần tương ứng của chúng. Thông thường, chúng tôi có 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
6 là tài nguyên/URL được yêu cầu, cũng như 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7, cho chúng tôi thấy yêu cầu được giới thiệu từ đâu. Hàm được sử dụng: url_to_df.url_to_df.Đại lý người dùng Parse nếu có. Điều này cho phép chúng tôi phân tích theo gia đình người dùng, hệ điều hành, bot/không bot, phiên bản và bất kỳ sự kết hợp nào khác mà chúng tôi muốn. Kết hợp tất cả dữ liệu với nhau và lưu lại tệp .Parquet mới và bắt đầu phân tích.
!head data/sample_log.log
66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
Đọc tệp Parquet thành một DataFrame Pandas và chuyển đổi cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
8 thành một đối tượng DateTime.logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
Thực hiện tra cứu DNS ngược trên các địa chỉ IP trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
9:%%time
host_df = adv.reverse_dns_lookup(logs_df['client'])
print(f'Rows, columns: {host_df.shape}')
host_df.head(15)
# Rows, columns: (1210, 9)
# CPU times: user 745 ms, sys: 729 ms, total: 1.47 s
# Wall time: 21.1 s
| ip_address | đếm | cum_count | perc | cum_perc | tên máy chủ | Danh sách bí danh | danh sách iPaddrlist | lỗi |
---|
0
| 143.244.132.225
| 426
| 426
| 0.0701004
| 0.0701004
|
|
|
| [Errno 1] Máy chủ không xác định
| 1
| 45.146.164.110
| 290
| 716
| 0.0477209
| 0.117821
|
|
|
| [Errno 1] Máy chủ không xác định
| 2
| 46.177.196.171
| 192
| 908
| 0.0315945
| 0.149416
| ppp046177196171.access.hol.gr
| 171.196.177.46.in-addr.arpa
| 46.177.196.171
|
| 3
| 185.22.173.83
| 182
| 1090
| 0.029949
| 0.179365
|
|
|
| [Errno 1] Máy chủ không xác định
| 4
| 152.32.226.223
| 171
| 1261
| 0.0281389
| 0.207504
|
|
|
| [Errno 1] Máy chủ không xác định
| 5
| 94.200.35.174
| 154
| 1415
| 0.0253415
| 0.232845
|
|
|
| [Errno 1] Máy chủ không xác định
| 6
| 89.47.44.105
| 130
| 1545
| 0.0213921
| 0.254237
| ppp089047044105.access.hol.gr
| 105.44.47.89.in-addr.arpa
| 89.47.44.105
|
| 7
| 94.200.92.2
| 119
| 1664
| 0.019582
| 0.273819
|
|
|
| [Errno 1] Máy chủ không xác định
| 8
| 143.244.132.234
| 113
| 1777
| 0.0185947
| 0.292414
|
|
|
| [Errno 1] Máy chủ không xác định
| 9
| 217.100.98.101
| 81
| 1858
| 0.0133289
| 0.305743
| d9646265.static.ziggozakelijk.nl
| 101.98.100.217.in-addr.arpa
| 217.100.98.101
|
| 10
| 203.163.243.241
| 79
| 1937
| 0.0129998
| 0.318743
|
|
|
| [Errno 1] Máy chủ không xác định
| 11
| 66.249.73.135
| 77
| 2014
| 0.0126707
| 0.331414
| crawl-66-249-73-135.googlebot.com
| 135.73.249.66.in-addr.arpa
| 66.249.73.135
|
| 12
| 194.163.179.92
| 60
| 2074
| 0.00987329
| 0.341287
| vmi660635.contaboserver.net
| 92.179.163.194.in-addr.arpa
| 194.163.179.92
|
| 13
| 66.249.73.137
| 58
| 2132
| 0.00954418
| 0.350831
| crawl-66-249-73-137.googlebot.com
| 137.73.249.66.in-addr.arpa
| 66.249.73.137
|
| 14
| 109.70.100.30
| 58
| 2190
| 0.00954418
| 0.360375
| tor-exit-anonymizer.appliedprivacy.net
| 30.100.70.109.in-addr.arpa
| 109.70.100.30
|
|
Thêm cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
5 mới, bằng cách khớp các tên IP với tên máy chủ của chúng.ip_host_dict = dict(zip(host_df['ip_address'], host_df['hostname']))
logs_df['hostname'] = [ip_host_dict[ip] for ip in logs_df['client']]
Chia các URL yêu cầu vào các thành phần của chúng. request_url_df = adv.url_to_df(logs_df['request'])
request_url_df = request_url_df.add_prefix('request_')
request_url_df.head(10)
| request_url | request_scheme | request_netloc | request_path | request_query | request_fragment | request_hostname | request_port | request_dir_1 | request_dir_2 | request_dir_3 | request_dir_4 | request_dir_5 | request_dir_6 | request_dir_7 | request_dir_8 | request_dir_9 | request_dir_10 | request_dir_11 | request_dir_12 | request_dir_13 | request_last_dir | request_query_index | request_query_s | request_query_XDEBUG_SESSION_START | request_query_function | request_query_vars[0] | request_query_vars[1][] | request_query_file | request_query_url | request_query_a | request_query_content | request_query_wt | request_query_action | request_query_username | request_query_psd | request_query_dns | request_query_step | request_query_cmd | request_query_lang | request_query_option | request_query_folderIds | request_query_input_file | request_query_currentsetting.htm | request_query_type | request_query_next_file | request_query_curpath | request_query_page | request_query_id | request_query_img | request_query_panel | request_query_todo | request_query_code | request_query_ref | request_query_scopeName | request_query_op | request_query_controller | request_query_q |
request_query_sb_category | request_query_Email | request_query_name | request_query_abspath | request_query_fn | request_query_files | request_query_thumb | request_query_ACTION | request_query_NOCONTINUE | request_query_filepath | request_query_file_link | request_query_myPath | request_query_adaptive-images-settings[source_file]
| request_query_aam-media | request_query_cpabc_calendar_update | request_query_term | request_query_Itemid | request_query_search_key | request_query_short | request_query_title | request_query_Type | request_query_format | request_query_findcli | request_query_v | request_query_target | request_query__ | request_query_albid | request_query_pic | request_query_path | request_query_mode | request_query_libpath | request_query_srt | request_query_redirect | request_query_order | request_query_item | request_query_gid | request_query_act | request_query_rid | request_query_service | request_query_agent | request_query_typeid | request_query_dir | request_query_stockCodeInternal | request_query_site | request_query_position | request_query_fileName |
---|
0
| /
|
|
| /
|
|
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 1
| /.env
|
|
| /.env
|
|
| nan
| nan
| .env
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| .env
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 2
| /
|
|
| /
|
|
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 3
| /robots.txt
|
|
| /robots.txt
|
|
| nan
| nan
| robots.txt
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| robots.txt
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 4
| /
|
|
| /
|
|
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 5
| /login
|
|
| /login
|
|
| nan
| nan
| đăng nhập
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| đăng nhập
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 6
| /robots.txt
|
|
| /robots.txt
|
|
| nan
| nan
| robots.txt
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| robots.txt
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 7
| /staging/urlytics/
|
|
| /staging/urlytics/
|
|
| nan
| nan
| dàn dựng
| Urlytics
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| Urlytics
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 8
| /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js
|
|
| /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js
|
|
| nan
| nan
| dàn dựng
| Urlytics
| _dash-component-suites
| Dash
| HTML
| dash_html_components.v2_0_0m1638886228.min.js
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| dash_html_components.v2_0_0m1638886228.min.js
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| 9
| /staging/urlytics/_dash-layout
|
|
| /staging/urlytics/_dash-layout
|
|
| nan
| nan
| dàn dựng
| Urlytics
| _dash-layout
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| _dash-layout
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| nan
| Dash referer_url_df = adv.url_to_df(logs_df['referer'])
referer_url_df = referer_url_df.add_prefix('referer_')
referer_url_df.head(10)
| referer_url | referer_scheme | referer_netloc | referer_path | referer_query | referer_fragment | referer_hostname | referer_port | referer_dir_1 | referer_dir_2 | referer_dir_3 | referer_last_dir |
---|
0
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 1
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 2
| http://adver.tools/
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| adver.tools
| -
|
|
| nan
| nan
| nan
| nan
| nan
| nan
| 3
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 4
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 5
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 6
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 7
| HTML
|
|
| HTML
|
|
| nan
| nan
| HTML
| nan
| nan
| HTML
| 8
| http://www.adver.tools/staging/urlytics/
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| www.adver.tools
| /staging/urlytics/
|
|
| nan
| nan
| dàn dựng
| Urlytics
| nan
| Urlytics
| 9
| http://www.adver.tools/staging/urlytics/
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| www.adver.tools
| /staging/urlytics/
|
|
| nan
| nan
| dàn dựng
| Urlytics
| nan
| Urlytics
|
Dash ua_df = pd.json_normalize([user_agent_parser.Parse(ua) for ua in logs_df['user_agent']])
ua_df.columns = 'ua_' + ua_df.columns.str.replace('user_agent\.', '', regex=True)
ua_df.head(10)
| ua_string | ua_family | ua_major | ua_minor | ua_patch | ua_os.family | ua_os.major | ua_os.minor | ua_os.patch | ua_os.patch_minor | ua_device.family | ua_device.brand | ua_device.model |
---|
0
| HTML
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| 2
| 1
|
| -
| 6
| 0
| 1
|
| HTTP
| HTTP
| /
| 1
| Phân tích cột import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
2.
| Mozilla/5.0 (Linux; .com/bot.html)
| 81
| 0
| 4044
| Googlebot
|
|
|
|
| Android
|
|
| 2
| Nhện
| Mozilla/5.0 (Linux; .com/bot.html)
| 90
| 0
| 4430
| Googlebot
| 10
|
|
|
| Android
|
|
| 3
| advertools/0.13.0
| Android
|
|
|
| Android
|
|
|
|
| Android
|
|
| 4
| advertools/0.13.0
| Android
|
|
|
| Android
|
|
|
|
| Android
|
|
| 5
| Nhện
| Android
|
|
|
| Android
|
|
|
|
| Android
|
|
| 6
| Nhện
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| 2
| 1
|
| Android
|
|
|
|
| HTTP
| HTTP
| /
| 7
| Nhện
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| 2
| 1
|
| Android
|
|
|
|
| HTTP
| HTTP
| /
| 8
| Phân tích cột import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
2.
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| 2
| 1
|
| Android
|
|
|
|
| HTTP
| HTTP
| /
| 9
| Phân tích cột import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
2.
| Làm tương tự cho các URL trong cột 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
7.
| 2
| 1
|
| Android
|
|
|
|
| HTTP
| HTTP
| /
|
Phân tích cột import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
2.!head data/sample_log.log
0Mozilla/5.0 (Linux; .com/bot.html) Googlebot !head data/sample_log.log
1!head data/sample_log.log
2Android NhệnĐiện thoại thông minh Mozilla/5.0 (x11; Linux x86_64) AppleWebKit/537.36 (Khtml, như Gecko) Chrome/81.0.4044.129 Safari/537.36 Trình duyệt Chrome Các URL bị chặn: Các quy tắc của Crawler tuân theo các quy tắc robot.txt theo mặc định và khi nó gặp các trang mà nó không nên thu thập dữ liệu, nó không. Tuy nhiên, điều này được ghi là một sự kiện và bạn có thể dễ dàng trích xuất danh sách các URL bị chặn từ các bản ghi. Lỗi thu thập dữ liệu: Bạn cũng có thể gặp một số lỗi trong khi thu thập thông tin và có thể rất thú vị khi biết URL nào đã tạo ra lỗi. Các trang được lọc: Đó là những trang được phát hiện nhưng không được bò vì chúng không phải là miền phụ của URL_List được cung cấp, hoặc hoàn toàn nằm trên các miền bên ngoài.
Điều này có thể được thực hiện đơn giản bằng cách chỉ định tên tệp thông qua tham số tùy chọn Custom_Sinstall của import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
9:!head data/sample_log.log
3Nếu bạn chạy nó theo cách này, tất cả các nhật ký sẽ được lưu vào tệp bạn đã chọn, ví dụ.log trong trường hợp này. Bây giờ, bạn có thể sử dụng chức năng logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
0 để mở nhật ký trong DataFrame:
!head data/sample_log.log
4DataFrame có thể chứa các cột sau: Thời gian: dấu thời gian cho quá trình Middleware: Phần mềm trung gian chịu trách nhiệm cho quá trình này, cho dù đó là động cơ cốt lõi, máy cạo, xử lý lỗi, v.v. Cấp độ: Mức ghi nhật ký (gỡ lỗi, thông tin, v.v.) Thông báo: Một từ duy nhất tóm tắt những gì hàng này đại diện, "thu thập dữ liệu", "đã cạo", "được lọc", v.v.
Tên miền: Tên miền của các trang được lọc (không được thu thập thông thường cho các URL bên ngoài trang web hiện tại. Phương pháp: Phương pháp HTTP được sử dụng trong quy trình này (GET, PUT, ETC.) URL: URL hiện đang được xử lý. Trạng thái: Mã trạng thái HTTP, 200, 404, v.v. Người giới thiệu: URL tham chiếu, nếu có. Phương thức_TO: Trong các hàng chuyển hướng, phương thức HTTP được sử dụng để thu thập dữ liệu URL sẽ đến. RELIRECT_TO: URL được chuyển hướng đến. Phương thức_From: Trong các hàng chuyển hướng, phương thức HTTP được sử dụng để thu thập dữ liệu URL đến từ. RELIRECT_FROM: URL được chuyển hướng từ. blocked_urls: các URL không bị thu thập dữ liệu do các quy tắc robot.txt.
crawlogs_to_df (logs_file_path) [nguồn] (logs_file_path)[source]Chuyển đổi tệp nhật ký thu thập dữ liệu thành DataFrame. Một tùy chọn thú vị trong khi sử dụng chức năng import advertools as adv
import pandas as pd
from ua_parser import user_agent_parser
pd.options.display.max_columns = None
adv.logs_to_df(log_file='data/sample_log.log',
output_file='data/adv_logs.parquet',
errors_file='data/adv_errors.txt',
log_format='combined')
9, là chỉ định tệp đích để lưu nhật ký của chính quy trình thu thập dữ liệu. Điều này chứa thông tin bổ sung về mỗi URL được thu thập, quét, chặn hoặc chuyển hướng.Những gì bạn rất có thể sẽ sử dụng điều này là để có được một danh sách các URL bị chặn bởi các quy tắc robot.txt. Chúng có thể được tìm thấy UND cột logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
2. Lỗi thu thập thông tin cũng rất thú vị và có thể được tìm thấy trong các hàng trong đó logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
3 bằng "lỗi".!head data/sample_log.log
5Thông sốlogs_file_path (str) - đường dẫn đến tệp nhật ký. (str) -- The path to the logs file. Trả về dataFrame crawl_logs_dfMột bản dữ liệu tóm tắt các bản ghi. logs_to_df (log_file, output_file, errors_file, log_format, field = none) [nguồn](log_file, output_file, errors_file, log_format,
fields=None)[source]Parse và nén bất kỳ tệp nhật ký nào vào định dạng DataFrame. Chuyển đổi tệp nhật ký thành tệp Parquet ở định dạng DataFrame và lưu tất cả các lỗi (hoặc dòng không phù hợp với định dạng nhật ký đã chọn) thành một tệp văn bản 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
0 riêng biệt. Bất kỳ định dạng nhật ký không json nào cũng có thể, miễn là bạn có regex phù hợp với nó. Một vài cái mặc định được cung cấp và có thể được sử dụng. Kiểm tra logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
5 và logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
6 cho các định dạng và trường có sẵn.>>> import advertools as adv
>>> import pandas as pd
>>> adv.logs_to_df(log_file='access.log',
... output_file='access_logs.parquet',
... errors_file='log_errors.csv',
... log_format='common',
... fields=None)
>>> logs_df = pd.read_parquet('access_logs.parquet')
Bây giờ bạn có thể phân tích logs_df = pd.read_parquet('data/adv_logs.parquet')
logs_df['datetime'] = pd.to_datetime(logs_df['datetime'],
format='%d/%b/%Y:%H:%M:%S %z')
logs_df
7 dưới dạng dữ liệu gấu trúc thông thường.Thông sốlog_file (str) - đường dẫn đến tệp nhật ký.
(str) -- The path to the log file. OUTPUT_FILE (STR) - Đường dẫn đến tệp đầu ra mong muốn. Phải có tiện ích mở rộng ".Parquet" và không phải có cùng đường dẫn như một tệp hiện có. (str) -- The path to the desired output file. Must have a ".parquet" extension, and must not have the same path as an existing file. Lỗi_FILE (STR) - Đường dẫn lưu trữ lỗi phân tích cú pháp. Bất kỳ định dạng văn bản nào cũng hoạt động, CSV được khuyến nghị dễ dàng mở nó với bất kỳ đầu đọc CSV nào với dấu phân cách là "@@". (str) -- The path where the parsing errors are stored. Any text format works, CSV is recommended to easily open it with any CSV reader with the separator as "@@". log_format (str) - tên của một trong các định dạng nhật ký được hỗ trợ hoặc regex của định dạng của riêng bạn.
(str) -- Either the name of one of the supported log formats, or a regex of your own format. Các trường (STR) - Một danh sách các trường, sẽ trở thành tên của các cột trong !head data/sample_log.log
9. Chỉ yêu cầu nếu bạn cung cấp một tùy chỉnh (regex) 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
1. (str) -- A list of fields, which will become the names of columns in !head data/sample_log.log
9. Only required if you provide a custom (regex) 66.249.73.72 - - [16/Feb/2022:00:18:53 +0000] "GET / HTTP/1.1" 200 1095 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
109.237.103.118 - - [16/Feb/2022:00:20:39 +0000] "GET /.env HTTP/1.1" 404 209 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
45.12.223.214 - - [16/Feb/2022:00:23:45 +0000] "GET / HTTP/1.0" 200 2240 "http://adver.tools/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "advertools/0.13.0"
51.68.77.249 - - [16/Feb/2022:00:26:23 +0000] "HEAD / HTTP/1.1" 200 0 "-" "advertools/0.13.0"
192.241.211.176 - - [16/Feb/2022:00:31:16 +0000] "GET /login HTTP/1.1" 404 209 "-" "Mozilla/5.0 zgrab/0.x"
66.249.73.69 - - [16/Feb/2022:00:48:56 +0000] "GET /robots.txt HTTP/1.1" 404 209 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.72 - - [16/Feb/2022:00:48:56 +0000] "GET /staging/urlytics/ HTTP/1.1" 200 520 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.75 - - [16/Feb/2022:00:49:38 +0000] "GET /staging/urlytics/_dash-component-suites/dash/html/dash_html_components.v2_0_0m1638886228.min.js HTTP/1.1" 200 154258 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
66.249.73.75 - - [16/Feb/2022:00:49:39 +0000] "GET /staging/urlytics/_dash-layout HTTP/1.1" 200 2547 "http://www.adver.tools/staging/urlytics/" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/98.0.4758.80 Safari/537.36"
1. |