Lấy dữ liệu từ web bằng python

     
Internet là 1 nguồn dữ liệu to con cho ngẫu nhiên lĩnh vực phân tích hoặc sở thích cá nhân nào. Scraping Python Web bằng cách sử dụng Beautiful Soup được áp dụng để thu thập dữ liệu từ internet. Những yêu cầu của tủ sách Python cùng Beautiful Soup là các công cụ mạnh khỏe được sử dụng để quét web. Nếu khách hàng biết đầy đủ điều cơ bạn dạng về Python cùng HTML, thì bạn có thể tiếp tục với gợi ý này. Công ty chúng tôi có thể xử lý một số ví dụ thực hành trong giải đáp này, điều này sẽ giúp đỡ bạn tìm hiểu thêm về giải pháp tìm kiếm trên web.

Bạn đang xem: Lấy dữ liệu từ web bằng python


Bạn sẽ học được gì từ lý giải này?Tại sao chúng ta cần tìm kiếm web?Scraping Python Web bằng phương pháp sử dụng Beautiful SoupTại sao bắt buộc phải loại trừ dữ liệu?Những thử thách là gì?SỰ ĐA DẠNGĐộ bềnAPI chăm chú web PythonĐiều chỉnh trang web Việc làm (Bản miêu tả Scraping web Python)Phần 1: kiểm soát nguồn dữ liệuKhám phá trang webHiểu thông tin được mã hóa trong URLURL cơ sởTham số truy vấn vấnKhởi đầuThông tinmáy phân lyKiểm tra trang webPhần 2: Chỉnh sửa website cho nội dung HTMLTrang website tĩnhTrang website ẩnTrang web độngPhần 3: so sánh cú pháp mã HTML bởi Beautiful SoupTìm các phần tử theo idTìm các thành phần theo tên lớpLọc nội dung văn phiên bản từ các bộ phận HTMLTìm thành phần theo tên lớp và văn bản văn bảnChuyển một tính năng cho một cách thức súp đẹpTrích xuất những thuộc tính trường đoản cú các thành phần HTMLKết luận

Bạn sẽ học được gì từ trả lời này?

Cách cạo với phân tích cú pháp tài liệu từ web bằng cách sử dụng những yêu ước thư viện python và Beautiful Soup.Một phát minh về ngừng đường ống nạo web.Như một ví dụ như thực tế, shop chúng tôi sẽ viết mã bởi Python để truy xuất những đề nghị quá trình từ trang web và chỉ in tin tức có liên quan trong bảng điều khiển.

Sử dụng và một kỹ thuật và các công cầm tương tự, chúng ta có thể lấy tài liệu từ bất kỳ trang web tĩnh nào bao gồm sẵn bên trên world wide web.

Tại sao bọn họ cần search kiếm web?

Internet là một trong những nguồn dữ liệu khổng lồ cho bất kỳ lĩnh vực nghiên cứu nào hoặc mang đến sở thích cá thể của bạn. Shop chúng tôi cần quét website để tích lũy dữ liệu từ internet để giúp công việc của chúng tôi trở nên thuận lợi hơn. Chức năng quét web khôn xiết hữu ích, đặc trưng khi bạn phải trích xuất một lượng lớn dữ liệu từ internet. Tài liệu được trích xuất có thể được lưu trên máy tính xách tay cục bộ của công ty hoặc vào cơ sở dữ liệu.Một số trang web sẽ không được cho phép chúng tôi lưu bản sao tài liệu hiển thị trên trình chú ý web để thực hiện cho mục tiêu cá nhân. Vào trường vừa lòng đó, công ty chúng tôi phải xào luộc và dán dữ liệu theo cách bằng tay - một quá trình khó khăn hoàn toàn có thể mất hàng giờ để xong nếu chúng ta có dữ liệu lớn đề nghị sao chép. Thay vì thực hiện các bước theo biện pháp thủ công, công ty chúng tôi sẽ tự động hóa quá trình này bằng cách quét web.Các công cụ trẻ khỏe được sử dụng để quét web là yêu mong thư viện Python cùng Beautiful Soup. Trong chỉ dẫn này, chúng ta sẽ tò mò về Python website Scraping bằng phương pháp sử dụng Beautiful Soup.

Scraping Python Web bằng phương pháp sử dụng Beautiful Soup

Tính năng quét web rất hữu ích khi bạn cần trích xuất một lượng lớn dữ liệu từ internet. Tài liệu được trích xuất hoàn toàn có thể được giữ trên laptop cục bộ của người tiêu dùng hoặc vào đại lý dữ liệu.Một số trang web sẽ không chất nhận được chúng tôi lưu bản sao dữ liệu hiển thị trên trình duyệt y web để thực hiện cho mục đích cá nhân. Vào trường đúng theo đó, chúng tôi phải sao chép và dán dữ liệu theo cách bằng tay thủ công - một công việc khó khăn rất có thể mất hàng tiếng đồng hồ để dứt nếu bạn có tài liệu lớn nên sao chép. Cố vì coppy dữ liệu theo cách bằng tay từ các trang web, chúng tôi có thể tự động hóa quy trình này với việc trợ góp của vấn đề quét web. Phần mềm duyệt web sẽ tiến hành công việc thủ công bằng tay tương từ cho chúng ta với ít thời hạn hơn.Tuy nhiên, một số trang web đang không cho phép trình cạo tự động quét dữ liệu của họ trong lúc những website khác không quan tâm. Trước khi tích lũy dữ liệu từ trang web, hãy bảo đảm an toàn rằng các bạn không vi phạm bất kỳ Điều khoản thương mại & dịch vụ nào. Xin vui vẻ kiểm tra quan liêu điểm pháp luật về việc tích lũy dữ liệu tự web hiện đại giải thích thêm về các khía cạnh pháp luật của việc tìm kiếm kiếm bên trên web,

Tại sao phải phải vứt bỏ dữ liệu?

Giả sử nhiều người đang tìm tìm một sản phẩm cụ thể trên bọn bà gan dạ. Chúng ta chỉ không muốn mua với ngẫu nhiên giá nào. Bạn có nhu cầu mua khi gồm chiết khấu nhất định về giá. Amazon công bố các chiết khấu về thành phầm đó ngay hiện nay và sau đó. Bạn liên tiếp kiểm tra nó mỗi ngày nhưng đó không hẳn là cách kết quả để sử dụng thời hạn của bạn.

Khi bạn cần trích xuất tài liệu lớn từ các trang web thường xuyên được update nội dung mới, các bạn sẽ mất rất nhiều thời gian để tìm kiếm, cuộn cùng nhấp chuột. Công việc quét web bằng tay là quá trình lặp đi lặp lại và các bạn sẽ mất rất nhiều thời gian cho vấn đề đó.Đây là Python cho để cứu giúp bạn. Núm vì kiểm tra giá của thành phầm mỗi ngày, bạn có thể viết một quãng mã Python để tự động hóa quá trình lặp đi lặp lại này. Để tăng tốc quá trình thu thập dữ liệu, phương án là Gỡ website tự động. Các bạn sẽ viết tập lệnh Python của mình chỉ sau khi điều phối tập lệnh sẽ lấy cho chính mình thông tin bạn phải bao nhiêu lần với từ từng nào trang các bạn muốn.Trong trái đất của Internet, không ít nội dung new được tải lên từng giây. Bạn cũng có thể thu thập những tài liệu đó, mặc dù đó là để tìm việc khiến cho mục đích cá nhân, tính năng auto quét web sẽ giúp bạn đạt được mục tiêu của mình.

Những thử thách là gì?

Mỗi website là không giống nhau bởi vì có cực kỳ nhiều technology mới phân phát sinh từng ngày và trang web liên tiếp phát triển. Điều này đưa ra những thách thức các bạn sẽ phải đương đầu khi nỗ lực quét một trang web.

SỰ ĐA DẠNG

API coi xét web Python

API là sự việc thay nuốm cho việc tìm kiếm kiếm trên web. Viết tắt của API là hình ảnh lập trình thay thế. Một trong những nhà cung cấp trang web cung ứng API để truy cập dữ liệu của mình theo bí quyết được xác minh trước. Với API, bạn cũng có thể truy cập dữ liệu trực tiếp bởi XML cùng JSON nhưng mà không đề xuất phân tích cú pháp HTML.HTML xác định cấu tạo của ngôn từ web. Lúc HTML của trang web thay đổi, API vẫn ổn định, không giống hệt như tập lệnh quét từ động. Vị vậy, những API tác dụng hơn việc thu thập dữ liệu từ bỏ internet.Tuy nhiên, những thách thức của vấn đề quét web cũng áp dụng cho các API. Ngoài ra, rất cực nhọc để kiểm tra cấu trúc của API trường hợp tài liệu được hỗ trợ thiếu chất lượng.API không hẳn là một phần của khuyên bảo này. Hãy tiếp tục với việc tìm kiếm kiếm trang web.

Xem thêm: "Laptop 10 Inch" Giá Tốt Tháng 4, 2021 Laptop, 18 Laptop Mini Giá Rẻ, Nhỏ Gọn Nhất, Dễ Mang Theo

Điều chỉnh trang web Việc làm (Bản trình diễn Scraping web Python)

Phần 1: bình chọn nguồn dữ liệu

Chúng tôi có thể bắt đầu cạo bằng cách mở trang web mà bạn muốn cạo, trong trình duyệt hâm mộ của bạn. Để trích xuất thông tin, bạn sẽ cần phải hiểu cấu trúc của website việc làm.Khám phá trang webTruy cập trang web quái thú và kiếm tìm kiếm quá trình của bên phát triển phần mềm ở Dublin bằng phương pháp sử dụng tìm kiếm gốc của trang web quái vật.

*
PinViệc tra cứu kiếm trả về không hề ít danh sách vấn đề làm. Bạn có thể xem list các các bước ở phía mặt trái. Khi chúng ta nhấp vào một công việc cụ thể, chúng ta cũng có thể xem mô tả chi tiết hơn về quá trình đó ở phía bên phải. Ngoại trừ ra, khi bạn nhấp vào một công việc cụ thể, hãy thông tin rằng URL trong thanh địa chỉ cửa hàng của trình coi sóc cũng cố đổi.
*
PinHiểu tin tức được mã hóa vào URLURL đựng nhiều thông tin được mã hóa. Các bạn sẽ dễ dàng thao tác làm việc với việc tìm kiếm trên web hơn nhiều nếu bạn đã thân quen với cách hoạt động vui chơi của các URL và những thông tin mà nó chứa. Đây là URL của trang web shop chúng tôi đang sử dụng cho hướng dẫn này:

https://www.monster.com/jobs/search/?q=Software-Developer&where=DublinChúng tôi hoàn toàn có thể chia URL thành nhị phần chính:URL cơ sởĐường dẫn đến tính năng tìm tìm của trang web thay mặt đại diện cho URL cơ sở. URL cơ sở trong lấy ví dụ của công ty chúng tôi là “https://www.monster.com/jobs/search/”Tham số tróc nã vấnCác giá chỉ trị bổ sung được khai báo bên trên trang web thay mặt đại diện cho những tham số tróc nã vấn. Những tham số tầm nã vấn trong lấy ví dụ như của cửa hàng chúng tôi là “? Q = Software-Developer & where = Dublin”. Chúng ta cũng nói theo một cách khác rằng phần đông thứ hiện diện sau "?" vào URL là những tham số tầm nã vấn.Bạn hoàn toàn có thể nhận thấy rằng URL đại lý vẫn duy trì nguyên. Các tham số truy vấn vấn chuyển đổi dựa trên tiêu chí tìm kiếm. Bài toán sử dụng các tham số truy hỏi vấn tương tự như như cách những chuỗi tróc nã vấn được áp dụng trong cơ sở dữ liệu để tra cứu nạp các bạn dạng ghi núm thể.Thông số truy vấn vấn thường xuyên được sinh sản thành từ bỏ 3 trang bị sau:

Khởi đầu

Dấu chấm hỏi "?" cho biết thời điểm bắt đầu tham số tróc nã vấn.Thông tinTham số tróc nã vấn chứa tin tức được mã hóa theo cặp khóa-giá trị. Dấu bằng nối các khóa với giá trị khớp ứng với nhau (key = value).máy phân lyURL bao gồm thể đựng nhiều tham số truy vấn vấn. Ký kết hiệu và (&) phân bóc từng tham số truy tìm vấn.Kiểm tra URL của chúng tôi dựa trên thông tin trên. URL của shop chúng tôi có hai cặp khóa-giá trị:q = Nhà cải cách và phát triển phần mềm, xác minh loại quá trình chúng tôi đã tìm kiếm.where = Dublin, đại diện thay mặt cho địa chỉ mà cửa hàng chúng tôi đang tra cứu kiếm.Nếu bạn đổi khác tiêu chí tìm kiếm kiếm, những tham số tầm nã vấn sẽ được đổi khác tương ứng. Hãy kiểm tra điều đó bằng phương pháp thay đổi các tiêu chí tìm kiếm như bên dưới:

*
URL sẽ là:https://www.monster.com/jobs/search/?q=Software-Developer&where=IndiaBạn cũng có thể thay đổi các tham số truy vấn vào URL, tiêu chuẩn tìm kiếm đã được đổi khác tương ứng. Thay đổi URL và khám nghiệm thanh tìm kiếm kiếm.https://www.monster.com/jobs/search/?q=Software-Developer&where=AustraliaKết quả tìm kiếm hoàn toàn có thể được sửa đổi bằng phương pháp thay đổi dữ liệu trong thanh tra cứu kiếm hoặc tham số truy nã vấn trong URL. Bằng cách hiểu thông tin có trong URL, chúng ta cũng có thể lấy tài liệu từ trang web.Kiểm tra trang webBạn bắt buộc hiểu cấu tạo của một trang web, nhằm truy xuất dữ liệu bạn muốn. HTML chịu trách nhiệm về phong thái trang web được cấu trúc để hiển thị. Bạn sẽ nhận được đánh giá HMTL của một website bằng Công cụ dành riêng cho nhà vạc triển.

Tất cả các trình chú tâm web tân tiến đều gồm một bộ công cụ dành riêng cho nhà cải tiến và phát triển cũng táo tợn mẽ. Với những luật này, chúng ta cũng có thể thực hiện rất nhiều việc, từ việc kiểm tra HTML, CSS cùng JavaScript hiện đang tải mang lại hiển thị câu chữ nào cơ mà trang sẽ yêu mong và thời hạn tải chúng.Trong trả lời này, bọn họ sẽ xem cách thao tác với những công cụ giành riêng cho nhà cải tiến và phát triển của trình ưng chuẩn Chrome. Trong trình chăm chút Chrome, bao gồm 2 phương pháp để mở các công cụ dành riêng cho nhà phát triển.Một tùy chọn bên trong thanh menu, View-> Developer-> Developer tools.Một tùy chọn khác là nhấn vào phải vào trang web và chọn Kiểm tra.Bạn hoàn toàn có thể tương tác cùng với DOM của trang web thông qua các công cụ giành cho nhà phân phát triển. DOM là 1 trong giao diện đa gốc rễ và tự do với ngôn ngữ cho phép các công tác và tập lệnh truy cập động và update nội dung, cấu tạo và kiểu của tài liệu. Bằng cách chọn tab thành phần trong công cụ giành riêng cho nhà phạt triển, bạn cũng có thể bắt đầu đào sâu vào DOM của trang web. Chúng ta cũng có thể chỉnh sửa, mở rộng và thu gọn các bộ phận trong trình duyệt.

*
PinNhững gì ai đang thấy không gì không giống ngoài kết cấu HTML của trang web. Nếu bạn muốn kiểm tra một quá trình cụ thể, hãy bấm chuột phải vào quá trình đó và chọn kiểm tra. Các bạn sẽ được đưa đến nơi phần tử nằm trong DOM. Bạn có thể di loài chuột qua câu chữ HTML với các chuyển đổi tương ứng sẽ được đánh dấu trên trang web.

Nếu các bạn hiểu kết cấu của trang web một cách xuất sắc hơn, bạn sẽ dễ dàng thu thập dữ liệu hơn. Trường hợp bạn băn khoăn lo lắng về điều này, chớ lo lắng, chúng tôi sẽ chỉ trích dẫn mọi phần thú vui với Beautiful Soup.

Phần 2: Chỉnh sửa website cho ngôn từ HTML

Vì bạn đã có ý tưởng cơ bạn dạng về rất nhiều gì chúng tôi đang làm việc, hãy lấn sân vào phần python. Những bước đầu tiên tiên, họ cần rước mã HTML của website vào tập lệnh Python của mình. Đối với tác vụ này, chúng ta cần tủ sách yêu mong của Python. Hãy cài đặt các yêu cầu bằng cách gõ lệnh tiếp sau đây vào sản phẩm đầu cuối của bạn.pip install requestsĐi tới trình soạn thảo văn phiên bản của các bạn và mở một tệp python mới. Dưới đấy là đoạn mã để đưa mã HTML của một trang web sử dụng Python.import requestsURL='https://www.monster.com/jobs/search/?q=Software-Developer&where=Dublin'page=requests.get(URL)URL của website mà chúng tôi sắp sửa được gán cho đổi thay URL. Trong khúc mã trên, shop chúng tôi đang thực hiện một yêu ước HTTP mang lại URL. Chúng tôi đang dìm được bình luận từ sever và giữ nó vào trong 1 biến được gọi là trang. Bạn cũng có thể xem dữ liệu HTML mà chúng tôi nhận được, bằng phương pháp in trực thuộc tính nội dung.print(page.content)Đầu ra không có gì khác quanh đó nội dung HTML mà chúng ta đã thấy vào tab phần tử của những công cụ giành riêng cho nhà vạc triển. Nếu bạn có nhu cầu cải thiện kết cấu của bí quyết mã HTML được hiển thị vào bảng điều khiển, thì hãy sử dụng pprint thay vì chưng in. Nếu như bạn muốn tìm hiểu thêm về pprint thì hãy xem tư liệu Python chính thức.

import requestsimport pprintURL='https://www.monster.com/jobs/search/?q=Software-Developer&where=Dublin'page=requests.get(URL)pp = pprint.PrettyPrinter()pp.pprint(page.content)Trang web tĩnhChúng tôi đang tìm kiếm một website tĩnh cho chỉ dẫn này. Máy chủ gửi lại toàn bộ nội dung HTML, tín đồ dùng hoàn toàn có thể nhìn thấy.Dưới đó là mã HTML của một tin tuyển vẻ ngoài thể. Mã trông dài và nặng nề hiểu.

qqlive| j88