
Hỏi về nguyên tắc hoạt động của những website tổng hợp tin tức tự động
Hiện nay tôi thấy có các website có chức năng tổng hợp tin tức tự động từ nhiều nguồn tin tức và báo điện tử khác...Các website như là
www.vietf.vn
www.tin247.com
www.baomoi.com
Tôi ko hiểu lắm nguyên lý và cách vận hành của các website này...làm sao mà 1 trang web có thể chứa đầy đủ thông tin từ tất cả các trang khác. Thay vì phải đọc tin ở nhiều trang thì chúng ta chỉ cần đọc ở 1 trang là biết đây đủ thông tin
Cảm ơn mọi người...

1. Dùng hàm load toàn bộ nội dung trang web cần lấy (file_get_contents [php]...)
2. View source trang web cần lấy xem cấu trúc html div, css thế nào
3. Dùng hàm xử lý chuổi+ biểu thức chính quy lọc đoạn thông tin cần lấy.
4. Hiển thị

Chắc bạn muốn code đoạn xử lý như vậy hả :D Phần xử lý này cần nhất là đoạn load html page và cắt html content hoặc link, quan trọng là bạn nắm được bố cục của teamplate trang cần lấy thông tin. Ví dụ như trang muốn lấy tin từ trang dantri, bạn định hướng phân vùng lấy thông tin, cắt lấy link, xong load page, cắt title, mô tả và chi tiết bài viết. Sau đó tự động update vào cơ sở dữ liệu. Nói đơn giản là như vậy, chứ xử lý cũng nhiêu khê lắm. Nói chung nếu bạn code chưa cứng thì xử lý vấn đề này nan giải và lâu đấy, còn cứng tay thì cũng phải test chán mới ok. :D