HTML PDF động

Adobe's Portable Document Format (PDF) là định dạng tài liệu phổ biến thứ hai trên Internet. Mặc dù HTML có thể là thứ xa vời nhất, nhưng PDF là tiêu chuẩn trên thực tế cho các tài liệu Web yêu cầu bố cục và in ấn chính xác

Lợi ích của PDF so với HTML bao gồm tính độc lập của trình duyệt, tăng cường bảo mật và mức độ kiểm soát cao hơn nhiều đối với bản trình bày của tài liệu cho người dùng cuối. Ví dụ: các tài liệu PDF xuất hiện dưới dạng bản in giống như trên màn hình, trong khi các tài liệu HTML không có gì đảm bảo về hình thức của chúng khi được in ra

Thay vì cạnh tranh, các định dạng PDF và HTML có xu hướng cùng tồn tại trên Web. Điều này chủ yếu là do nhược điểm của công nghệ PDF. Các tệp PDF thường lớn hơn nhiều so với các tệp HTML và các trình duyệt phải sử dụng trình cắm Adobe Acrobat để đọc chúng. Sau đó, đối thủ cạnh tranh gần nhất là định dạng tài liệu Microsoft Word. Tuy nhiên, hầu hết mọi người thích PDF hơn Word để hiển thị tài liệu vì việc tạo các thiết kế phức tạp trong PDF dễ dàng hơn và định dạng này có thể di động trên nhiều nền tảng

Tuy nhiên, điều hơi ngạc nhiên là rất ít ứng dụng Web xuất tệp PDF. Có rất nhiều tài liệu PDF trên Web, nhưng chỉ một số ít trong số chúng được tạo động. Có thể lập luận rằng lý do cho điều này là do các tài liệu PDF không thực tế trong một số trường hợp. Điều này đúng, nhưng cũng có một số trường hợp đáng kể trong đó tài liệu PDF là lựa chọn tốt nhất. Các biểu mẫu thuế trực tuyến, chẳng hạn như các biểu mẫu được tạo bởi TurboTax cho Web (www. tua bin. com), phải được in ra theo cách không sửa đổi định dạng bắt buộc của chính phủ

Một phần quan trọng trong công việc của tôi liên quan đến hệ thống quản lý tài liệu. Các tài liệu tôi xử lý chủ yếu là hình ảnh bán hàng và là tài liệu PDF được tạo thủ công từ các cơ sở dữ liệu nhân khẩu học và nghiên cứu khác nhau. Sẽ hiệu quả hơn nhiều nếu tạo động 20 đến 30 nghìn tài liệu này từ một mẫu thay vì dựa vào các tác giả của con người

Các ứng dụng xuất thông tin ở định dạng PDF có thể khó viết hơn các ứng dụng xuất thông tin HTML. May mắn thay, Adobe và các nhà cung cấp khác có sẵn các công cụ và tài nguyên cho phép bạn tạo tài liệu PDF hoặc thao tác với các tệp PDF hiện có theo chương trình. Tôi nhận thấy FDF, công cụ Định dạng Dữ liệu Biểu mẫu của Adobe, khá đơn giản khi được sử dụng để tạo các biểu mẫu dựa trên PDF. Tôi cũng đã sử dụng PDFlib để tạo tài liệu PDF bằng Active Server Pages

Tài liệu từ đầu

Mỗi tệp PDF mô tả một loạt các đối tượng phân cấp. Việc bố trí và sử dụng các đồ vật tuân theo một khuôn mẫu thông thường (xem Hình 1). Tuy nhiên, xuất bất cứ thứ gì ngoài tài liệu 'Xin chào thế giới' đơn giản trong Ví dụ 1 (xem hộp có tiêu đề "Giải phẫu tệp PDF") có thể là một nhiệm vụ khá phức tạp

Nếu bạn đang viết các ứng dụng của mình bằng tập lệnh ASP, bạn có thể sử dụng các đối tượng ActiveX để che giấu một số sự phức tạp. ActivePDF của Tim O'Sullivan là một giải pháp. PDFlib của Thomas Merz là một cái khác. Tập lệnh ASP trong Liệt kê 1 sử dụng PDFlib với VBScript. Bạn có thể tìm tham chiếu đến một ví dụ tương tự bằng cách sử dụng activePDF trên Web (xem "Trực tuyến")

Liệt kê 1 tạo một bảng kê khai bán hàng cho từng khách hàng trong cơ sở dữ liệu Northwind (cơ sở dữ liệu ví dụ mà Microsoft cung cấp cùng với sản phẩm Access của mình). Ví dụ này sẽ chỉ hoạt động trên máy chủ Web IIS, nhưng PDFlib cũng có sẵn cho Perl và Java, do đó sẽ khá đơn giản để chuyển đổi tập lệnh để sử dụng trên máy chủ của riêng bạn. Tập lệnh lặp qua các bản ghi khách hàng và xuất ra một mẫu đơn đặt hàng cho mỗi. Tất cả các vị trí trên trang đều được mã hóa cứng. Ngoài ra, lưu ý rằng trong một ứng dụng thực tế, bạn cần tạo một trang mới nếu có quá nhiều mục để vừa trên một trang. Hình 2 hiển thị một trang từ đầu ra 91 trang

PDFlib phù hợp với các thiết kế dựa trên mẫu và giống như activePDF, cũng sẽ cho phép bạn nhập hình ảnh vào tài liệu của mình

Thao tác các tệp PDF hiện có

Nếu bạn không muốn tạo tệp PDF từ đầu thì sao? . Nó phân tích các tệp PDF thành các đối tượng và cho phép bạn chèn các đối tượng khác như đầu trang và chân trang theo chương trình

Tôi đã sử dụng PJ của Etymon để giải nén hoặc xì hơi các tệp PDF trước khi phân tích cú pháp chúng bằng các tiện ích lex và yacc để lấy ra các tiêu đề trong thư mục trang vàng. PJ là một công cụ Java và hoàn chỉnh với mã nguồn. Bạn có thể đọc thêm về PJ trong số tháng 10 năm 1998 của Kỹ thuật Web (xem "Trực tuyến")

Các hình thức

Mặc dù tiêu chuẩn CGI mang lại tính tương tác cho Internet, nhưng các biểu mẫu HTML lớn có thể cồng kềnh và rất khó điều hướng. Cách tiếp cận giống như thuật sĩ có thể làm cho một số biểu mẫu HTML trực quan hơn, nhưng các nhà phát triển thường tìm kiếm những cách tốt hơn để hiển thị biểu mẫu trên Web. PDF, với FDF của nó, chỉ cung cấp một giải pháp thay thế như vậy. Biểu mẫu được thiết kế bằng PDF có giao diện người dùng dễ chịu hơn nhiều so với biểu mẫu HTML tương đương. Tất nhiên, người dùng phải có trình đọc Acrobat Reader để sử dụng chúng

Các bước sau đây được yêu cầu để kích hoạt tệp FDF

  • Tạo hoặc quét biểu mẫu của bạn trong Word, Photoshop hoặc bất kỳ công cụ nào khác
  • Xuất hoặc chắt lọc tài liệu sang PDF
  • Sử dụng công cụ Acrobat Exchange Form để xác định các thành phần của biểu mẫu (xem Hình 3)
  • Thêm một nút gửi
  • Xây dựng tập lệnh máy chủ back-end
  • Liên kết URL với tập lệnh phía máy chủ

Các đối tượng biểu mẫu PDF rất giống với các đối tượng biểu mẫu HTML. Bạn sẽ tìm thấy các nút, hộp kiểm, hộp tổ hợp, hộp danh sách, nút radio và hộp văn bản trong Exchange Form. Bạn thậm chí có thể nhúng logic phía máy khách vào các biểu mẫu bằng JavaScript. Ví dụ 2 hiển thị tập lệnh ASP tạo FDF để cập nhật các trường datetime trong biểu mẫu phía máy khách

Mix Media có một số ví dụ tuyệt vời như biểu mẫu 1040 và ứng dụng cấp giấy phép lái xe do chính bạn xây dựng trên trang Web của họ. Malcolm Guthrie của Mix Media cũng đã xuất bản một cuốn sách có tựa đề Forms. Tương tác cho World Wide Web (Adobe Press), đi sâu vào chi tiết về cách tạo các biểu mẫu thực tế. Nó không cung cấp nhiều thông tin về tương tác tập lệnh phía máy chủ, nhưng dù sao nó cũng là một tài nguyên đáng giá

Phần kết luận

Mặc dù Adobe hỗ trợ tạo PDF động thông qua SDK PDF và FDF, nhưng họ đã từng cung cấp hỗ trợ tốt hơn cho lập trình PDF với Thư viện Adobe PDF. Thật không may, Adobe đã ngừng cung cấp thư viện này, có lẽ vì họ sợ thư viện có thể ăn vào doanh số Acrobat của mình. Một phiên bản mới—và có lẽ ít đe dọa hơn sẽ ra mắt trong năm nay. Cho đến lúc đó, bạn sẽ phải dựa vào các nhà cung cấp khác. Rất may, hiện nay có quá nhiều công cụ để cho phép bạn thao tác và tạo các tệp PDF trên Web

(Lấy mã nguồn bài viết tại đây. )


Godfrey là nhà tư vấn phần mềm và kiến ​​trúc web, đồng thời là chủ tịch của RIIS LLC tại khu vực Detroit. Có thể liên hệ với anh ấy tại godfrey@riis. com

Làm cách nào để tạo tệp PDF động từ HTML?

Ví dụ đơn giản này minh họa việc chuyển đổi tài liệu HTML thành PDF dưới dạng mảng byte. .
Tạo một phương thức tĩnh mới có tên ConvertWriteToByteArrayNoInputHtml
Tạo một phiên bản ConversionOptions mới và chuyển Kích thước trang. .
Tạo một thể hiện đối tượng URI mới và chuyển URL CNN tới hàm tạo

Dynamic PDF có miễn phí không?

Đây là công cụ miễn phí để chuyển đổi tài liệu HTML sang PDF hoặc hợp nhất nhiều tệp PDF lại với nhau.

Làm cách nào để nhúng PDF vào HTML?

Sử dụng thẻ iframe là cách thứ hai để nhúng tệp pdf vào trang web HTML. Trong quá trình phát triển web, các nhà phát triển web sử dụng thẻ iframe để nhúng các tệp ở nhiều định dạng khác nhau và thậm chí các trang web khác trong một trang web. Do khả năng tương thích rộng rãi, thẻ iframe được sử dụng rộng rãi để nhúng pdf.

Làm cách nào để chuyển đổi PDF sang HTML mà không làm mất định dạng?

Các bước chuyển PDF thành trang web. .
Mở tệp bạn muốn chuyển đổi trong trình chỉnh sửa PDF của mình
Chọn nút Tạo & Chỉnh sửa trên thanh công cụ bên phải
Nhấp vào Xuất PDF ở đầu cửa sổ
Chọn Trang web HTML và chọn các tùy chọn của bạn. .
Nhấp vào Xuất và chọn thư mục mà bạn muốn lưu trang mới của mình