Đôi lúc bạn cần lấy nội dung trong tệp PDF ra để sử dụng vào việc khác. Chính vì lý do đó mà đôi khi ta cảm thấy khó chịu khi không tài nào lấy được nội dung dạng “rich content” ra khỏi tệp PDF. Học Excel Online sẽ giúp bạn giải quyết triệt để vấn đề này
Chẳng hạn nếu bạn thử sao chép một bảng gồm nhiều hàng dữ liệu từ 1 tệp PDF và dán vào trong Word, kết quả bạn nhận được sẽ là 1 dải ký tự thẳng hàng giống như hình ở dưới. Phần lớn các phần mềm đọc tệp PDF hiện nay về bản chất chỉ cho người dùng được trải nghiệm nội dung dưới dạng “chỉ được nhìn, không được động” mà thôi.
Tuy vậy, một chức năng mới trong Word sắp sửa được cập nhật với cái tên là PDF Reflow sẽ thay đổi tất cả, khi đó bạn hoàn toàn có thể chuyển đổi tệp PDF thành 1 tệp Word có khả năng chỉnh sửa được.
Xem thêm: hướng dẫn cách chỉnh sửa file PDF bằng Microsoft Word
Mục đích sử dụng
Mục đích PDF Reflow được tạo ra là để chuyển đổi nội dung PDF sang văn bản Word mà không làm thay đổi bố cục văn bản đồng thời vẫn trải đều bố cục các trang trong quá trình bạn đọc và chỉnh sửa. Nói cách khác, sau khi chuyển đổi thì trên màn hình soạn thảo sẽ xuất hiện nội dung văn bản mới với cách thức trình bày giống hệt như khi bạn tự tạo 1 văn bản bằng Word vậy. Chẳng hạn khi bạn chuyển đổi 1 danh sách từ PDF sang Word thì các chức năng tạo danh sách vẫn không thay đổi: khi bạn nhấn Enter để tạo 1 gạch đầu dòng mới thì lập tức 1 dấu đánh số dòng sẽ xuất hiện ở đầu câu.
Chức năng mới này không nhằm để thay thế trình đọc văn bản Reader, ví dụ trong Windows 8, mà thay vào đó nó giống một công cụ chuyển đổi giúp bạn có thể xâm nhập sâu hơn vào nội dung của PDF. Tất cả các phiên bản PDF đều được chức năng này hỗ trợ, tuy vậy do yêu cầu phải bố cục lại nội dung văn bản nên chức năng này sẽ hoạt động tốt nhất với các tệp PDF dạng văn bản thuần túy, ví dụ như các mẫu hợp đồng kinh doanh hoặc văn bản pháp lý. Đối với các tệp PDF chứa nhiều hình ảnh và đồ họa, ví dụ như các slide thuyết trình hoặc mẫu quảng cáo, việc chuyển đổi có thể gây ra lỗi giống như hình minh họa ở trên.
Ví dụ hình minh họa như sau. Phần văn bản ở cột đầu tiên sẽ được dãn dòng khác đi, trong khi dòng đầu tiên của cột thứ hai lại bị di chuyển lên thành dòng cuối cùng của cột 1. Nội dung văn bản gốc vẫn được giữ nguyên, tuy nhiên do chức năng PDF Reflow chú trọng vào tính năng chỉnh sửa văn bản sao cho cân đối hoàn hảo với toàn bộ nội dung cửa sổ trình duyệt nên một số phần nội dung sẽ bị dịch chuyển một chút.
Nói vậy không có nghĩa là tôi không cố gắng hết sức để mang đến cho bạn 1 file PDF được chuyển đổi hoàn chỉnh! Chẳng hạn, đây là một tệp PDF chứa slide PowerPoint. PDF Reflow sẽ chuyển đổi tệp này thành tệp Word, đồng thời giữ nguyên nội dung, tuy vậy các ký tự sẽ bị gói gọn trong hộp ô chữ và nếu bạn có viết thêm ký tự mới thì toàn bộ nội dung văn bản sẽ không được trải đều ra màn hình soạn thảo.
Lưu ý rằng PDF Reflow luôn tạo 1 bản sao trong quá trình chuyển đổi. Nếu kết quả sau đó không được như mong đợi, bạn vẫn có thể yên tâm là nội dung tệp PDF gốc vẫn được giữ nguyên.
PDF là một định dạng tệp cố định, có nghĩa là tệp này sẽ lưu trữ vị trí các hình ảnh và đồ họa có trong trang, nhưng không nhất thiết phải kèm theo mối liên hệ giữa chúng. Phần lớn các tệp PDF đều không thể xác định được các thành phần bố cục nội dung, chẳng hạn như đoạn văn, bảng biểu hoặc cột. Ví dụ với bảng số liệu như sau, không có đủ thông tin để ta có thể biết được chắc chắn rằng từng giá trị phải nằm trong từng ô trống riêng lẻ. Thay vào đó, ta chỉ biết rằng các giá trị sẽ đứng liền kề phía sau của nhau mà thôi.
Ta có thể dễ dàng nhìn thấy cấu trúc của bảng với số liệu nổi lên trên, tuy vậy phía dưới PDF luôn mặc định bảng được định dạng là một chuỗi các đường thẳng cố định hoàn toàn. (PDF cũng sử dụng các dạng đường thẳng này để thể hiện các nét gạch chân, nét gạch ngang, hoặc thậm chí là cả đồ thị.) Cụ thể như sau:
Thực tế không có dấu hiệu nào cho thấy trong tệp PDF này các ký tự chữ và các đoạn thẳng có liên kết với nhau, hoặc nói cách khác về mặt logic chúng không thực sự kết hợp với nhau để trở thành các ô trống chứa dữ liệu của bảng.
Khi bạn thử mở một tệp PDF trong Word 2013, PDF Reflow sẽ dựng một cửa sổ soạn thảo Word 2013 từ đó, và người dùng có thể dễ dàng chỉnh sửa nội dung hay tái sử dụng lại. Để đạt được điều này, nó sử dụng một hệ thống các quy tắc để tiên đoán xem loại ký tự Word nào (tiêu đề, danh sách chọn, bảng, v.v.) sẽ thể hiện nội dung giống với văn bản PDF gốc nhất. Dưới đây là ảnh minh họa về cách bảng số liệu sẽ biến đổi ra sao sau khi PDF Reflow sử dụng thuật toán tự khám phá để dựng lại bố cục của bảng cũng như nội dung dữ liệu từ các đường thẳng và các ký tự riêng lẻ.
Hướng dẫn thao tác sử dụng
PDF Reflow hiện sẵn có trong Word 2013 vì thể bạn có thể mở bất cứ một tệp PDF tương tự như các dạng văn bản khác. Trên thành Ribbon hãy click vào tab File,và click chọn Open trong thanh chức năng. Tìm đến đường dẫn chứa tệp PDF và lựa chọn tệp mà bạn muốn chuyển đổi! Khi ấy những nội dung bị khóa chế độ chỉnh sửa trong PDF sẽ được sử dụng một cách bình thường.