แปลงไฟล์ เพชรพระอุมา

by Little Bear @24 ก.ค. 55 18:03 ( IP : 122...199 ) | Tags : Convert , วรรณกรรม

ได้ไฟล์ PDF เรื่อง "เพชรพระอุมา" หลายเล่ม แต่เป็น PDF ที่ไม่สามารถอ่านกับ Nook ได้เลย สระบนล่างหายเกลี้ยง ก็เลยต้องหาทางทำไฟล์ PDF ใหม่ โดยแปลงด้วย Calibre ให้เป็น text พอแปลงเสร็จก็เอา text มาใส่ LibreOffice Writer แต่ทว่า.... ข้อความที่สำเนามาจาก PDF มันมีการขึ้นบรรทัดใหม่ทุกบรรทัด เลยต้องมานั่งหา pattern ในการเชื่อมบรรทัด ก็ได้ประมาณนี้ (แต่ต้องทำกับ Geany เนื่องจากต้องใช้ regular expressions)

 1. ลบบรรทัดว่าง
  \n\n = \n
 2. เชื่อมบรรทัด
  \n([\w]) = \1
 3. ลบเลขที่หน้า
  \n\n[0-9][0-9][0-9][0-9] = 
 4. ลบบรรทัดว่าง
  \n\n = \n