Thai OCR in Google Docs

ไปเห็นข่าว Google Docs รองรับ OCR ภาษาไทยแล้ว ก็มาลองเล่นดูเองบ้าง โดยลองตัดเอาข้อความจากหนังสือเล่มหนึ่งมาลองดู ปรับรูปให้เป็นภาพขาวดำ เพื่อให้ OCR ทำงานได้ง่ายขึ้น แต่ลองดูแล้วเหมือนจะไม่ช่วยสักเท่าไหร่

ดูแล้วยังเละเกินกว่าจะใช้งานจริงๆ ได้ จากเท่าที่เคยลองมา ดูเหมือนว่าในงาน OCR ภาษาไทยนี่ยังไม่มีโปรแกรมที่จะใช้งานได้จริงจังสักตัวเลย

ย่อรูปลง Facebook

ความห่วยของ Facebook อย่างหนึ่งคือ รูปภาพที่อัปโหลดขึ้นไป จะถูกย่อขนาดลงให้เหลือกว้างxยาวไม่เกิน 720 pixel แถมยัง quality ลดลงอีกด้วย ลองเอารูปถ่ายเดียวกันอัปโหลดขึ้น Facebook เทียบกับ Flickr จะเห็นความแตกต่างด้านคุณภาพอย่างชัดเจน

ดังนั้น ถ้าเราเอาไฟล์ภาพคุณภาพสูงอัปโหลดขึ้น Facebook มันก็ออกจะเสียเวลา เปลือง bandwidth ไปซะเปล่าๆ เรามาย่อรูปกันก่อนอัปโหลดดีกว่า

ย่อรูปด้วย sips

บน Mac OS X มีคำสั่งชื่อว่า sips เอาไว้สำหรับย่อรูป วิธีใช้งานก็ตรงไปตรงมา เช่นถ้าจะย่อรูปให้เหลือกว้างxยาว ไม่เกิน 720 pixel ก็ใช้คำสั่งตามนี้

$ sips -Z 720 photo.jpg

ลดคุณภาพด้วย jpegoptim

แค่การลดความละเอียดภาพอย่างเดียว อาจจะยังได้ไฟล์ไม่เล็กพอ ก็มีคำสั่ง jpegoptim สำหรับ optimize ภาพ JPEG ให้มีขนาดเล็กลงได้ แต่พอดีคำสั่งนี้ไม่มีติดมากับ OS X ถ้าต้องการใช้งาน ก็ลงผ่าน fink จะง่ายที่สุด

$ sudo fink install jpegoptim

วิธีใช้ jpegoptim ก็ระบุคุณภาพของภาพที่ parameter -m เช่น

$ jpegoptim -f -m80 --strip-all photo.jpg

เวลาจะย่อทีละหลายๆ ภาพก็เขียน bash script สักเล็กน้อย

$ for f in *.jpg do; sips -Z 720 "$f"; jpegoptim -f -m80 --strip-all "$f"; done

ลองทำตามขั้นตอนนี้ สามารถย่อภาพ JPEG จำนวน 450 รูป ขนาดรวม 750 MB ให้เหลือแค่ 28 MB ได้ อัปโหลดขึ้น Facebook ไม่นานก็เสร็จ

Artist Cloud

ไปเจอเว็บ Last.fm Tools เป็นเว็บที่เอาข้อมูลการฟังเพลงจาก Last.fm ของเรามาทำ visualize สวยๆ

ลองใช้งาน Artist Cloud ดู (ศิลปินที่ฟังบ่อย)

อันที่เป็นตัวคันจิใหญ่ๆ นั่นคือ Shiro Sagisu คนทำ soundtrack ของ Evangelion

We’re under surveillance

เช้าวันที่ 14 ธันวาคม เข้า scribd แล้วเจอ request แปลกๆ ตามรูป ทำให้เปิดดูอะไรในเว็บไม่ได้เลย

MICT on scribd

มีคนอื่นเจออาการคล้ายๆ กัน แตกต่างกันไปตาม ISP เว็บที่เข้าไม่ได้มีตั้งแต่ flickr, twitter, amazon s3

นี่มันเกิดอะไรขึ้น? MICT กำลังจับตาดูเราอยู่ใช่มั้ย?

I believe that bits exist to be copied

“I believe that we live in an era where anything that can be expressed as bits will be. I believe that bits exist to be copied. Therefore, I believe that any business-model that depends on your bits not being copied is just dumb, and that lawmakers who try to prop these up are like governments that sink fortunes into protecting people who insist on living on the sides of active volcanoes.”

- Cory Doctorow

FYI – แรงบันดาลใจ