ข้อผิดพลาดของ Google Book Search ในเชิงเมทาดาตา

ในขณะที่หลายฝ่ายกำลังวิจารณ์ข้อตกลงในเรื่อง Google Book มีงานเขียนใน The Chronicle ที่น่าสนใจชิ้นหนึ่ง เกี่ยวกับความผิดพลาดของการสร้างเมทาดาตา (metadata) อัตโนมัติของ Google Book โดย Geoffrey Nunberg จาก UC Berkeley

ในช่วงต้นของบทความ Nunberg ใช้เวลาอธิบายความเชื่อที่ว่า ไม่ว่าผลของการพิจารณาเรื่องข้อตกลงจะออกมาในรูปแบบไหน Google Book ก็จะกลายเป็นมหาอำนาจทางความรู้ไปอย่างไม่แทบจะต้องสงสัย ถึงกับบอกว่า "เป็นที่ประจักษ์แล้วว่า Google Book นั้นกำลังมุ่งสู่การเป็นห้องสมุดดิจิตอลที่ใหญ่ที่สุดในโลก ที่สำคัญไม่ยิ่งหย่อนไปกว่านั้นก็คือ เกือบจะแน่นอนแล้วว่าจะเป็นแห่งสุดท้ายด้วย"

แต่ด้วยการที่ Google เจริญเติบโตมาด้วย search engine, อัลกอริทึ่มการค้นคืน (retrieval algorithm), ข้อมูลเต็มรูป (full-text), และสารสนเทศในฐานะผลผลิตของการสื่อสาร จึงไม่ได้ให้ความสำคัญกับเมทาดาตามากนัก การขาดการดูแลเมทาดาตานี่เอง ก็ดูเหมือนจะเป็นมหันตภัยอันร้ายแรงสำหรับวงการวิชาการเลยทีเดียว


ข้อผิดพลาด

Nunberg ชี้ให้เห็นข้อผิดพลาดของระบบการสร้างเมทาดาตาอัตโนมัติ ใน 2 จุดสำคัญ

จุดแรก คือการให้ข้อมูลเกี่ยวกับปีพิมพ์ หากมองเผิน ๆ การ extract ข้อมูลปีพิมพ์ของหนังสือ ก็ดูเหมือนจะไม่ใช่เรื่องยากอะไร เพราะหนังสือแทบทุกเล่มก็มีปีพิมพ์เขียนไว้อยู่แล้ว แต่ปัญหาก็คือ หนังสือทุกเล่มไม่ได้มีมาตรฐานในการตีพิมพ์เหมือนกันหมด ว่าตัวเลขปีพิมพ์ต้องอยู่ที่ตำแหน่งไหน อย่างไร ตัวเลข 4 หลักที่สามารถใช้แสดงปีพิมพ์ได้ ก็ปรากฏอยู่เต็มหนังสือไปหมด บางครั้ง Google ก็ไปดึงเอาเลขปีเหตุการณ์ของเนื้อเรื่องวรรณกรรม (annus mirabilis) มาใช้เป็นปีพิมพ์ หรือดึงเอาปีพิมพ์ของหนังสือที่ถูกอ้างอิงในตัวเล่มมาใช้แทน นอกจากนี้ในกรณีที่ปกหนังสือเป็นรูปหน้าปกหนังสือเล่มอื่น ๆ ทำเอา Google สับสนได้เหมือนกัน

แน่นอนว่าความผิดพลาดเหล่านี้ มีผลกระทบต่อการสืบค้นอย่างแน่นอน ตัวอย่างแปลกประหลาดที่ผู้เขียนพบ อาทิเช่น เมื่อค้นคำว่า Internet ในหนังสือที่ตีพิมพ์ก่อนปี 1950 พบ 527 รายการ ในขณะเดียวกัน ก็มี 29 รายการ ในหนังสือที่มีคำว่า Barack Obama ก่อนปี 1812

จุดที่สอง คือ การให้หมวดหมู่ Nunberg ชี้ให้เห็นว่ามีการให้หมวดหมู่ที่ผิดพลาดมากมาย โดยเฉพาะการจัดหมวดหมู่ของเหล่าบรรดาหนังสือบันเทิงคดี (Fiction) ที่นำไปใช้ปนกับหนังสือสารคดีหรือหนังสือวิชาการอื่น ๆ นอกจากนี้ระบบหมวดหมู่ที่ใช้ (BISAC) ก็หยาบเกินไปที่จะใช้ในการกำหนดหมวดหมู่หนังสือจำนวนมหาศาลและมีความหลากหลายสูง BISAC เป็นเป็นหมวดหมู่มาตรฐานอุตสาหกรรมหนังสือ ที่เหมาะสำหรับการเดินดูหนังสือไปรอบ ๆ (browsing) ร้านขายหนังสือปลีกหรือห้องสมุดประชาชนขนาดเล็กเท่านั้น

นอกจากนี้ยังมีเรื่องของข้อผิดพลาดในเชื่อมโยงระหว่างชื่อเรื่องกับเนื้อหาของหนังสือ ในสไลด์ประกอบการบรรยายของ Nunberg ยังได้กล่าวถึง ข้อผิดพลาดในการระบุชื่อผู้แต่งหนังสืออีกด้วย

ถึงแม้ Google จะพยายามบอกว่า ข้อมูลเมทาดาตาทั้งหลายที่ได้มา ก็เอามาจากห้องสมุดทั้งนั้น แต่ Nunberg หักล้างว่า สิ่งที่ Google ทำอยู่ (อ้างอิงได้จากข้อผิดพลาดต่าง ๆ ที่ปรากฏ) ไม่ได้เป็นแบบแผนของห้องสมุดเลย อย่างไรก็ตาม Google ดูเหมือนจะยอมรับข้อผิดพลาดเหล่านี้ และกำลังปรับปรุงระบบการสร้างเมทาดาตาอัตโนมัติอยู่ ในขณะเดียวกันก็ตัดสินใจที่จะเอาข้อมูลหนังสือที่อยู่ในระบบห้องสมุดเข้ามาในระบบด้วย

คำถามก็คือ ทำไม Google จึงไม่ใช้ระบบที่ที่ห้องสมุดคิดค้นมาตั้งนานแล้วมาใช้ คำตอบก็คือ Google เชื่อมั่นในข้อมูลเต็มรูปแบบและระบบอัตโนมัติของตัวเองมากเกินไป


ข้อคิดเห็นในมุมมองของผู้ใช้

ข้อผิดพลาดของ Google ในเชิงเมทาดาตา ไม่เพียงแต่อยู่ในขอบเขตของ Google Book เท่านั้น แต่ยังรวมไปถึงการค้นคืนในเชิงวิชาการในรูปแบบอื่น ๆ ด้วย ตัวอย่างที่เห็นได้ชัด ได้แก่ Google Scholar นอกเหนือจากจะเป็นตัวเชื่อมเข้าไปยังข้อมูลเต็มรูปแล้ว Google Scholar ยังเป็นแหล่งข้อมูลรายการบรรณานุกรมที่สำคัญด้วย จากประสบการณ์ส่วนตัว จะพบข้อผิดพลาดเรื่องเมทาตาดาอยู่เสมอ ๆ โดยเฉพาะอย่างยิ่งข้อผิดพลาดในเรื่องผู้แต่งกับปีพิมพ์

ในด้านผู้แต่ง ดูเหมือนว่า Google Scholar จะไม่สามารถแยกแยะ ระหว่างผู้แต่ง บรรณาธิการ ผู้เขียนคำนิยม ผู้เขียนคำนำ ฯลฯ หลายครั้งที่พบว่า Google ก็เอาชื่อคนอื่นที่ไม่ใช่ผู้แต่งมาใส่กันไปมั่วไปหมด หากไม่ตรวจสอบให้ดี ก็อาจจะทำให้นำไปใช้ทั้งที่ผิด ๆ อย่างนั้นได้

ส่วนเรื่องปีพิมพ์นั้นก็มีลักษณะคล้ายกับที่ Nunberg ว่าไว้ แต่นอกเหนือจากนั้นก็ยังพบว่า Google ยังไม่สามารถตรวจสอบความแตกต่างของครั้งที่พิมพ์ได้ ในบางรายการที่หนังสือที่ตีพิมพ์ครั้งใหม่ แต่เปลี่ยนสำนักพิมพ์ หรือเพิ่มเติมชื่อเรื่อง ก็ให้ข้อมูลที่ไม่ถูกต้อง

เพราะฉะนั้นในฐานะผู้ใช้ ก็ต้องมีความระมัดระวังมากขึ้น ในการนำข้อมูลที่ได้จาก Google ไปใช้ และไม่ใช่เพียง Google Book หรือ Google Scholar เท่านั้น แต่ยังรวมไปถึงการค้นข้อมูลทางวิชาการจากเว็บไซต์โดยทั่วไป หรือผลิตภัณฑ์การค้นคืนของ search engine อื่น ๆ ด้วยเช่นกัน

อีกประเด็นหนึ่งที่น่าสนใจ และ Nunberg ได้เกริ่นไว้ในตอนท้าย ก็คือ Page Rank ที่ดูเหมือนเป็นสูตรสำคัญของ Google และทำให้ Google เป็นใหญ่ในยุทธจักร search engine นั้น ดูเหมือนว่าจะไม่สามารถตอบสนองคุณลักษณะเฉพาะของทรัพยากรประเภทหนังสือได้ เพราะผลการค้นของ Google Book ในปัจจุบัน ดูเหมือนว่ายังไม่เป็นที่พึงพอใจของทั้งผู้ใช้และบรรณารักษ์

Nunberg คาดหมายว่า เมื่อนำเอาข้อมูลจากห้องสมุดเข้าไปในระบบ ก็น่าจะทำให้การค้นคืนมีประสิทธิผลมากกว่านี้ นอกจากนี้ crowd sourcing ก็ดูเหมือนจะเป็นอีกช่องทางหนึ่งที่จะช่วยแก้ไขปัญหานี้ได้ ในความคิดของผู้เขียน หาก Google ร่วมมือกับ Amazon ก็น่าจะทรงพลังอย่างมหาศาล แต่ว่า Amazon นั้น ก็ประกาศตัวไปอยู่ฝั่งตรงข้ามเสียแล้ว แต่กระนั้นก็อย่าเพิ่งด่วนตัดสินใจ เพราะเมื่อสงครามยังไม่จบ (เพิ่งจะเริ่มต้นด้วยซ้ำ) ก็อย่านับศพทหาร นอกจากนี้ Google ยังสามารถหาพันธมิตรได้จากชุมชนอื่น ๆ อีกมาก แต่ปัญหาของ crowd sourcing ก็อยู่ที่ความไม่คงเส้นคงวา ความขัดแย้ง และสับสนในตัวเมทาดาตา

ทั้งหลายทั้งปวงที่กล่าวมานี้ เพื่อชี้ให้เห็นถึงความน่าเชื่อถือของ Google ถึงแม้หลายคนอาจจะบอกว่า ไม่ค่อยจะสำคัญเท่าไหร่ เพราะท้ายที่สุด ความน่าเชื่อถือนั้นก็ตกอยู่ที่เนื้อหาของข้อมูลที่ได้มาต่างหาก แต่ความน่าเชื่อถือที่กล่าวถึงนี้ เป็นความเชื่อมั่นว่า Google จะนำเสนอสิ่งที่ดีที่สุดมาให้กับผู้ใช้ ถึงแม้ว่าข้อมูลที่ได้มาจากการค้น Google เราคิดว่าดีแล้ว พอใจแล้ว แต่เราจะมั่นใจได้อย่างไรว่า ไอ้สิ่งที่ดีกว่า น่าพอใจกว่า จะไม่ถูกซุกซ่อนไปด้วยข้อผิดพลาด (ไม่ว่าจะเล็ก ๆ น้อย ๆ หรือใหญ่ ๆ ก็ตาม) ที่กล่าวมาข้างต้น


ข้อคิดเห็นในมุมมองของระบบ/ผู้ให้บริการสารสนเทศ

เราคงจะได้ยินอยู่เสมอว่า "คนที่ไม่เคยผิดพลาด คือ คนที่ไม่เคยทำอะไรเลย" เช่นเดียวกัน ใช่ว่าข้อมูลในระบบห้องสมุดจะไม่ผิดเอาเสียเลย ลองไปดูได้ว่า ในบรรดาสหรายการบรรณานุกรม (Union Catalog) ของห้องสมุดต่าง ๆ (รวมถึง Worldcat ของ OCLC) หรือของห้องสมุดสำคัญ ๆ อย่างห้องสมุดรัฐสภาอเมริกัน ห้องสมุดแห่งชาติอังกฤษ มีความคงเส้นคงวา หรือความถูกต้องมากน้อยแค่ไหน ไม่มีบัญชีรายการทรัพยากร (catalog) ของห้องสมุดใดที่ไม่มีข้อผิดพลาด ขึ้นอยู่กับว่า ห้องสมุดจะยอมรับกับข้อผิดพลาดได้มากน้อยแค่ไหน และมีวิธีตรวจสอบและแก้ไขเพื่อประกันคุณภาพของเมทาดาตาอย่างไร ฉะนั้นการที่ Google จะเอาข้อมูลจากห้องสมุดมาใช้ ก็ต้องคำนึงถึงข้อเท็จจริงข้อนี้เช่นกัน

บทเรียนครั้งนี้ อาจชี้ให้เห็นว่า ความสามารถของเทคโนโลยีในปัจจุบัน ยังจำกัดให้ตัวเทคโนโลยีมีบทบาทได้เพียงแต่ตัวช่วย (assist) ในการทำงานของมนุษย์ ไม่ใช่ทำแทน(replace) มนุษย์ ทั้งสององค์ประกอบต่างมีข้อผิดพลาดด้วยกันทั้งคู่ จะทำอย่างไรให้ระบบมีประสิทธิผลสูงสุดด้วยการทำงาน "ร่วมกัน" ของทั้งสององค์ประกอบ ทั้งนี้ก็ต้องอาศัยการวางแผน และการจัดวางองค์ประกอบให้ถูกที่ถูกทางด้วยเช่นกัน

สุดท้ายก็กลับมาอยู่ที่ ข้้อโต้แย้งในเชิงนวัตกรรมแบบเดิม ๆ ที่ว่า ถึงแม้ว่าจะต้องกลับมาแก้ไขทีหลัง มันคุ้มค่ากันหรือไม่ กับการที่งานที่ทำไปก่อนหน้านี้ คำตอบนั้นก็คงไม่ยากและเชื่อว่าหลายคนคงเห็นด้วยว่า คุ้มค่าแน่นอน เพราะไม่มีระบบใด ๆ ในโลกที่มีความสมบูรณ์ ทุกระบบต้องมีการพัฒนาและเติบโต สิ่งที่เป็นอยู่ก็ใช่ว่าจะทำงานไม่ได้ หรือไม่มีประโยชน์ (ไม่นับรวมประเด็นปัญหาทรัพย์สินทางปัญญา) สิ่งสำคัญก็คือ Google เองก็ต้องยอมรับข้อบกพร่องและหาทางแก้ไข

อย่างไรก็ตาม ถึงแม้ว่าถ้าเทียบเป็นร้อยละ ข้อผิดพลาดที่พบเหล่านั้นดูเหมือนจะไม่มากมาย แต่ถ้าเทียบเป็นตัวเลข แค่เพียงถ้าพบข้อผิดพลาดร้อยละ 0.1 ของหนังสือทั้งหมด 1 พันล้านกว่ารายการ ก็เท่ากับ มีหนังสือหนึ่งล้านรายการที่มีข้อผิดพลาด ซึ่งถือป็นจำนวนที่ไม่น้อย สิ่งที่ต้องคิดต่อไปนี้ คือจะทำอย่างไรเพื่อแก้ไขข้อผิดพลาดเหล่านี้เป็นไปอย่างมีประสิทธิภาพ