รีวิว หนังสือ BIG DATA SERIES I — Introduction to a Big Data Project

Nut P
3 min readJan 14, 2020

ตัวผมเองตอนปริญญาโทเคยเรียนเกี่ยวกับ Data Science มาคร่าวๆ และพอดีกำลังอยากรู้ว่าพวกการทำ ฺBig Data ในเชิงธุรกิจเขาทำกันยังไงบ้าง ก็เลยลองไปซื้อหนังสือ Big Data Series นี้มาอ่านดู ซึ่งทั้งหมดมี 3 Series ครับ แต่ผมซื้อมา 2 Series คือ Series 1 เป็นเกี่ยวกับภาพรวม และ Series 3 เกี่ยวกับ Case Study (Series 2 เกี่ยวกับเทคนิคการทำโมเดล)

พออ่านจบ ว่างๆ ผมเลยมาทำรีวิวและสรุป ก็หวังว่าจะเป็นตัวช่วยในการตัดสินใจให้เพื่อนๆในการซื้อหนังสือเล่มนี้ฮะ

“อ่านง่าย เหมาะสำหรับคนอยากเริ่มต้นทำ Big Data”

เหมาะกับใครมากที่สุด

  • เจ้าของธุรกิจที่อยากรู้เรื่อง Big Data ว่าจะมาช่วยธุรกิจของตนได้ไหม
  • ผู้บริหารฝ่าย IT ในองค์กร
  • ผู้ที่อยากทำงานด้าน Data เช่น Data Scientist

เหมาะกับใครรองลงมา

  • บุคคลทั่วไปที่อยากรู้เรื่อง Big Data และ Data Science

สไตล์การเขียน

ใช้ภาษาให้อ่านได้สำหรับบุคคลทั่วไปเลย แต่บางครั้งผู้เขียนอาจจะมีการใช้คำศัพท์เชิงเทคนิคหน่อยๆ ถ้าไม่เข้าใจสามารถไป Search Google เพื่อขยายความได้เลยครับ

เนื้อหาประมาณไหน

ถ้าจะให้ตรงจริงๆ เนื้อหา คือ Intro to Data Science ครับ ซึ่งเท่าที่ผมเข้าใจ เหตุผลที่ผู้แต่งใช้คำว่า Big Data ตั้งชื่อหนังสือ เป็นเพราะ คำว่า Big Data ในไทยได้รับความนิยมมากกว่า เอาจริงคำว่า Big Data กับ Data Science มันก็เกี่ยวกันอยู่แล้ว จึงพอถูๆไถๆไปได้ ซึ่งพวกเนื้อหาในหนังสือก็จะเป็นแนวเชิญชวนให้เห็นถึงความสำคัญของ Data และความรู้พื้นฐานสำคัญที่ต้องรู้หลักๆ โดยรายละเอียดก็ค่อนข้างเยอะผมเลยทำสรุปเป็น 10 ข้อเนื้อหาคร่าวๆไว้ด้านล่าง ใครสนใจก็ติดตามต่อได้เลยครับ

สรุป 10 ข้อ เนื้อหาคร่าวๆ

1)การทำโครงการ Big Data ไม่ได้แค่หมายความว่าการเก็บข้อมูลเยอะๆ แต่หมายถึงการเก็บข้อมูลเยอะๆที่สามารถไปใช้ประโยชน์ต่อได้ ถ้าให้อธิบายง่ายๆถึงสิ่งที่ต้องทำในโครงการ Big Data หลักๆนี้ คือ

  • สร้างโครงสร้างการเก็บข้อมูล เพื่อรองรับ Big Data
  • สร้าง Data Model เพื่อในการนำ Big Data ไปใช้ให้เกิดประโยชน์สูงสุด

2) สาเหตุในการเริ่มมีการทำโครงการ Big Data

  • เป็นยุค Digital ที่มีข้อมูลใหม่ๆที่สามารถใช้วิเคราะห์ได้มากขึ้น โดยเฉพาะใน Social Media
  • มีเทคโนโลยีในการพัฒนาที่พร้อม ซึ่งต้นทุนไม่สูงนัก และเข้าถึงได้

3) Big Data เป็นสิ่งที่มีมานานแล้ว แต่เพิ่งมาฮิตในเมืองไทย สิ่งที่พิเศษจริงในปัจจุบันคือคำว่า Data Science หรือถ้าให้ลงลึกไปอีกอาจจะมีศัพท์พวกในกลุ่ม Artificial Intelligence(AI), Machine Learning และ Deep Learning เป็นต้น

4) องค์กรที่สามารถทำโครงการ Big Data ได้ดี คือ องค์กรที่สามารถ Integrate ระบบขององค์กรได้ทุกภาคส่วน เนื่องจากองค์กรส่วนใหญ่ มีการเก็บข้อมูลที่แยกกันหลากหลาย อันเป็นอุปสรรคต่อการทำโครงการ Big Data ดังนั้นหลายองค์กรก่อนจะไปเริ่มทำ Model ได้ ต้องแก้ปัญหาพื้นฐานด้านโครงสร้างเสียก่อน

5) การทำโครงการ Big Data ไม่จำเป็นต้องทำในองค์กรใหญ่ๆเสมอไป องค์กรเล็กๆก็ทำได้ ซึ่ง Key ในการทำจริงๆ คือ การที่องค์กรเป็น Data Driven Organization และพร้อมที่จะเปลี่ยนแปลง ดังนั้นหลายครั้งจึงเห็นบริษัท Startup ที่ทำโครงการ Big Data กัน

6) ประโยชน์หลักๆของการทำโครงการ Big Data คือ ทำให้องค์กรเจอ Insight ใหม่ๆที่ปัจจุบันไม่เคยมี และทำให้การตัดสินใจขององค์กรรวดเร็วและแม่นยำยิ่งขึ้น

7) ตำแหน่งองค์กรที่ทำเกี่ยวกับ Data แบ่งออกเป็น 3 ตำแหน่งสำคัญๆ ได้แก่

  • Data Engineer : อยู่ต้นทางในการทำเกี่ยวกับ Data สิ่งที่ทำ เช่น การออกแบบโครงสร้าง Data Flow และการทำ System Integration มีความ Technical สูงสุดเทียบกับ 3 ตำแหน่ง โดยมีเครื่องมือที่ใช้หลักๆ เช่น SQL, NoSQL, Hadoop และ Python เป็นต้น ด้วยที่การทำ Big Data ในไทยอยู่ในระยะค่อนข้างเริ่มต้น จึงเป็นตำแหน่งที่องค์ไทยมีแนวโน้มต้องการตัวสูงสุด ถึงแม้ว่าจะมีกระแสน้อยก็ตาม
  • Data Scientist : เป็นตำแหน่งที่รับข้อมูลจาก Data Engineer มาอีกที แล้วมาทำ Model เพื่อหา Insight ใหม่ๆให้ธุรกิจ จึงต้องมีความรู้ทาง Programming, Business และ Math ผสานกัน งานส่วนใหญ่เป็น Project Base และองค์กรที่ทำได้ต้องมีโครงสร้าง Data ที่ Advance พอสมควร โดยมีเครื่องมือที่ใช้หลักๆ คือ ภาษา Programming ด้าน Data เช่น Python และ R และเนื่องจากในประเทศไทยเรื่องของ Data Science ยังเป็นสิ่งค่อนข้างใหม่ หลายครั้งหน้าที่ของ Data Scientist ไทยจึงอาจเหลื่อมไปถึง Data Engineer อีกด้วย
  • Data Analyst : งานที่อยู่ปลายทางของ Data ที่สุด เป็นงานที่รับข้อมูลมาจาก Data Engineering หรือ Data Scienctist มาวิเคราะห์ผล สร้าง Graph หรือทำ Visualization ให้สวยงาม และรายงานต่อผู้บริหาร เครื่องมือที่ใช้จะค่อนข้างเป็นแบบสำเร็จรูป เช่น Excel, SPSS และ Tableau เป็นต้น

8) คนที่ทำ Data Scientist ไม่จำเป็นต้องมีทุกองค์กร องค์กรในช่วงเริ่มต้นควรจ้างบริษัท Consult ที่ทำเกี่ยวกับ Data Science แทนมากกว่า บริษัทที่ควรมี Data Scienctist ประจำ คือ บริษัทที่มีโครงสร้างการเก็บ Data ที่เหมาะแก่การทำ Data Science เรียบร้อยแล้ว และคนในองค์กรต้องเห็นความสำคัญเกี่ยวกับ Data

9) ขั้นตอนโมเดลการวิเคราะห์คร่าวๆ ในการทำ Data Science หรือ พวก Machine Learning

เข้าใจความต้องการขององค์กร >> ทำความเข้าใจข้อมูล >> เตรียมข้อมูล >> สร้างโมเดล >> ประเมินผลลัพธ์โมเดล >> นำโมเดลไปใช้

10) การทำโครงการ Big Data ไม่ได้มีต้นทุนสูงอย่างที่คิด เนื่องจากต้นทุนเทคโนโลยีในการใช้พัฒนาค่อนข้างต่ำ แต่ต้นทุนที่สูง คือ Mind Set ของคน

สรุปคร่าวๆ ก็ประมานนี้ครับ ในตัวหนังสือจริงๆเนื้อหาจะมีมีรูปภาพประกอบและความละเอียดมากกว่านี้ สำหรับใครคิดว่าใช่ สามารถไปซื้อได้ที่ร้านหนังสือทั่วไปเลย หรือถ้าสนใจไปยิ่งกว่านั้นก็สามารถไปติดตาม FB Page ของผู้เขียนด้านล่างครับ

--

--

Nut P
Nut P

Written by Nut P

มาคุยกันได้ครับ สนใจด้าน Tech & Business fb.com/inut.panpp

Responses (1)