หากใครกำลังสนใจ หาข้อมูลและประโยชน์ของ Big Data ที่กำลังได้รับความนิยม โดยเฉพาะในขณะนี้ เรามาดูกันว่ามีตัวไหนที่น่าใช้กันบ้าง
1.The Hadoop Ecosystem
ในขณะที่ Apache Hadoop อาจไม่โดดเด่นเท่าที่เคยเป็นมา หากพูดถึง Big data ก็ต้องพูดถึง open source framework ใช้สำหรับการประมวลผลชุดข้อมูลบน Big data แบบกระจาย โดย ปีที่แล้ว Forrester ทำนายว่า 100% ขององค์กรขนาดใหญ่ทั้งหมดจะนำมาใช้ สำหรับการวิเคราะห์ข้อมูล Big data ภายในสองปีถัดไป”
ในช่วงหลายปีที่ผ่านมา Hadoop ได้เติบโตขึ้นเพื่อรวม The Hadoop Ecosystem ทั้งหมดของ software ที่เกี่ยวข้องกับ big data solutions เชิงพาณิชย์หลายแห่ง ตั้งอยู่บนพื้นฐานของ Hadoop ในความเป็นจริงการวิจัยตลาด Zion คาดการณ์ว่า ตลาดสำหรับผลิตภัณฑ์และบริการที่ใช้ Hadoop จะเติบโตอย่างต่อเนื่องที่ CAGR 50 เปอร์เซ็นต์จนถึงปี 2565 ซึ่งจะมีมูลค่า 87.14 พันล้านดอลลาร์เพิ่มขึ้นจาก 7.69 พันล้านดอลลาร์ในปี 2559
ผู้ขายที่สำคัญของ Hadoop ได้แก่ Cloudera, Hortonworks และ MapR และบริการ public clouds ชั้นนำล้วนให้บริการที่สนับสนุนเทคโนโลยี
2.Spark
Apache Spark เป็นส่วนหนึ่งของ The Hadoop Ecosystem แต่การใช้งานแพร่หลายไปอย่างมาก จนสมควรได้รับหมวดหมู่ของมันเอง มันเป็น engine สำหรับประมวลผลข้อมูลขนาดใหญ่ภายใน Hadoop และเร็วกว่าหนึ่งร้อยเท่าของ Engine Hadoop มาตรฐาน MapReduce
ในการสำรวจอายุการใช้งานของ Big Data ของ AtScale 2016 ผู้ตอบร้อยละ 25 กล่าวว่าพวกเขาได้ติดตั้ง Spark ในการผลิตแล้ว และอีก 33 เปอร์เซ็นต์มีโครงการ Spark ที่จะใช้ในการพัฒนา เห็นได้ชัดว่าความสนใจในเรื่องเทคโนโลยีที่มีขนาดใหญ่ และกำลังเติบโต ทำให้ผู้ค้าจำนวนมากที่นำเสนอ Hadoop ยังเสนอผลิตภัณฑ์ที่ใช้ Spark เป็นหลัก
3. R
R โครงการ source อีกโครงการหนึ่ง คือภาษาการเขียนโปรแกรมและ software ที่ออกแบบมาเพื่อทำงานกับสถิติ บริหารงานโดย R และอยู่ภายใต้ลิขสิทธิ์ GPL 2 การพัฒนาแบบรวมที่ได้รับความนิยมจำนวนมาก (IDEs) รวมถึง Eclipse และ Visual Studio
หลายองค์กรที่จัดอันดับความนิยมของภาษา ในการเขียนโปรแกรมต่าง ๆ บอกว่า R ได้กลายเป็นหนึ่งในภาษา ที่นิยมที่สุดในโลก ตัวอย่างเช่น IEEE บอกว่า R เป็นภาษาการเขียนโปรแกรมยอดนิยมอันดับที่ห้า Tiobe และ RedMonk อยู่ในอันดับที่ 14 สิ่งนี้มีความสำคัญเนื่องจากภาษาการเขียนโปรแกรมเหล่านี้ มักจะเป็นภาษาที่ใช้งานทั่วไป สามารถใช้ได้กับงานหลายประเภท
4. Data Lakes
เพื่อให้ง่ายต่อการเข้าถึงร้านค้าที่กว้างของข้อมูลจำนวนมาก มีการตั้งค่า data lakes เป็นแหล่งเก็บข้อมูลขนาดใหญ่ ที่รวบรวมข้อมูลจากแหล่งต่างๆ มากมายและเก็บไว้ สิ่งนี้แตกต่างจากคลังข้อมูลซึ่งยังรวบรวมข้อมูลจากแหล่งที่แตกต่างกัน แต่ประมวลผลและจัดโครงสร้างข้อมูลเพื่อจัดเก็บได้ค่อนข้างแม่นยำ
data lakes มีความน่าสนใจเมื่อองค์กรต้องการจัดเก็บข้อมูล แต่ยังไม่แน่ใจว่าพวกเขาจะใช้มันอย่างไร
5. NoSQL Databases
ระบบการจัดการฐานข้อมูลเชิงสัมพันธ์แบบเดิม (RDBMS) เป็นการเก็บข้อมูลในคอลัมน์และแถวที่มีโครงสร้างที่กำหนดไว้ นักพัฒนาและผู้ดูแลระบบฐานข้อมูลสอบถามและจัดการข้อมูลใน RDBMS เหล่านั้นโดยใช้ภาษาที่เรียกว่า SQL
NoSQL Databases มีความเชี่ยวชาญในการจัดเก็บข้อมูลที่ไม่มีโครงสร้าง และให้ประสิทธิภาพที่รวดเร็วแม้ว่าจะไม่ได้ให้ความสอดคล้องในระดับเดียวกับ RDBMS
NoSQL Databases ที่นิยม ได้แก่ MongoDB, Redis, Cassandra, Couchbase และอื่น ๆ อีกมากมาย แม้แต่ผู้ค้า RDBMS ชั้นนำอย่าง Oracle และ IBM
6. Predictive Analytics
Predictive Analytics เป็นชุดย่อยของการวิเคราะห์ Big Data ที่คาดการณ์เหตุการณ์หรือพฤติกรรมในอนาคตโดยใช้ข้อมูลประวัติ มันใช้วิธีการหาข้อมูลโดยการสร้างแบบจำลองและเทคนิคการเรียนรู้ของเครื่องเพื่อคาดการณ์สิ่งที่จะเกิดขึ้นต่อไป มักใช้สำหรับการตรวจจับการฉ้อโกง การให้คะแนนเครดิตการตลาด การเงินและการวิเคราะห์ธุรกิจ
ที่มา : datamation.com