סיווג היא טכניקת כריית נתונים שמקצה קטגוריות לאוסף של נתונים על מנת לסייע בתחזיות וניתוח מדויקים יותר. נקרא גם לפעמים נקרא א עץ החלטות , סיווג הוא אחד של כמה שיטות שנועדו להפוך את ניתוח של נתונים גדולים מאוד יעיל.
למה סיווג?
מסדי נתונים גדולים מאוד הופכים לנורמה בעולם של היום נתונים גדולים . תאר לעצמך מסד נתונים עם מספר טרה-בתים של נתונים - טרה-בייט הוא אחד טריליון בתים של נתונים.
פייסבוק לבד crunches 600 טרה של נתונים חדשים מדי יום (נכון לשנת 2014, בפעם האחרונה הוא דיווח על מפרט זה). האתגר העיקרי של נתונים גדולים הוא איך להבין את זה.
נפח גדול הוא לא הבעיה היחידה: נתונים גדולים נוטה להיות מגוונים, לא מובנים ומשתנים במהירות. שקול נתוני אודיו ווידאו, הודעות מדיה חברתית, נתוני תלת-ממד או נתונים גיאו-מרחביים. סוג זה של נתונים אינו מסווג בקלות או מאורגן.
כדי לעמוד באתגר זה פותח, בין היתר, מגוון שיטות אוטומטיות לחילוץ מידע שימושי סיווג .
איך עובד סיווג
על הסכנה לנוע רחוק מדי לדבר טק, בואו נדבר על איך הסיווג עובד. המטרה היא ליצור מערכת של כללי סיווג אשר יענה על שאלה, לקבל החלטה, או לחזות התנהגות. כדי להתחיל, קבוצה של נתונים הכשרה מפותחת המכילה קבוצה מסוימת של תכונות כמו גם את התוצאה האפשרית.
תפקידו של אלגוריתם הסיווג הוא לגלות כיצד קבוצה זו של תכונות מגיעה למסקנה.
תרחיש: אולי חברת כרטיסי האשראי מנסה לקבוע אילו לקוחות פוטנציאליים צריכים לקבל כרטיס אשראי להציע.
זה עשוי להיות קבוצה של נתונים האימונים שלה:
שם | גיל | מין | הכנסה שנתית | הצעת כרטיס אשראי |
---|---|---|---|---|
פלוני אלמוני | 25 | M | $39,500 | לא |
ג 'יין דו | 56 | F | $125,000 | כן |
בעמודה "מנבא" גיל , מין , ו הכנסה שנתית לקבוע את הערך של "תכונה מנבא" הצעת כרטיס אשראי . במערך אימון, תכונה מנבא ידוע. אלגוריתם הסיווג מנסה לקבוע כיצד הגיע ערך התכונה מנבא: אילו יחסים קיימים בין המנבאים לבין ההחלטה? היא תפתח מערכת של כללי חיזוי, בדרך כלל הצהרה IF / THEN, לדוגמה:
IF (גיל 18 או גיל <75) והכנסה שנתית> 40,000 הצעת כרטיס אשראי = כן
כמובן, זהו דוגמה פשוטה, והאלגוריתם היה זקוק לדגימת נתונים גדולה בהרבה משתי הרשומות המוצגות כאן. יתר על כן, כללי החיזוי עשויים להיות מורכבים הרבה יותר, כולל כללי משנה ללכידת פרטי תכונות.
לאחר מכן, האלגוריתם מקבל "ערכת חיזוי" לנתונים לניתוח, אך לקבוצה זו חסרה תכונת החיזוי (או ההחלטה):
שם | גיל | מין | הכנסה שנתית | הצעת כרטיס אשראי |
---|---|---|---|---|
ג'ק פרוסט | 42 | M | $88,000 | |
מרי מאריי | 16 | F | $0 |
נתוני מנבא אלה מסייעים לאמוד את הדיוק של כללי החיזוי, והכללים מתעדכנים עד שהמפתח רואה את התחזיות יעיל ושימושי.
דוגמאות יום - יום לסיווג
סיווג, טכניקות אחרות כריית נתונים, הוא מאחורי הרבה של ניסיון היום יום שלנו כצרכנים.
תחזיות מזג אוויר עשויות להשתמש בסיווג כדי לדווח אם היום יהיה גשום, שמש או מעונן. מקצוע הרפואה עשוי לנתח את מצב הבריאות כדי לחזות תוצאות רפואיות. סוג של שיטת סיווג, Naive Bayesian, משתמש בהסתברות מותנית לקטלג הודעות דואר זבל. מאת זיהוי הונאה להצעות המוצר, הסיווג הוא מאחורי הקלעים בכל יום ניתוח נתונים והפקת תחזיות.