Skip to main content

כריית נתונים עם קיבוץ באשכולות

זיקים (מאי 2025)

זיקים (מאי 2025)
Anonim

ה k- פירושו אלגוריתם אשכולות הוא כריית נתונים וכלי למידה ממוחשבים המשמשים לאשכול תצפיות לקבוצות של תצפיות קשורות, ללא ידיעה מוקדמת של מערכות יחסים אלה. על ידי הדגימה, האלגוריתם מנסה להראות באיזו קטגוריה, או אשכול, הנתונים שייכים, כאשר מספר האשכולות מוגדר על ידי הערך k.

ה k- פירושו אלגוריתם הוא אחד הטכניקות הפשוטות באשכולות והוא נפוץ הדמיה רפואית, ביומטריה, ותחומים קשורים. היתרון של k- פירושו קיבוץ באשכולות הוא שהוא מספר על הנתונים שלך (תוך שימוש בטופס ללא פיקוח), במקום שיהיה עליך ללמד את האלגוריתם על הנתונים שבתחילה (באמצעות הצורה המפוקחת של האלגוריתם).

זה נקרא לפעמים אלגוריתם לויד, במיוחד בחוגים מדעי המחשב, כי האלגוריתם הסטנדרטי הוצע לראשונה על ידי סטיוארט לויד בשנת 1957. המונח "k- פירושו" בשנת 1967 על ידי ג 'יימס מקווין.

כיצד K-Mans אלגוריתם פונקציות

ה k- האלגוריתם הוא אלגוריתם אבולוציוני שמקבל את שמו משיטת הפעולה שלו. אלגוריתמי האלגוריתם מתבוננים בו k קבוצות, היכן k מסופק כפרמטר קלט. לאחר מכן הוא מקצה כל תצפית לאשכולות המבוססים על קרבת התצפית לממוצע האשכול. משמעותו של אשכול היא אז recomputed ואת התהליך מתחיל שוב. כך פועל האלגוריתם:

  1. האלגוריתם בוחר באופן שרירותי k נקודות כמו מרכזי אשכול הראשונית (האמצעים).
  2. כל נקודה במערך מוקצה לאשכול הסגור, בהתבסס על המרחק האוקלידי בין כל נקודה לבין כל מרכז אשכול.
  3. כל מרכז אשכול מחודש כממוצע הנקודות באשכול זה.
  4. צעדים 2 ו -3 לחזור עד אשכולות להתכנס. ניתן להגדיר את ההתכנסות בצורה שונה בהתאם ליישום, אך בדרך כלל משמעות הדבר היא כי אין תצפיות לשנות אשכולות כאשר חוזרים על צעדים 2 ו -3, או כי השינויים אינם עושים הבדל מהותי בהגדרת אשכולות.

בחירת מספר אשכולות

אחד החסרונות העיקריים k- פירושו קיבוץ באשכולות הוא העובדה שעליך לציין את מספר האשכולות כקלט לאלגוריתם. כפי שתוכנן, האלגוריתם אינו מסוגל לקבוע את המספר המתאים של אשכולות ותלוי על המשתמש לזהות זאת מראש.

לדוגמה, אם יש לך קבוצה של אנשים שיש לקבץ בהתבסס על זהות מגדר בינארי כזכר או נקבה, קורא את k- פירושו אלגוריתם באמצעות הקלט k = 3 יכריח את העם לשלושה אשכולות כאשר רק שניים, או קלט של k = 2, תספק התאמה טבעית יותר.

באופן דומה, אם קבוצה של אנשים היו מקובצים בקלות על בסיס המדינה הביתה קראת את k- פירושו אלגוריתם עם הקלט k = 20, התוצאות יכולות להיות כלליות מדי כדי להיות יעילות.

מסיבה זו, זה לעתים קרובות רעיון טוב להתנסות עם ערכים שונים של k כדי לזהות את הערך המתאים ביותר לנתונים שלך. כמו כן, מומלץ לחקור את השימוש באלגוריתמים אחרים של כריית נתונים בחיפוש אחר ידע ממוחשב.