, וסוגי הנתונים כמו
MATLAB
ישירות מתוך
מאפשרים לנו יכולות
table
או
categorical
של תכנות מונחה עצמים עם גישה ישירה
למידע והפניות מהירות.
על
שילוב המידע ועיבוד ראשוני.
מנת לוודא שהמידע שאנחנו פועלים עליו
הוא באמת מידע נכון - מה הטעם בחיזוי
ערך מניה אם אין אנו יודעים מהו מועד
הערך? - יש לבצע ניתוח ראשוני של המידע
והכנה שלו לצורך בדיקה כי לא חסרים
ערכים כלשהם, אין ערכים שגויים, או
תבנית זמן שאיננה מתאימה. בהתאם
לסוג המידע והמקור שממנו מגיע, נשתמש
באלגוריתמים ושיטות מתאימים - לסינון
רעש המגיע מחיישן נפעיל אלגוריתם
לעיבוד אות ולהורדת גודל תמונה נשתמש
באלגוריתם מעולם עיבוד התמונה. בשלב
זה ננסה להקטין את כמות המידע שאנחנו
מנסים לעבוד איתה, ע"י מציאת מאפיינים
) ייחודיים. בשלב זה עושים
features
(או
שימוש נרחב בפונקציונליות ויכולותמובנות
והכלים הנלווים אליה. למשל
MATLAB
של
בכדי לסנן מידע
filter
נעשה שימוש בפקודה
.
NaN
רועש או נחליף ערכים לא קיימים ב-
כעת, כשיש
ניתוח ומידול המידע.
בידינו גישה למידע מסודר, נקי ובעל מספר
, מגיע השלב המרכזי
features
נמוך של
- כיצד לוקחים את כל הנתונים ומוצאים
מתוכם מודל או התנהגות שמסבירה אותם,
וגם מספקת חיזוי להתנהגות עתידית?
משתמשים במתימטיקה, והמתימטיקה
עובדת! בשנים האחרונות נושא לימוד
) והלמידה
Machine
Learning
המכונה (
) הולך יד ביד עם
Deep
Learning
העמוקה (
. הרעיון
Big
Data
מערכות אגירת מידע ו-
המרכזי הוא להשתמש בשיטות סדורות
שמאפשרות לבנות מודלים מתימטיים
שמתארים את התנהגות המערכת, ורמת
הדיוק של המודל לרוב תהיה טובה יותר
ככל שיהיה יותר מידע. קיימות מספר
גישות לביצוע לימוד מכונה - החל מסיווג
כללי של למידה מונחית או בלתי-מונחית,
וכלה בשיטות, כגון רגרסיה (ליניארית
Support
Vector
ולא ליניארית) עצי סיווג,
, אלגוריתמים גנטיים, רשתות
Machine
וכמובן רשתות
Bayesian
Networks
מסוג
). המשותף לכל
Neural Networks
נוירונים (
השיטות הוא התהליך: ראשית מגדירים
מודל ראשוני - סוג השיטה, מספר מקדמים
חופשיים, גודל וכו', לאחר מכן "מאמנים"
את המודל בעזרת המידע, כלומר מנסים
למצוא את המקדמים כך שתהיה התאמה
מקסימלית בין המודל שאנו מאמנים
לבין הנתונים בפועל. לבסוף - בודקים
את אמינות המודל ע"י הכנסה של נתונים
חדשים ובדיקת אופן החיזוי. סוג השיטה
ומידת ההתאמה שלה תלוי מאד באופי
הבעיה, ולכן בחלק גדול מהמקרים
ייבדקו מספר מודלים עם אותו המידע, עד
שיימצא המודל המתאים ביותר. בעזרת
ניתן
MATLAB
ב-
classificationLearner
ה-
לעבור בקלות ממודל למודל ולבחון את
תוצאות החיזוי, מבלי לקודד אף לא שורת
קוד אחת.
המטרה
הטמעה במערכת החלטה.
המרכזית בעיבוד המידע הייתה לבצע
פעולה כלשהי, כלומר לספק תובנה כלשהי
«
Data Analytics
השלבים המרכזיים בביצוע
או לפעול לפי סט כללים שהוגדר מראש -
לתת התרעה על חולה שצפוי לקבל התקף,
לצפות כשל טכני במטוס, לבצע פעולת
Tag
קניה/מכירה של מניה או להוסיף
לאדם שזיהינו בתמונה. ההטמעה יכולה
להיות במערכת מאגר הנתונים, ביצירה של
web
קבצים חדשים, התממשקות ליישומי
MATLAB
או כל פעולה אחרת. שימוש ב-
C
יאפשר לנו למשל לייצר קוד
Coder
MATLAB
בצורה אוטומטית, בעוד שה-
יאפשר לנו לייצר ספריות
Compiler
ואף
NET
,
JAVA
להטמעה בסביבת .
MATLAB
Production
פיית'ון. בעזרת ה-
,
web
, אשר מוטמע ישירות בסביבת
Server
כל התהליך הופך פשוט להפליא, ואף ניהול
הגרסאות מבוצע ישירות עבורכם!
ארגז הכלים למדען ולמהנדס
מי שעושה את צעדיו הראשונים בעולם
, צריך להיות בעל
DA
החדשני והמסקרן של
ידע רחב ומגוון. ראשית, כדאי להכיר אופן
פעולה וגישה למאגרי נתונים מסוגים שונים.
אפשר תמיד להתחיל עם קובץ אקסל לצורך
לימוד בסיסי, ולאט לאט לעבור למאגרי
או
Hadoop
ולבסוף ל-
SQL
נתונים מבוססי
:
spark
77 l New-Tech Magazine