హోమ్ ఆడియో మెషీన్ లెర్నింగ్‌లో ఓవర్ ఫిట్టింగ్‌ను గుర్తించడానికి ఇంజనీర్లు శిక్షణా సెట్లు మరియు టెస్ట్ సెట్‌లను ఎలా అంచనా వేయగలరు?

మెషీన్ లెర్నింగ్‌లో ఓవర్ ఫిట్టింగ్‌ను గుర్తించడానికి ఇంజనీర్లు శిక్షణా సెట్లు మరియు టెస్ట్ సెట్‌లను ఎలా అంచనా వేయగలరు?

Anonim

Q:

మెషీన్ లెర్నింగ్‌లో ఓవర్ ఫిట్టింగ్‌ను గుర్తించడానికి ఇంజనీర్లు శిక్షణా సెట్లు మరియు టెస్ట్ సెట్‌లను ఎలా అంచనా వేయగలరు?

A:

ఇది ఎలా జరిగిందో అర్థం చేసుకోవడానికి, ఒక సాధారణ యంత్ర అభ్యాస ప్రాజెక్టులో వేర్వేరు డేటా సెట్ల పాత్రల గురించి ప్రాథమిక అవగాహన కలిగి ఉండటం అవసరం. సాంకేతిక పరిజ్ఞానం యొక్క ఫ్రేమ్ ఆఫ్ రిఫరెన్స్ ఇవ్వడానికి శిక్షణా సెట్ ఏర్పాటు చేయబడింది - ప్రిడిక్టివ్ మరియు ప్రాబబిలిస్టిక్ నిర్ణయాలు తీసుకోవడానికి ప్రోగ్రామ్ ఉపయోగించే డేటా బేస్లైన్. మీరు డేటాపై యంత్రాన్ని పరీక్షించే చోట పరీక్ష సెట్.

ఓవర్ ఫిట్టింగ్ అనేది యంత్ర అభ్యాసంలో ఒక సిండ్రోమ్, ఇక్కడ మోడల్ డేటా లేదా ప్రయోజనానికి పూర్తిగా సరిపోదు.

ఉచిత డౌన్‌లోడ్: మెషిన్ లెర్నింగ్ మరియు ఎందుకు ఇది ముఖ్యమైనది

మెషిన్ లెర్నింగ్ యొక్క విస్తృతమైన ఆదేశాలలో ఒకటి, శిక్షణ డేటా మరియు పరీక్ష డేటా ప్రత్యేక డేటా సెట్లుగా ఉండాలి. మెషీన్ లెర్నింగ్ ప్రోగ్రామ్‌ను పరీక్షించడానికి మీరు శిక్షణ కోసం ఉపయోగించిన అదే సెట్‌ను ఉపయోగించడంలో కొన్ని నిర్దిష్ట సమస్యల కారణంగా, కనీసం చాలా అనువర్తనాల్లో దీనిపై చాలా విస్తృత ఏకాభిప్రాయం ఉంది.

మెషీన్ లెర్నింగ్ ప్రోగ్రామ్ ఒక శిక్షణా సమితిని ఉపయోగించినప్పుడు, ఇది తప్పనిసరిగా ఇన్‌పుట్‌ల సమితి అని పిలువబడుతుంది, ఇది training హాజనిత ఫలితాల గురించి నిర్ణయాలు తీసుకోవడానికి ఆ శిక్షణా సమితిని పని చేస్తుంది. దాని గురించి ఆలోచించడానికి చాలా ప్రాథమిక మార్గం ఏమిటంటే, శిక్షణా సమితి మేధో కంప్యూటింగ్ ప్రక్రియకు "ఆహారం".

ఇప్పుడు అదే సెట్‌ను పరీక్ష కోసం ఉపయోగించినప్పుడు, యంత్రం తరచుగా అద్భుతమైన ఫలితాలను ఇవ్వగలదు. ఎందుకంటే ఇది ఇంతకు ముందే ఆ డేటాను చూసింది. కానీ చాలా సందర్భాల్లో యంత్ర అభ్యాసం యొక్క మొత్తం లక్ష్యం ఇంతకు ముందు చూడని డేటా గురించి ఫలితాలను ఇవ్వడం. సాధారణ-ప్రయోజన యంత్ర అభ్యాస కార్యక్రమాలు విభిన్నమైన డేటాపై పనిచేయడానికి తయారు చేయబడతాయి. మరో మాటలో చెప్పాలంటే, యంత్ర అభ్యాసం యొక్క సూత్రం ఆవిష్కరణ, మరియు పరీక్షా ప్రయోజనాల కోసం ప్రారంభ శిక్షణా సమితిని ఉపయోగించడం ద్వారా మీరు సాధారణంగా అంతగా పొందలేరు.

శిక్షణా సెట్లు మరియు టెస్ట్ సెట్లను మూల్యాంకనం చేయడంలో, ఇంజనీర్లు ఫలితాలను అంచనా వేయవచ్చు మరియు ఈ రెండు సెట్ల యొక్క తులనాత్మక ఫలితాలపై ప్రోగ్రామ్ ఎందుకు భిన్నంగా చేయగలదో గుర్తించవచ్చు లేదా కొన్ని సందర్భాల్లో శిక్షణ డేటాపై యంత్రం ఎలా బాగా పని చేస్తుందో గుర్తించవచ్చు. .

మెషీన్ లెర్నింగ్‌లో ఈ సమస్యలను కొన్నింటిని 2014 ముక్కలో వివరించడంలో, మెషిన్ లెర్నింగ్ మాస్టరీ వద్ద జాసన్ బ్రౌన్లీ ఈ విధంగా అతిగా ఫిట్ చేయడాన్ని వివరిస్తాడు:

"కనిపించని పరీక్ష డేటాసెట్‌లో దాని ఖచ్చితత్వం కంటే శిక్షణ డేటాసెట్‌పై దాని ఖచ్చితత్వం కోసం ఎంపిక చేయబడిన మోడల్ కనిపించని పరీక్ష డేటాసెట్‌లో తక్కువ ఖచ్చితత్వాన్ని కలిగి ఉంటుంది" అని బ్రౌన్లీ వ్రాశాడు. "కారణం ఏమిటంటే మోడల్ అంత సాధారణీకరించబడలేదు. ఇది శిక్షణ డేటాసెట్‌లోని నిర్మాణానికి spec హాగానాలు చేసింది (ఇటాలిక్స్ జోడించబడ్డాయి). దీనిని ఓవర్ ఫిట్టింగ్ అని పిలుస్తారు మరియు ఇది మీరు అనుకున్నదానికంటే ఎక్కువ కృత్రిమమైనది."

లే పరంగా, శిక్షణ డేటా సమితికి ప్రత్యేకత ఇవ్వడంలో, ప్రోగ్రామ్ చాలా కఠినంగా మారుతోందని మీరు చెప్పవచ్చు. పరీక్షా సమితి కోసం శిక్షణా సమితిని ఉపయోగించడం ద్వారా యంత్ర అభ్యాస కార్యక్రమం ఎందుకు ఉత్తమంగా అందించబడదని చూడటానికి ఇది మరొక రూపకం. ఈ రెండు వేర్వేరు సెట్‌లను మూల్యాంకనం చేయడానికి ఇది మంచి మార్గం, ఎందుకంటే ప్రోగ్రామ్ ఎలా పనిచేస్తుందనే దాని గురించి ఫలితాలు ఇంజనీర్లకు చాలా చూపుతాయి. మీరు రెండు మోడళ్లకు ఖచ్చితత్వం మధ్య చిన్న అంతరం కావాలి. సిస్టమ్ ఒక నిర్దిష్ట డేటా సమితికి ఓవర్‌ఫెడ్ లేదా "ప్రెసిషన్-ఫ్యూజ్" కాదని మీరు నిర్ధారించుకోవాలనుకుంటున్నారు, కానీ ఇది మరింత సాధారణమైనది మరియు కమాండ్‌పై అభివృద్ధి చెందగలదు.

మెషీన్ లెర్నింగ్‌లో ఓవర్ ఫిట్టింగ్‌ను గుర్తించడానికి ఇంజనీర్లు శిక్షణా సెట్లు మరియు టెస్ట్ సెట్‌లను ఎలా అంచనా వేయగలరు?