హోమ్ ఆడియో లెగసీ మైగ్రేషన్‌లో మాన్యువల్ డేటా ఎంట్రీ తర్వాత మెషిన్ లెర్నింగ్ కోసం డేటా స్క్రాపింగ్ అత్యంత శ్రమతో కూడుకున్న అడ్డంకిగా ఎలా మారింది?

లెగసీ మైగ్రేషన్‌లో మాన్యువల్ డేటా ఎంట్రీ తర్వాత మెషిన్ లెర్నింగ్ కోసం డేటా స్క్రాపింగ్ అత్యంత శ్రమతో కూడుకున్న అడ్డంకిగా ఎలా మారింది?

Anonim

Q:

లెగసీ మైగ్రేషన్‌లో మాన్యువల్ డేటా ఎంట్రీ తర్వాత మెషిన్ లెర్నింగ్ కోసం డేటా స్క్రాపింగ్ అత్యంత శ్రమతో కూడుకున్న అడ్డంకిగా ఎలా మారింది?

A:

మెషిన్ లెర్నింగ్ (ఎంఎల్) ప్రాజెక్ట్ను ప్రారంభించడానికి ప్రయత్నిస్తున్నప్పుడు కంపెనీలు ఎదుర్కొనే ఆచరణాత్మక సమస్యలలో ఒకటి ప్రారంభ శిక్షణ డేటా సెట్లను పొందడం సవాలు. వెబ్ స్క్రాపింగ్ లేదా ఇతర డేటా స్క్రాపింగ్ వంటి శ్రమతో కూడిన ప్రక్రియలు ఇందులో ఉండవచ్చు.

వెబ్ స్క్రాపింగ్ మరియు డేటా స్క్రాపింగ్ అనే పదాలు ఎక్కువగా కంప్యూటర్ సాఫ్ట్‌వేర్ ద్వారా స్వయంచాలక కార్యాచరణను సూచిస్తాయి, అయితే చాలా ML ప్రాజెక్టుల కోసం, సరైన లక్ష్య డేటాను సేకరించే కంప్యూటర్లకు అధునాతనత లేని సందర్భాలు ఉండబోతున్నాయి, కనుక ఇది చేయవలసి ఉంటుంది "చేతితో." దీనిని మీరు "హ్యూమన్ వెబ్ / డేటా స్క్రాపింగ్" అని పిలుస్తారు మరియు ఇది కృతజ్ఞత లేని పని. ఇది సాధారణంగా శిక్షణా సమితుల ద్వారా ML ప్రోగ్రామ్‌ను "ఫీడ్" చేయడానికి బయటికి వెళ్లి డేటా లేదా చిత్రాల కోసం వెతుకుతుంది. ఇది తరచూ అందంగా పునరావృతమవుతుంది, ఇది శ్రమతో, నిదానంగా, పనిని కోరుతుంది.

ఉచిత డౌన్‌లోడ్: మెషిన్ లెర్నింగ్ మరియు ఎందుకు ఇది ముఖ్యమైనది

ML శిక్షణా సెట్ల కోసం డేటా స్క్రాపింగ్ యంత్ర అభ్యాసంలో ప్రత్యేకంగా సమస్యాత్మకమైన అడ్డంకిని సూచిస్తుంది, ఎందుకంటే ఇతర పనులలో చాలా భాగం చాలా సంభావితమైనది మరియు పునరావృతం కాదు. మెషీన్ లెర్నింగ్ టాస్క్‌లను చేసే కొత్త అనువర్తనం కోసం చాలా మంది గొప్ప ఆలోచనతో రావచ్చు, కాని గింజలు మరియు బోల్ట్‌లు మరియు ఆచరణాత్మక పని చాలా కష్టం. ప్రత్యేకించి, శిక్షణా సమితులను సమీకరించే పనిని అప్పగించడం వాస్తవానికి ML ప్రాజెక్ట్ యొక్క కష్టతరమైన భాగాలలో ఒకటి, మైక్ జడ్జ్ యొక్క "సిలికాన్ వ్యాలీ" టీవీ షోలో పూర్తిగా అన్వేషించబడింది. సీజన్ నాలుగు ఎపిసోడ్లో, ఒక స్టార్టప్ వ్యవస్థాపకుడు మొదట ఒక భాగస్వామిని శ్రమతో కూడుకున్న పనిని చేయమని బెదిరిస్తాడు, తరువాత దానిని హోంవర్క్ అప్పగింతగా మారువేషంలో ఉంచడం ద్వారా కళాశాల విద్యార్థులపై పంపించటానికి ప్రయత్నిస్తాడు.

ఈ ఉదాహరణ బోధనాత్మకమైనది ఎందుకంటే ఇది మాన్యువల్ డేటా స్క్రాపింగ్ ఎంత అయిష్టంగా మరియు అప్రధానంగా ఉందో చూపిస్తుంది. అయినప్పటికీ, విస్తృతమైన యంత్ర అభ్యాస ఉత్పత్తులకు ఈ ప్రక్రియ అవసరమని కూడా ఇది చూపిస్తుంది. చాలా మంది డేటా ఎంట్రీని ద్వేషిస్తున్నప్పటికీ, శిక్షణా సెట్లను ఏదో ఒక విధంగా సమీకరించాలి. ఈ ప్రక్రియపై నిపుణులు తరచుగా వెబ్ స్క్రాపింగ్ సేవను ఉపయోగించమని సిఫారసు చేస్తారు - ముఖ్యంగా ఈ శ్రమతో కూడిన పనిని బాహ్య పార్టీలకు అవుట్సోర్సింగ్ చేయాలి, కానీ అది భద్రతాపరమైన మార్పులను కలిగి ఉంటుంది మరియు ఇతర సమస్యలను కలిగిస్తుంది. మాన్యువల్ డేటా సేకరణ పనిని ఇంట్లో ఉంచినప్పుడు, మళ్ళీ, చాలా మాన్యువల్ మరియు సమయం తీసుకునే ప్రక్రియ కోసం ఒక నిబంధన ఉండాలి.

కొన్ని విధాలుగా, యంత్ర అభ్యాసం కోసం "హ్యూమన్ డేటా స్క్రాపింగ్" మాన్యువల్ డేటా ఎంట్రీ వలె కనిపిస్తుంది, ఇది కొన్నిసార్లు లెగసీ మైగ్రేషన్‌లో చేయాల్సి ఉంటుంది. క్లౌడ్ మరింత ప్రాచుర్యం పొందడంతో, మరియు కంపెనీలు వారి ప్రక్రియలను మరియు వర్క్‌ఫ్లోలను క్లౌడ్‌లోకి పెట్టినప్పుడు, కొందరు తమ కార్పొరేట్ డేటాను వివిక్త లెగసీ సిస్టమ్ నుండి క్లౌడ్-నేటివ్ అనువర్తనాల్లోకి ఎలా పొందాలో ఆచరణాత్మక అంశాల ద్వారా పని చేయలేదని కనుగొన్నారు. తత్ఫలితంగా, డేటా శాస్త్రవేత్తలు లేదా అవసరమైన ఐటి నైపుణ్యాలు కలిగిన సృజనాత్మక వ్యక్తులు కొంతమంది తమను అసహ్యకరమైన డేటా ఎంట్రీ పనులు చేస్తున్నట్లు గుర్తించారు.

యంత్ర అభ్యాసంతో కూడా అదే జరిగే అవకాశం ఉంది. “నేను సృజనాత్మక వ్యక్తిని” లేదా “నేను అభివృద్ధి వైపు ఉన్నాను” అని డేటా సైంటిస్ట్ ఫిర్యాదు చేయడం మీరు వినవచ్చు - కాని ఎవరైనా మురికి పని చేయాలి.

మళ్ళీ, వర్క్ఫ్లో ప్రతినిధి బృందం యొక్క ఆచరణాత్మక అంచనాతో సృజనాత్మక ప్రవాహం సరిపోలకపోతే, విధి నిర్వహణ ఎలా నిర్దేశించబడుతుందో దానిలో అసమతుల్యత ఉంటుంది. డేటా సెట్‌లను సేకరించడంలో డేటా స్క్రాపింగ్ పని చేయడానికి ఒక సంస్థకు ప్రజలు లేనప్పుడు, విజయవంతమైన ప్రాజెక్ట్ కోసం ఇది గొలుసు విధానంలో కీలకమైన భాగం లేదు. క్రొత్త యంత్ర అభ్యాస అనువర్తనాలను అభివృద్ధి చేయడంపై ఆధారపడిన ఆలోచనను ఒక సంస్థ మంచిగా చేయడానికి ప్రయత్నించినప్పుడు దీన్ని గుర్తుంచుకోవడం విలువ.

లెగసీ మైగ్రేషన్‌లో మాన్యువల్ డేటా ఎంట్రీ తర్వాత మెషిన్ లెర్నింగ్ కోసం డేటా స్క్రాపింగ్ అత్యంత శ్రమతో కూడుకున్న అడ్డంకిగా ఎలా మారింది?