హోమ్ ఇది వ్యాపారం డేటా, పెద్దది మరియు చిన్నది: అసలు విలువ ఎక్కడ ఉంది?

డేటా, పెద్దది మరియు చిన్నది: అసలు విలువ ఎక్కడ ఉంది?

విషయ సూచిక:

Anonim

పెద్ద డేటా అనేది పెద్ద పరిమాణాల డేటాను నిర్వహించడానికి సూచించే దుప్పటి పదం. డేటా యొక్క పెద్ద పరిమాణం, మరింత క్లిష్టంగా మారుతుందని మనమందరం అర్థం చేసుకున్నాము. సాంప్రదాయ డేటాబేస్ పరిష్కారాలు వాటి సంక్లిష్టత మరియు పరిమాణం కారణంగా పెద్ద మొత్తంలో డేటాను సరిగ్గా నిర్వహించడంలో విఫలమవుతాయి. అందువల్ల, పెద్ద మొత్తంలో డేటాను నిర్వహించడం మరియు నిజమైన అంతర్దృష్టిని సేకరించడం ఒక సవాలు పని. అదే "విలువ" భావన చిన్న డేటాకు కూడా వర్తిస్తుంది.

ఎంత పెద్ద డేటా ఉపయోగించబడుతుంది

RDBMS భావన ఆధారంగా సాంప్రదాయిక డేటాబేస్ పరిష్కారాలు లావాదేవీల డేటాను బాగా నిర్వహించగలవు మరియు వివిధ అనువర్తనాలలో విస్తృతంగా ఉపయోగించబడుతున్నాయి. కానీ పెద్ద మొత్తంలో డేటాను (ఆర్కైవ్ చేయబడిన మరియు టెరాబైట్లలో లేదా పెటాబైట్లలో ఉన్న డేటా) నిర్వహించడానికి వచ్చినప్పుడు, ఈ డేటాబేస్ పరిష్కారాలు తరచుగా విఫలమవుతాయి. ఈ డేటా సెట్లు చాలా పెద్దవి మరియు ఎక్కువ సమయం, అవి సాంప్రదాయ డేటాబేస్ల నిర్మాణానికి సరిపోవు. ఈ రోజుల్లో, పెద్ద డేటా పెద్ద డేటాను నిర్వహించడానికి ఖర్చుతో కూడుకున్న విధానంగా మారింది. సంస్థాగత దృక్కోణంలో, పెద్ద డేటా వాడకాన్ని ఈ క్రింది వర్గాలుగా విభజించవచ్చు, ఇందులో పెద్ద డేటా యొక్క నిజమైన విలువ ఉంటుంది:

  • విశ్లేషణాత్మక ఉపయోగం

    పెద్ద డేటా యొక్క విశ్లేషకులు ప్రాసెస్ చేయడానికి చాలా ఖరీదైన డేటా యొక్క చాలా ముఖ్యమైన రహస్య అంశాలను వెల్లడించారు. ఉదాహరణకు, మేము ఒక క్రొత్త అంశంపై విద్యార్థుల ధోరణి ఆసక్తిని తనిఖీ చేయవలసి వస్తే, రోజువారీ హాజరు రికార్డులు మరియు ఇతర సామాజిక మరియు భౌగోళిక వాస్తవాలను విశ్లేషించడం ద్వారా మేము దీన్ని చేయవచ్చు. ఈ వాస్తవాలు డేటాబేస్లో సంగ్రహించబడ్డాయి. మేము ఈ డేటాను సమర్థవంతంగా యాక్సెస్ చేయలేకపోతే, మేము ఫలితాలను చూడలేము.

  • క్రొత్త ఉత్పత్తులను ప్రారంభించండి

    ఈ మధ్యకాలంలో, ఫేస్బుక్ వంటి చాలా కొత్త వెబ్ కంపెనీలు కొత్త ఉత్పత్తులను ప్రారంభించడానికి పరిష్కారంగా పెద్ద డేటాను ఉపయోగించడం ప్రారంభించాయి. ఫేస్బుక్ ఎంత ప్రజాదరణ పొందిందో మనందరికీ తెలుసు - ఇది పెద్ద డేటాను ఉపయోగించి అధిక-పనితీరు గల వినియోగదారు అనుభవాన్ని విజయవంతంగా సిద్ధం చేసింది.

నిజమైన విలువ ఎక్కడ ఉంది?

వేర్వేరు పెద్ద డేటా పరిష్కారాలు వారు డేటాను నిల్వ చేసే విధానంలో విభిన్నంగా ఉంటాయి, కానీ చివరికి, అవన్నీ డేటాను ఫ్లాట్ ఫైల్ నిర్మాణంలో నిల్వ చేస్తాయి. సాధారణంగా, హడూప్ ఫైల్ సిస్టమ్ మరియు కొన్ని ఆపరేటింగ్-సిస్టమ్-స్థాయి డేటా సంగ్రహణలను కలిగి ఉంటుంది. ఇందులో మ్యాప్‌రెడ్యూస్ ఇంజన్ మరియు హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్ (హెచ్‌డిఎఫ్‌ఎస్) ఉన్నాయి. సరళమైన హడూప్ క్లస్టర్‌లో ఒక మాస్టర్ నోడ్ మరియు అనేక వర్కర్ నోడ్‌లు ఉంటాయి. మాస్టర్ నోడ్ కింది వాటిని కలిగి ఉంటుంది:

  • టాస్క్ ట్రాకర్
  • జాబ్ ట్రాకర్
  • పేరు నోడ్
  • డేటా నోడ్
వర్కర్ నోడ్ కింది వాటిని కలిగి ఉంటుంది:
  • టాస్క్ ట్రాకర్
  • డేటా నోడ్

కొన్ని అమలులలో డేటా నోడ్ మాత్రమే ఉంటుంది. డేటా నోడ్ అనేది డేటా ఉన్న అసలు ప్రాంతం. బహుళ యంత్రాలలో పంపిణీ చేయబడిన పెద్ద ఫైళ్ళను (టెరాబైట్ల నుండి పెటాబైట్ల పరిధిలో) HDFS నిల్వ చేస్తుంది. ప్రతి నోడ్‌లోని డేటా యొక్క విశ్వసనీయత అన్ని హోస్ట్‌లలోని డేటాను ప్రతిబింబించడం ద్వారా సాధించబడుతుంది. ఈ విధంగా, నోడ్లలో ఒకటి డౌన్ అయినప్పుడు కూడా డేటా లభిస్తుంది. ప్రశ్నలకు వ్యతిరేకంగా వేగంగా స్పందన సాధించడంలో ఇది సహాయపడుతుంది. ఫేస్బుక్ వంటి భారీ అనువర్తనాల విషయంలో ఈ భావన చాలా ఉపయోగపడుతుంది. వినియోగదారుగా, మా చాట్ అభ్యర్థనకు ప్రతిస్పందన వస్తుంది, ఉదాహరణకు, వెంటనే. చాటింగ్ చేసేటప్పుడు వినియోగదారు ఎక్కువసేపు వేచి ఉండాల్సిన దృష్టాంతాన్ని పరిగణించండి. సందేశం మరియు తదుపరి ప్రతిస్పందన వెంటనే పంపిణీ చేయకపోతే, ఈ చాటింగ్ సాధనాలను ఎంత మంది ఉపయోగిస్తారు?

ఫేస్బుక్ అమలుకు తిరిగి వెళితే, క్లస్టర్లలో డేటా ప్రతిరూపం కాకపోతే, ఆకర్షణీయంగా అమలు చేయడం సాధ్యం కాదు. హడూప్ మెషీన్లలో డేటాను పెద్ద క్లస్టర్‌లో పంపిణీ చేస్తుంది మరియు ఫైళ్ళను బ్లాక్‌ల క్రమం వలె నిల్వ చేస్తుంది. ఈ బ్లాక్స్ చివరి బ్లాక్ మినహా ఒకే పరిమాణంలో ఉంటాయి. బ్లాక్ యొక్క పరిమాణం మరియు ప్రతిరూపణ కారకం అవసరానికి అనుగుణంగా అనుకూలీకరించవచ్చు. HDFS లోని ఫైళ్ళు వ్రాసే-ఒకసారి విధానాన్ని ఖచ్చితంగా అనుసరిస్తాయి మరియు అందువల్ల ఒక సమయంలో ఒక వినియోగదారు మాత్రమే వ్రాయవచ్చు లేదా సవరించవచ్చు. బ్లాకుల ప్రతిరూపణకు సంబంధించిన నిర్ణయాలు పేరు నోడ్ చేత చేయబడతాయి. పేరు నోడ్ ప్రతి డేటా నోడ్ల నుండి నివేదికలు మరియు పల్స్ ప్రతిస్పందనలను అందుకుంటుంది. పల్స్ ప్రతిస్పందనలు సంబంధిత డేటా నోడ్ లభ్యతను నిర్ధారిస్తాయి. నివేదికలో డేటా నోడ్‌లోని బ్లాకుల వివరాలు ఉన్నాయి.


మరొక పెద్ద డేటా అమలు, కాసాండ్రా కూడా ఇదే విధమైన పంపిణీ భావనను ఉపయోగిస్తుంది. కాసాండ్రా భౌగోళిక స్థానం ఆధారంగా డేటాను పంపిణీ చేస్తుంది. అందువల్ల, కాసాండ్రాలో, డేటా వినియోగం యొక్క భౌగోళిక స్థానం ఆధారంగా డేటా వేరు చేయబడుతుంది.

కొన్నిసార్లు చిన్న డేటా పెద్ద (మరియు తక్కువ ఖరీదైన) ప్రభావాన్ని చూపుతుంది

ఓపెన్ నాలెడ్జ్ ఫౌండేషన్ యొక్క రూఫస్ పొల్లాక్ ప్రకారం, పెద్ద డేటా చుట్టూ హైప్ సృష్టించడంలో అర్థం లేదు, చిన్న డేటా ఇప్పటికీ నిజమైన విలువ ఉన్న ప్రదేశం.


పేరు సూచించినట్లుగా, చిన్న డేటా అనేది పెద్ద డేటా సమితి నుండి లక్ష్యంగా ఉన్న డేటా సమితి. చిన్న డేటా డేటా వినియోగం నుండి దృష్టిని మార్చాలని అనుకుంటుంది మరియు ఇది పెద్ద డేటా వైపు వెళ్ళే ధోరణిని ఎదుర్కోవడాన్ని కూడా లక్ష్యంగా పెట్టుకుంది. చిన్న డేటా విధానం తక్కువ ప్రయత్నాన్ని ఉపయోగించి నిర్దిష్ట అవసరాల ఆధారంగా డేటాను సేకరించడంలో సహాయపడుతుంది. ఫలితంగా, వ్యాపార మేధస్సును అమలు చేసేటప్పుడు ఇది మరింత సమర్థవంతమైన వ్యాపార సాధన.


దాని ప్రధాన భాగంలో, చిన్న డేటా యొక్క భావన తదుపరి చర్యలకు అవసరమైన ఫలితాలు అవసరమయ్యే వ్యాపారాల చుట్టూ తిరుగుతుంది. ఈ ఫలితాలను త్వరగా పొందాలి మరియు తదుపరి చర్యను కూడా వెంటనే అమలు చేయాలి. అందువల్ల, పెద్ద డేటా విశ్లేషణలలో సాధారణంగా ఉపయోగించే వ్యవస్థల రకాన్ని మేము తొలగించగలము.


సాధారణంగా, పెద్ద డేటా సముపార్జనకు అవసరమైన కొన్ని నిర్దిష్ట వ్యవస్థలను మేము పరిశీలిస్తే, ఒక సంస్థ చాలా సర్వర్ నిల్వలను ఏర్పాటు చేయడానికి పెట్టుబడి పెట్టవచ్చు, అధునాతన హై-ఎండ్ సర్వర్‌లను మరియు వివిధ డేటా బిట్‌లను నిర్వహించడానికి తాజా డేటా మైనింగ్ అనువర్తనాలను ఉపయోగించవచ్చు. వినియోగదారు చర్యల తేదీలు మరియు సమయాలు, జనాభా సమాచారం మరియు ఇతర సమాచారంతో సహా. ఈ మొత్తం డేటా సమితి కేంద్ర డేటా గిడ్డంగికి వెళుతుంది, ఇక్కడ సంక్లిష్ట అల్గోరిథంలు డేటాను వివరణాత్మక నివేదికల రూపంలో ప్రదర్శించడానికి క్రమబద్ధీకరించడానికి మరియు ప్రాసెస్ చేయడానికి ఉపయోగిస్తారు.


స్కేలబిలిటీ మరియు లభ్యత పరంగా ఈ పరిష్కారాలు అనేక వ్యాపారాలకు ప్రయోజనం చేకూర్చాయని మనందరికీ తెలుసు; ఈ విధానాలను అవలంబించడానికి గణనీయమైన కృషి అవసరమని కనుగొన్న సంస్థలు ఉన్నాయి. కొన్ని సందర్భాల్లో, తక్కువ-బలమైన డేటా మైనింగ్ వ్యూహాన్ని ఉపయోగించి ఇలాంటి ఫలితాలు సాధించబడతాయనేది కూడా నిజం.


చిన్న డేటా సంస్థలకు మరింత అధునాతన వ్యాపార ప్రక్రియలకు మద్దతు ఇచ్చే సరికొత్త మరియు సరికొత్త సాంకేతిక పరిజ్ఞానాలతో ముట్టడి నుండి వెనక్కి తగ్గడానికి ఒక మార్గాన్ని అందిస్తుంది. చిన్న డేటాను ప్రోత్సహిస్తున్న కంపెనీలు తమ వనరులను సమర్థవంతంగా ఉపయోగించడం వ్యాపార కోణం నుండి ముఖ్యమని వాదిస్తున్నారు, తద్వారా సాంకేతిక పరిజ్ఞానంపై అధికంగా ఖర్చు చేయడం కొంతవరకు నివారించవచ్చు.


మేము పెద్ద డేటా మరియు చిన్న డేటా వాస్తవికత గురించి చాలా చర్చించాము, కాని సరైన ఉపయోగం కోసం సరైన ప్లాట్‌ఫారమ్‌ను (పెద్ద డేటా లేదా చిన్న డేటా) ఎంచుకోవడం మొత్తం వ్యాయామంలో చాలా ముఖ్యమైన భాగం అని మేము అర్థం చేసుకోవాలి. నిజం ఏమిటంటే పెద్ద డేటా చాలా ప్రయోజనాలను అందించగలదు, ఇది ఎల్లప్పుడూ ఉత్తమమైనది కాదు.

డేటా, పెద్దది మరియు చిన్నది: అసలు విలువ ఎక్కడ ఉంది?