डाटा साइंटिस्ट के रूप में कैसे आगे बढ़ें

आपको जूनियर से सीनियर डेवलपर तक जाने के लिए क्या कौशल चाहिए

बेन रोजोजन द्वारा

ऑस्टिन डिस्टल द्वारा अनस्प्लैश पर फोटो

डेटा वैज्ञानिक की भूमिका अभी भी कंपनी से कंपनी और यहां तक ​​कि टीम से अलग-अलग होती है। इससे कंपनियों के लिए अपने डेटा वैज्ञानिकों के लिए मानकीकृत विकास योजना बनाना बहुत कठिन हो जाता है।

एक स्पष्ट विकास योजना के बिना, एक जोखिम है कि ये प्रतिभाशाली कंप्यूटर जादूगर फंस जाएंगे। वे अच्छी अंतर्दृष्टि प्रदान कर सकते हैं, लेकिन वे वास्तव में कभी भी विकसित नहीं होंगे और सच्चा आरओआई प्रदान करते हैं जो उन्हें एक व्यवसाय की पेशकश करना है या, इससे भी महत्वपूर्ण बात, स्वयं।

इसे ध्यान में रखते हुए, हमारी टीम ने शीर्ष टियर टेक कंपनियों में काम करने वाले सिएटल के प्रबंधकों से बात की ताकि यह पता लगाया जा सके कि वे अपने वरिष्ठ डेटा वैज्ञानिकों से क्या चाहते हैं और क्या चाहते हैं। हम डेटा वैज्ञानिकों को विकसित करने में मदद करने के लिए हमने सीखा जानकारी साझा करना चाहते थे, साथ ही साथ उन प्रबंधकों को भी मदद करने के लिए जो अपने नए डेटा वैज्ञानिकों को विकसित करने के लिए चुनौती देने की कोशिश कर रहे हैं।

हमारी चर्चाओं के आधार पर हमने पाया कि यह प्रोग्रामिंग या डिज़ाइनिंग एल्गोरिदम के बारे में नहीं था (जो कि जूनियर डेटा वैज्ञानिकों के लिए एक आधार रेखा थी)। जब हमने इन प्रबंधकों से पूछा कि वे अपने अधिक वरिष्ठ डेटा वैज्ञानिकों से क्या देखना चाहते हैं, तो उन्होंने हमें सूचित किया कि वे ऐसे व्यक्ति चाहते थे जो स्पष्ट रूप से संवाद कर सकें, जो अपने लिए सोचने में सक्षम थे, जिनके पास व्यवसाय की ठोस समझ है, और जो हैं प्रबंधन करने में सक्षम।

एक डेटा वैज्ञानिक को विकसित करने के लिए, उन्हें अपनी नौकरियों के तकनीकी पहलुओं से परे चुनौती देने की आवश्यकता है। डेटा वैज्ञानिकों के पास कंपनी के फैसलों को बहाने का अवसर है। उनके कंधों पर बहुत ज़िम्मेदारी है। इसका मतलब है कि उन्हें अपने द्वारा किए जाने वाले काम का स्वामित्व लेने की आवश्यकता है। उन्हें अपने डेटा स्रोतों पर सवाल उठाने, अपनी अंतर्दृष्टि में संक्षिप्त होने, अपने व्यवसाय को जानने और अपने नेताओं को मार्गदर्शन करने में मदद करने की आवश्यकता है।

केवल अपने निष्कर्षों पर सवाल न करें, अपने डेटा पर सवाल उठाएं

एक वरिष्ठ डेटा वैज्ञानिकों ने इसे प्राप्त करने के बाद अपने डेटा पर भरोसा नहीं किया। वे पूर्वाग्रह, लापता डेटा, डुप्लिकेट डेटा, आदि जैसी चीजों के लिए इसे प्रहार और उड़ाएंगे।

डेटा में quirks होने के लिए बाध्य है। उन लोगों के लिए जो घंटों और घंटों डेटा खर्च करते हैं, आप जानते हैं कि मैं क्या कह रहा हूं। डेटा को स्क्रॉल या ग्राफ़ करते समय, आप उन अजीब पैटर्न को देखते हैं जो आपको रोकते हैं और कहते हैं "मुझे आश्चर्य है कि x z जैसा क्यों दिखता है"। युवा डेटा वैज्ञानिक अक्सर परियोजना को पूरा करने पर ध्यान केंद्रित करेंगे। उन्होंने नहीं सीखा कि कैसे रोकें और वास्तव में इन अजीब पैटर्न का विश्लेषण करें। ये पैटर्न सिस्टम के कारण हो सकते हैं जो डिफ़ॉल्ट विशिष्ट डेटा आउटपुट जैसे -1 या 1, या शायद बायटेड डेटा के कारण बायोडाटा भी खरीद सकते हैं जो ग्राहकों को वास्तव में ई-कॉमर्स साइट पर खरीद रहे हैं, और भ्रामक कारणों के एक हजार अन्य प्रशंसनीय कारण हो सकते हैं। डेटा।

ये पैटर्न आवश्यक रूप से गलत या खराब डेटा नहीं हैं। यहां तक ​​कि जब डेटा सटीक होता है, तो हमेशा परिचालन quirks होगा। रिपोर्ट, एल्गोरिदम और मैट्रिक्स डिजाइन करते समय, इन पर विचार किया जाना चाहिए। एक अनुभवी डेटा वैज्ञानिक न केवल इन डेटा quirks की तलाश करेंगे, वे उनसे उम्मीद करेंगे।

सत्य का शब्द स्रोत डेटा टीमों में बहुत अधिक फेंक दिया जाता है। यह मूल डेटा स्रोत को संदर्भित करता है जो कई टीमों ने तय किया है वह सही है। मैं बहुत भोली थी जब मैंने डेटा वैज्ञानिक के रूप में शुरुआत की। मेरी पहली परियोजनाओं में, मुझे एक डेटा स्रोत के बारे में बताया गया था, जिसे हमारी टीम ने सत्य के स्रोत के रूप में लेबल किया था। 200 से अधिक प्रबंधकों और निर्देशकों की उस डेटा तक पहुँच के लिए मैंने महीनों तक अपने "सोर्स ऑफ़ ट्रूथ" पर काम करते हुए एनालिटिक्स और एप्लिकेशन पर काम किया। बेशक, यह तब तक बहुत लंबा नहीं था जब तक कि अन्य मैट्रिक्स के साथ संगतता के मुद्दे नहीं थे। यह तब था जब मैंने महसूस किया कि मैं सत्य के स्रोत से कई ETL डेटा स्रोत पर काम कर रहा था।

सिएटल में तकनीकी प्रबंधकों से बात करना, यह एक सामान्य मुद्दा है। युवा विश्लेषक, डेटा वैज्ञानिक और डेवलपर अपने डेटा स्रोतों पर अत्यधिक भरोसा कर रहे हैं। आमतौर पर, छोटे, कम अनुभवी कर्मचारी काम पाने के लिए बहुत उत्सुक होंगे। यह अनजाने में डेटा की वास्तव में कम समझ को जन्म देगा। ऐसा क्यों है, यह पूछने के बजाय, वे उत्पाद "कार्यों" को सुनिश्चित करने में अधिक समय बिताते हैं, इस प्रकार, वे डेटा quirks को याद करते हैं।

एक डेटा वैज्ञानिक के रूप में विकसित होने के लिए, आपको केवल यह सुनिश्चित करने की ज़रूरत है कि उत्पाद या एल्गोरिथ्म "आवश्यकताओं को पूरा करता है" और स्वामित्व ले। आपको डेटा और इसकी क्विर्क को समझने की जिम्मेदारी लेनी होगी। इस तरह, आप अपने प्रबंधक या निर्देशक को आपके द्वारा की गई किसी भी और सभी मान्यताओं से पूरी तरह से अवगत करा सकते हैं। यदि वह डेटा पर खराब आउटपुट को दोष देता है, तो एक डेटा वैज्ञानिक वास्तव में विकसित नहीं हो सकता है।

अपने निष्कर्षों के मूल्य को स्पष्ट रूप से बताने में सक्षम हो

एक डेटा वैज्ञानिक के रूप में विकसित होने के लिए, आपको एक प्रोग्रामर / सांख्यिकीविद् होने से परे विस्तार करना होगा। आपको यह जानने की ज़रूरत है कि संचारक कैसे होना चाहिए और अपने निष्कर्षों के मूल्य को संक्षिप्त रूप से बताने की क्षमता प्राप्त करनी चाहिए और यह भी बताना चाहिए कि आपके निदेशक को सूचना के साथ क्या करना चाहिए।

यह निर्देशकों और प्रबंधकों को सभी ग्राफ़, सभी डेटा और सभी तकनीकी जानकारी प्रदान करने के लिए लुभाने वाला हो सकता है जो कि हमारे शोध के दौरान एकत्रित किए गए थे ताकि साबित हो सके कि हम वास्तव में काम कर रहे थे। विशेष रूप से डेटा विज्ञान में, जहां कभी-कभी एक समस्या पर (अच्छे कारण के लिए) मूल्यवान हेडवे बनाने में कुछ महीने लगते हैं। हालाँकि, इसके अंत में, निर्देशक अधिक जानकारी नहीं चाहते हैं।

सभी निर्देशक चाहते हैं कि महत्वपूर्ण बिंदु हों, और वे जानना चाहते हैं कि उन बिंदुओं के आधार पर उन्हें क्या करना चाहिए। आरओसी के बारे में जाना और आपने एक एल्गोरिथम बनाम दूसरे का उपयोग क्यों किया, यह प्रबंधक या निदेशक के लिए 8 अन्य टीमों के प्रबंधन के लिए बहुत सहायक नहीं होगा। अधिकांश समय, हम पाते हैं कि प्रबंधक वास्तव में केवल 2-3 संक्षिप्त अंक चाहते हैं। कभी-कभी तो बस "हाँ" या "नहीं" से बेहतर है "हो सकता है, इन स्थितियों में ... ब्ला ब्ला ... संभावना है कि इन जोखिमों में से एक है, संभावना है कि इन जोखिमों में से दो हैं ..."

एक अनुभवी डेटा वैज्ञानिकों को पता है कि आसुत कार्रवाई वस्तुओं के साथ पॉलिश अंतर्दृष्टि प्रदान करके अपने प्रबंधक की मदद कैसे करें। यदि प्रबंधक अधिक जानना चाहता है, तो वे पूछेंगे (और एक अच्छा डेटा वैज्ञानिक के पास एक उत्तर होगा)। अंत में, प्रबंधक चाहते हैं कि वे अतिरिक्त जानकारी के साथ तैयार न हों, जिससे उन्हें अच्छे निर्णय लेने में मदद न मिले।

अपने व्यवसाय को जानें

किसी भी समय एक डेटा वैज्ञानिक एक नया काम शुरू करता है, यह समझ में आता है कि वे नए व्यवसाय के दिन के बारे में सब कुछ नहीं समझ रहे हैं। सिर्फ डेटा स्रोतों, कोड आधारों और अन्य कंपनी विशिष्ट प्रणालियों के अलावा बहुत कुछ सीखना है। उन्हें उस डेटा के संचालन के दिन के बारे में जानने की जरूरत है जिसके साथ वे काम करेंगे। कंपनी को जिन समस्याओं का सामना करना पड़ रहा है, उन्हें भी समझना होगा। हालांकि, एक अनुभवी डेटा वैज्ञानिकों को किसी व्यवसाय की समझ जल्दी हासिल करने में सक्षम होना चाहिए।

अपने तकनीकी कौशल का सम्मान करने पर इतना ध्यान केंद्रित न करें कि आप व्यवसाय सीखने में असफल हों। अलग-अलग टीमों के साथ काम करना सीखें, परियोजनाओं में शामिल हों और खुद को परिश्रमी होने दें। डेटा वैज्ञानिकों को कई अलग-अलग प्रकार के विषय पर परियोजना के बाद परियोजना में फेंक दिया जा सकता है और उन्हें जल्दी से अनुकूलित करने में सक्षम होना चाहिए।

जूनियर डेवलपर्स अक्सर अपने तकनीकी कौशल बनाम अपनी व्यावसायिक समझ को सम्मानित करने पर अधिक ध्यान केंद्रित करेंगे। कई अन्य ट्रेडों की तरह, जहां ग्रंट कार्य (इस मामले में कोडिंग, डेटा क्लींजिंग आदि) निचले स्तरों पर किए जाते हैं। यह उन्हें इस बात की गहराई से समझने के लिए समय नहीं देता है कि वे व्यवसाय को कैसे मदद कर सकते हैं।

हालांकि, यह डेटा वैज्ञानिक के शुरुआती वर्षों में एक महत्वपूर्ण चरण है ताकि यह सुनिश्चित किया जा सके कि वे तकनीकी कौशल का एक व्यापक सेट तैयार करें। अधिक अनुभवी डेटा वैज्ञानिकों को अपनी परियोजनाओं के कारण पर अधिक ध्यान केंद्रित करने की आवश्यकता है। यदि कोई प्रबंधक अपने अधिक अनुभवी डेटा विज्ञान टीम के सदस्यों को व्यवसाय को विकसित करने और सीखने के लिए चुनौती नहीं देता है, तो यह विकास की कमी के लिए कुछ हद तक उनकी गलती है। प्रत्येक वर्ष या हर कुछ महीनों में, प्रबंधकों को यह सुनिश्चित करने के लिए अधिक अनुभवी डेटा वैज्ञानिकों को चुनौती देने में मदद करने की आवश्यकता होती है कि वे वास्तव में बढ़ रहे हैं। अन्यथा, अधिकतम आरओआई पर एक व्यवसाय खो रहा है।

प्रबंधित करें

प्रबंध करना किसी भी विषय में कठिन है। तकनीकी विषयों में यह कभी-कभी किसी एक प्रबंधक की तकनीकी पृष्ठभूमि के आधार पर कठिन हो सकता है। व्यवसाय केंद्रित प्रबंधकों को तकनीकी टीमों का मार्गदर्शन करने का अनुभव नहीं हो सकता है। यह अनुभवी डेटा वैज्ञानिकों के लिए प्रबंधन करने के लिए कौशल होना महत्वपूर्ण है।

एक डेटा वैज्ञानिक जो प्रबंधन करने में अच्छा है वह लोगों को समझता है। प्रबंधन के लिए एक डेटा वैज्ञानिकों (या उस मामले के लिए किसी भी कंपनी में किसी को भी) की आवश्यकता होती है ताकि बॉस की जरूरतों को समझने में समय लग सके। सिर्फ कंपनी की जरूरत नहीं है। बॉस आपसे और खुद से क्या चाहता है? एक बार जब आप समझ जाते हैं, तो आप समझते हैं कि उन्हें क्या चला रहा है। यह एक डेटा वैज्ञानिक को उसके मालिकों से पूछे जाने से पहले उसकी जरूरतों का अनुमान लगाने की अनुमति देगा। यह विश्वास विकसित करने में मदद करेगा, साथ ही साथ अपने प्रबंधकों और निदेशकों से आगे निवेश भी करेगा। यह दुनिया आपके विकास के बारे में नहीं है। प्रबंधकों को भी विकसित करना चाहते हैं! एक अनुभवी (कोई भी) के रूप में आप जानते हैं कि दूसरों की मदद करने और अपने लक्ष्यों को पूरा करने का मतलब है कि आप भी जीतें।

सारांश

डेटा वैज्ञानिकों से अपेक्षा की जाती है कि वे केवल एल्गोरिदम बनाएं और डेटा के बड़े सेट का प्रबंधन करें। अनुभवी डेटा वैज्ञानिकों का मान न केवल उनकी तकनीकी क्षमताओं से आता है, बल्कि उनके सॉफ्ट ऑनर स्किल्स से भी है। सूचना और एल्गोरिदम डेटा वैज्ञानिक ऊपरी प्रबंधन निर्णयों को आगे बढ़ाएंगे। इस प्रकार, जो कुछ भी वे प्रदान करते हैं उन्हें निर्देशकों और वीपीओं द्वारा समझने की आवश्यकता है जो लाखों से अरबों डॉलर के लोगों, संसाधनों, उपकरणों, परियोजनाओं का प्रबंधन कर रहे हैं ... और एक कंपनी में बाकी सब कुछ। इसका मतलब है कि एक डेटा वैज्ञानिक को किसी व्यवसाय के मूल्य में वृद्धि करने के लिए, उन्हें सीखना चाहिए कि व्यवसाय क्या मूल्यवान होगा।