Walton Electronics Co., Ltd.
हमसे संपर्क करें

व्यक्ति से संपर्क करें : Walton-cara

फ़ोन नंबर : 15986872308

Free call

मशीन लर्निंग के लिए कई चरणों की आवश्यकता होती है

July 18, 2022

परिचय

मशीन लर्निंग (एमएल) की तैनाती एक बहु-चरणीय प्रक्रिया है।इसमें एक मॉडल का चयन करना, उसे एक विशिष्ट कार्य के लिए प्रशिक्षण देना, परीक्षण डेटा के साथ इसे मान्य करना और फिर उत्पादन में मॉडल की तैनाती और निगरानी करना शामिल है।यहां, हम इन चरणों पर चर्चा करेंगे और आपको एमएल से परिचित कराने के लिए उन्हें तोड़ेंगे।एमएल उन प्रणालियों को संदर्भित करता है, जो स्पष्ट निर्देश के बिना सीखने और सुधारने में सक्षम हैं।ये सिस्टम किसी विशेष कार्य या कार्य को करने के लिए डेटा से सीखते हैं।कुछ मामलों में, सीखना।या अधिक विशिष्ट प्रशिक्षण, पर्यवेक्षित तरीके से होता है जहां गलत आउटपुट के परिणामस्वरूप मॉडल को सही आउटपुट की ओर ले जाने के लिए समायोजित किया जाता है।अन्य मामलों में, असुरक्षित शिक्षण तब होता है जब सिस्टम पहले के अज्ञात पैटर्न को प्रकट करने के लिए डेटा को व्यवस्थित करता है।अधिकांश एमएल मॉडल इन दो प्रतिमानों (पर्यवेक्षित बनाम अनुपयोगी शिक्षा) का पालन करते हैं।आइए अब एक मॉडल के अर्थ में खुदाई करें और फिर पता लगाएं कि डेटा मशीन लीमिंग के लिए ईंधन कैसे बनता है।मशीन-लर्निंग मॉडल एक मॉडल मशीन लर्निंग के समाधान का एक सार है।मॉडल आर्किटेक्चर को परिभाषित करता है, जो एक बार प्रशिक्षित होने के बाद कार्यान्वयन बन जाता है।इसलिए, हम मॉडल तैनात नहीं करते हैं।हम डेटा से प्रशिक्षित मॉडलों के कार्यान्वयन को तैनात करते हैं (इस पर अगले भाग में अधिक)।तो मॉडल प्लस डेटा प्लस प्रशिक्षण एमएल समाधान (चित्रा 1) के समान उदाहरण।अनुवाद की आवश्यकता है।उदाहरण के लिए, पाठ डेटा को एक गहन-शिक्षण नेटवर्क में फीड करने के लिए शब्दों को एक संख्यात्मक रूप में एन्कोडिंग की आवश्यकता होती है जो आमतौर पर एक उच्च-आयामी वेक्टर होता है जिसे विभिन्न शब्दों का उपयोग किया जा सकता है।इसी तरह, आउटपुट को संख्यात्मक रूप से वापस पाठ्य रूप में अनुवाद की आवश्यकता हो सकती है।एमएल मॉडल कई प्रकार के होते हैं, जिनमें न्यूरल नेटवर्क मॉडल, बायेसियन मॉडल, रिग्रेशन मॉडल, क्लस्टरिंग मॉडल और बहुत कुछ शामिल हैं।आपके द्वारा चुना गया मॉडल समस्या पर आधारित है।तंत्रिका नेटवर्क के संदर्भ में, मॉडल उथले बहु-परत नेटवर्क से लेकर गहरे तंत्रिका नेटवर्क तक होते हैं जिनमें कई परतें शामिल होती हैं

विशेष न्यूरॉन्स (प्रसंस्करण इकाइयों) की।डीप न्यूरल नेटवर्क में आपके लक्षित एप्लिकेशन के आधार पर कई प्रकार के मॉडल उपलब्ध होते हैं।

उदाहरण के लिए:

यदि आपका एप्लिकेशन छवियों के भीतर वस्तुओं की पहचान करने पर केंद्रित है, तो कन्वेन्शनल न्यूरल नेटवर्क (CNN) एक आदर्श मॉडल है।सीएनएन को त्वचा-कैंसर का पता लगाने और औसत त्वचा विशेषज्ञ से बेहतर प्रदर्शन करने के लिए लागू किया गया है।

यदि आपके आवेदन में जटिल अनुक्रमों की भविष्यवाणी करना या उत्पन्न करना शामिल है (जैसे मानव भाषा वाक्य), तो आवर्तक तंत्रिका नेटवर्क (RNN) या लॉन्ग-शॉर्ट-टर्म-मेमोरी नेटवर्क (LSTM) आदर्श मॉडल हैं।LSTM को मानव भाषाओं के मशीनी अनुवाद पर भी लागू किया गया है।

यदि आपके आवेदन में मानव भाषा में किसी छवि की सामग्री का वर्णन करना शामिल है, तो सीएनएन और एलएसटीएम के संयोजन का उपयोग किया जा सकता है (जहां छवि सीएनएन में फीड की जाती है और सीएनएन का आउटपुट एलएसटीएम के इनपुट का प्रतिनिधित्व करता है, जो शब्द अनुक्रम उत्सर्जित करता है)।

यदि आपके एप्लिकेशन में यथार्थवादी छवियां (जैसे परिदृश्य या चेहरे) उत्पन्न करना शामिल है, तो एक जनरेटिव एडवरसैरियल नेटवर्क (जीएएन) वर्तमान अत्याधुनिक मॉडल का प्रतिनिधित्व करता है।ये मॉडल आज उपयोग में आने वाले कुछ अधिक लोकप्रिय गहरे तंत्रिका नेटवर्क आर्किटेक्चर का प्रतिनिधित्व करते हैं।डीप न्यूरल नेटवर्क लोकप्रिय हैं क्योंकि वे छवियों, वीडियो या ऑडियो जानकारी जैसे असंरचित डेटा को स्वीकार कर सकते हैं।नेटवर्क के भीतर की परतें सुविधाओं के एक पदानुक्रम का निर्माण करती हैं जो उन्हें बहुत जटिल जानकारी को वर्गीकृत करने की अनुमति देती हैं।डीप न्यूरल नेटवर्क ने बड़ी संख्या में समस्या डोमेन पर अत्याधुनिक प्रदर्शन का प्रदर्शन किया है।लेकिन अन्य एमएल मॉडल की तरह, उनकी सटीकता डेटा पर निर्भर करती है।आइए आगे इस पहलू को देखें।

डेटा और प्रशिक्षण

डेटा वह ईंधन है जो मशीन लर्निंग को संचालित करता है, न केवल संचालन में बल्कि मॉडल प्रशिक्षण के माध्यम से एमएल समाधान का निर्माण भी करता है।गहरे तंत्रिका नेटवर्क के प्रशिक्षण डेटा के संदर्भ में, मात्रा और गुणवत्ता के संदर्भ में आवश्यक डेटा का पता लगाना महत्वपूर्ण है।डीप न्यूरल नेटवर्क को प्रशिक्षण के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है।छवि-आधारित वर्गीकरण के लिए अंगूठे का एक नियम 1,000 छवियां है

प्रति वर्ग।लेकिन उत्तर मॉडल की जटिलता और त्रुटि के लिए सहनशीलता पर निर्भर है।उत्पादन एमएल समाधान से कुछ उदाहरण डेटासेट आकार का एक स्पेक्ट्रम उत्पन्न करते हैं।एक फेशियल डिटेक्टी ऑन और रिकग्निशन सिस्टम के लिए 450,000 छवियों की आवश्यकता होती है, और एक प्रश्न-उत्तर चैटबॉट को 200,000 प्रश्नों के साथ 2 मिलियन उत्तरों के साथ प्रशिक्षित किया गया था।हल की जा रही समस्या के आधार पर छोटे डेटासेट भी पर्याप्त हो सकते हैं।एक भावना विश्लेषण समाधान जो लिखित पाठ से राय की ध्रुवीयता को निर्धारित करता है, केवल दसियों हज़ार नमूनों की आवश्यकता होती है।डेटा की गुणवत्ता उतनी ही महत्वपूर्ण है जितनी मात्रा।प्रशिक्षण के लिए आवश्यक बड़े डेटासेट को देखते हुए, गलत प्रशिक्षण डेटा की थोड़ी मात्रा भी खराब समाधान का कारण बन सकती है।आवश्यक डेटा के प्रकार के आधार पर, आपका डेटा एक सफाई प्रक्रिया से गुजर सकता है।यह सुनिश्चित करता है कि डेटासेट सुसंगत है, डुप्लिकेट डेटा की कमी है, सटीक है, और पूर्ण है (अमान्य या अपूर्ण डेटा का अभाव है)।इस प्रक्रिया का समर्थन करने के लिए उपकरण मौजूद हैं।पूर्वाग्रह के लिए डेटा को मान्य करना यह सुनिश्चित करने के लिए भी महत्वपूर्ण है कि डेटा पक्षपाती एमएल समाधान की ओर नहीं ले जाता है।एमएल प्रशिक्षण संख्यात्मक डेटा पर संचालित होता है, इसलिए आपके समाधान के आधार पर एक पूर्व-प्रसंस्करण चरण की आवश्यकता हो सकती है।उदाहरण के लिए, यदि आपका डेटा मानव भाषा है, तो इसे संसाधित करने के लिए पहले इसे संख्यात्मक रूप में अनुवादित किया जाना चाहिए।छवियों को स्थिरता के लिए पूर्व-संसाधित किया जा सकता है।उदाहरण के लिए, एक गहरे तंत्रिका नेटवर्क में फीड की गई छवियों को शोर (अन्य कार्यों के बीच) को दूर करने के लिए आकार दिया जाएगा और चिकना किया जाएगा।एमएल में सबसे बड़ी समस्याओं में से एक आपके एमएल समाधान को प्रशिक्षित करने के लिए डेटासेट प्राप्त करना है।आपकी समस्या के आधार पर यह सबसे बड़ा प्रयास हो सकता है क्योंकि यह अस्तित्व में नहीं हो सकता है और इसके लिए एक अलग प्रयास की आवश्यकता होती है

कब्जा करना।अंत में, डेटासेट को प्रशिक्षण डेटा और परीक्षण डेटा के बीच विभाजित किया जाना चाहिए।प्रशिक्षण भाग का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, और एक बार प्रशिक्षित होने के बाद, परीक्षण डेटा का उपयोग समाधान की सटीकता को सत्यापित करने के लिए किया जाता है

 

हम से संपर्क में रहें

अपना संदेश दर्ज करें