Back to Question Center
0

सेमलेट - कैसे वेब पेजों को परिमार्जन करने के लिए?

1 answers:

सुंदर सूप एक पायथन लाइब्रेरी है जो व्यापक रूप से एक पर्स ट्री बनाकर वेब पृष्ठों को स्क्रैप करता था एक्सएमएल और एचटीएमएल दस्तावेजों से. वेब स्क्रैपिंग, वेबसाइटों और पृष्ठों से डेटा निकालने की एक तकनीक, डेटा विश्लेषण और प्रबंधन क्षेत्रों में व्यापक रूप से उपयोग किया जाता है. ज्यादातर मामलों में, पायथन प्रोग्रामिंग भाषा डेटा विज्ञान में एक शर्त है.

पायथन 3 में स्क्रैपिंग टूल और मॉड्यूल हैं जो आप अपने डेटा प्रबंधन प्रोजेक्ट पर लागू कर सकते हैं. वर्तमान में सुंदर सूप 4 के रूप में चल रहा है, यह मॉड्यूल पायथन 3 और पायथन 2 दोनों के साथ संगत है. 7. सुंदर सूप 4 मॉड्यूल गैर बंद टैग सूप के लिए एक पेर्स ट्री बनाने में भी सक्षम है. इस ट्यूटोरियल में, आप पेज को कैसे स्क्रैप करेंगे और स्क्रैप डेटा को एक सीएसवी फ़ाइल में कैसे लिखेंगे यह सीख लेंगे.

आरंभ करना (1 9)

आरंभ करने के लिए, अपने पीसी पर एक सर्वर या स्थानीय-आधारित पायथन कोडिंग वातावरण सेट करें. आपको अपनी मशीन पर सुंदर सूप और अनुरोध मॉड्यूल भी इंस्टॉल करना चाहिए. दोनों मॉड्यूल के साथ काम करने का ज्ञान भी आवश्यक पूर्वापेक्षा है. HTML टैगिंग और संरचना के साथ परिचित भी एक अतिरिक्त लाभ है.

आपके डेटा को समझना (1 9)

इस संदर्भ में, नेशनल गैलरी ऑफ आर्ट का वास्तविक डेटा इस्तेमाल किया जाएगा ताकि आप समझ सकें कि सुंदर सूप 4 कैसे इस्तेमाल किया जाए. नेशनल गैलरी ऑफ़ आर्ट में 120,000 टुकड़े शामिल हैं, जो लगभग 13,000 कलाकारों द्वारा किया जाता है. कला वाशिंगटन डी में आधारित है. सी, संयुक्त राज्य अमेरिका.

सुंदर सूप के साथ वेब डेटा निष्कर्षण जटिल नहीं है. उदाहरण के लिए, यदि आप पत्र Z पर ध्यान केंद्रित करते हैं, तो चिह्नित करें और सूची में पहले नाम पर ध्यान दें. इस मामले में, पहला नाम ज़ाग्लिया, निककोला है. स्थिरता के लिए, उस पृष्ठ पर अंतिम कलाकारों के पृष्ठों की संख्या और नाम बताएं.

अनुरोध और सुंदर सूप पुस्तकालय कैसे आयात करें

पुस्तकालयों को आयात करने के लिए, अपने पायथन 3 प्रोग्रामिंग वातावरण को सक्रिय करें. यह सुनिश्चित करने के लिए जांचें कि आप अपने प्रोग्रामिंग वातावरण के साथ एक ही निर्देशिका में हैं. आरंभ करने के लिए निम्न आदेश चलाएं. my_env / bin / सक्रिय.

एक नई फ़ाइल बनाएं और सुंदर सूप और अनुरोध पुस्तकालयों को आयात करना शुरू करें. अनुरोध लाइब्रेरी आपको पढ़ने योग्य प्रारूपों में अपने पायथन कार्यक्रमों के भीतर HTTP का उपयोग करने की अनुमति देगा. दूसरी तरफ सुंदर सूप, पृष्ठों को जल्दी से स्क्रैप करने के लिए काम करता है. सुंदर सूप आयात करने के लिए बीएस 4 का उपयोग करें.

एक वेब पेज को एकत्रित और पार्स कैसे करें

अनुरोधों का उपयोग करना आपके पहले पृष्ठ का यूआरएल जमा करता है. प्रथम पृष्ठ का यूआरएल चर पेज को सौंपा जाएगा. अनुरोध से एक सुंदर सूप ऑब्जेक्ट बनाएं और ऑब्जेक्ट को अजगर के पार्सर से पार्स करें.

इस ट्यूटोरियल में, उद्देश्य लिंक और कलाकारों के नाम एकत्र करना है. उदाहरण के लिए, आप कलाकारों की तिथियां और राष्ट्रीयता एकत्र कर सकते हैं. विंडोज उपयोगकर्ताओं के लिए, कलाकार के पहले नाम पर राइट क्लिक करें. इस मामले में, जबाग्लिया, निककोला का उपयोग करें. मैक ओएस उपयोगकर्ताओं के लिए, "CTRL" को टैप करें और नाम पर क्लिक करें. वेब डेवलपर्स के उपकरण तक पहुंचने के लिए आपकी स्क्रीन पर पॉप-अप "एप्लैक्ट एलिमेंट" मेनू पर क्लिक करें. सुंदर सूप को एक पेड़ को तुरंत पेस्ट करने के लिए कलाकार के नामों को प्रिंट करें.

निचले लिंक को हटाना (1 9)

अपने वेब पेज पर निचले लिंक्स को दूर करने के लिए, तत्व को राइट-क्लिक करके डोम का निरीक्षण करना. आप पहचान लेंगे कि लिंक एक HTML तालिका के अंतर्गत हैं I. सुंदर सूप का प्रयोग, पार्स ट्री से टैग निकालने के लिए "विघटित विधि" का उपयोग करें.

एक टैग से सामग्री कैसे खींचें

आपको पूरे लिंक टैग को प्रिंट करने की ज़रूरत नहीं है, किसी टैग से सामग्री को निकालने के लिए सुंदर सूप का उपयोग करें. सुंदर सूप 4 का उपयोग करके आप कलाकारों से जुड़े यूआरएल भी कैप्चर कर सकते हैं.

एक सीएसवी फ़ाइल (1 9)

सीएसवी फ़ाइल में स्क्रैप किया गया डेटा कैप्चर करने से आपको एक सादा पाठ में संरचित डेटा स्टोर करने की अनुमति मिलेगी, जो प्रारूप ज्यादातर डेटापत्रक के लिए उपयोग किया जाता है. अजगर में सादा पाठ फ़ाइलों को संभालने पर ज्ञान की सिफारिश की जाती है.

वेब डेटा निष्कर्षण का उपयोग पृष्ठों को परिमार्जन करने और जानकारी प्राप्त करने के लिए किया जाता है. उन वेबसाइटों पर ध्यान रखें जिनके बारे में जानकारी निकाली जा रही है. कुछ गतिशील वेबसाइटें अपनी साइट पर वेब डेटा निकासी को प्रतिबंधित करती हैं. सुंदर सूप और पायथन 3 के साथ पृष्ठ को स्क्रैप करने के लिए यह सरल है.

December 22, 2017
सेमलेट - कैसे वेब पेजों को परिमार्जन करने के लिए?
Reply