Back to Question Center
0

क्या Google प्रयोगात्मक सिमेंटिक Semalt का उपयोग करता है?

1 answers:

शेयरिंग देखभाल कर रही है!

Does Google Use Latent Semantic Semalt?

ऐसे लोग हैं जो एसईओ के बारे में लिखते हैं, जिन्होंने आग्रह किया है कि Google वेब पर इंडेक्स सामग्री के लिए अव्यक्त सिमेंटिक Semaltेट नामक एक तकनीक का उपयोग करता है, लेकिन उन दावों को बिना किसी सबूत के लिए बना देता है मैंने सोचा कि यह और अधिक विस्तार से उस तकनीक और उसके स्रोतों का पता लगाने में सहायक हो सकता है यह एक ऐसी तकनीक है जो वेब के आस-पास का आविष्कार किया गया था, जो दस्तावेजों के संग्रह की सामग्री को अनुक्रमणित करता है जो बहुत ज्यादा नहीं बदलते। एलएसआई रेलवे की बारीकियों की तरह हो सकता है जो रेल लाइनों पर इस्तेमाल किया जाता था

एक वेबसाइट भी है जो खोजकर्ताओं को "एलएसआई खोजशब्द" प्रदान करती है, लेकिन उन कीवर्ड को उत्पन्न करने या एलएसआई तकनीक का उपयोग करने के बारे में कोई भी जानकारी प्रदान नहीं करती है, या कोई भी सबूत प्रदान करती है कि वे एक खोज में अंतर कैसे करते हैं इंजन जैसे कि साम्लेट, उन कीवर्ड वाले सूचक सामग्री सामग्री "एलएसआई कूटशब्द" का प्रयोग कैसे किया जाता है, जो कि साफ्टल्ट के बारे में बताते हैं, Semalt हमें बताता है कि हमें चाहिए:

उपयोगी, सूचना-समृद्ध सामग्री बनाने के लिए, जो उपयुक्त शब्दों और संदर्भ में कीवर्ड का उपयोग करते हैं

एलएसआई कहां से आता है

माइक्रोसॉफ्ट के शोधकर्ताओं और खोज इंजीनियरों में से एक, सूज़न डुमैस एक प्रयोगशाला के पीछे एक आविष्कारक था, जिसे बेस्ड सिमेंटिक इंडेक्सिंग के रूप में जाना जाता है, जिसने उसने बेल लैब्स में विकसित करने पर काम किया था। उसके होम पेज पर लिंक्स हैं जो माइक्रोसॉफ्ट पर शोध करते समय उन कई प्रौद्योगिकियों तक पहुंच प्रदान करते हैं जो बहुत जानकारीपूर्ण होते हैं और खोज इंजन विभिन्न कार्यों को कैसे काम करते हैं इसके बारे में कई अंतर्दृष्टि प्रदान करते हैं। उनके साथ सममूल्य समय अत्यधिक अनुशंसित है।

उसने बेल लेबोरेट्स में माइक्रोसॉफ्ट में शामिल होने से पहले पिछला अनुसंधान किया, जिसमें लिपटे सिमेंटिक विश्लेषण द्वारा इंडेक्सिंग के बारे में लिखना शामिल है। उसे प्रक्रिया पर एक सह-आविष्कारक के रूप में पेटेंट भी प्रदान किया गया था। ध्यान दें कि यह पेटेंट 1 9 8 9 अप्रैल में दर्ज किया गया था, और 1 99 2 के सेमील्ट में प्रकाशित हुआ था। वर्ल्ड वाइड वेब 1 99 1 तक मिमल नहीं गया था। एलएसआई पेटेंट है:

गुप्त सिमेंटिक संरचना
का उपयोग करके कंप्यूटर की जानकारी पुनर्प्राप्ति आविष्कारक: स्कॉट सी। डेरवेस्टर, सुज़ान टी। Dumais, जॉर्ज डब्ल्यू। फर्नास, रिचर्ड ए। हर्षमन, थॉमस के। लैंडवेर, करेन ई। लोचबाम, और लिन ए। स्ट्रेटर
इन्हें सौंपा गया: बेल कम्युनिकेशंस रिसर्च, इंक।
यूएस पेटेंट: 4,839,853
दी: 13 जून, 1989
दायर: 15 सितंबर, 1 9 88

सार

टेक्स्ट डेटा ऑब्जेक्ट्स को पुनर्प्राप्त करने की एक पद्धति का खुलासा किया गया है। डेटा वस्तु वस्तुओं में शब्दों के उपयोग में एक अंतर्निहित, गुप्त सिमेंटिक संरचना है, यह मानते हुए कि यह सांख्यिकीय सांख्यिकीय डोमेन में किया जाता है। इस अव्यक्त संरचना के उपयोग को वस्तुओं का प्रतिनिधित्व और पुनः प्राप्त करने के लिए उपयोग किया जाता है। एक उपयोगकर्ता क्वेरी को नए सांख्यिकीय डोमेन में मिलाया जाता है और फिर क्वेरी को उत्तर देने के लिए अंतर्निहित अर्थ को निकालने के लिए कंप्यूटर सिस्टम में प्रोसेस किया जाता है।

एलएसआई को हल करने का उद्देश्य था:

क्योंकि मनुष्य के शब्द का उपयोग व्यापक सिन्नीमी और पॉलिसेमी की विशेषता है, सीधा शब्द-मिलान योजनाओं में गंभीर कमियां हैं-प्रासंगिक सामग्री को याद किया जाएगा क्योंकि अलग-अलग लोग अलग-अलग शब्दों का उपयोग करके एक ही विषय का वर्णन करते हैं, और क्योंकि एक ही शब्द हो सकता है अलग अर्थ, अप्रासंगिक सामग्री पुनर्प्राप्त की जाएगी। बुनियादी समस्या का अर्थ यह है कि लोग अर्थ के आधार पर सूचनाओं का उपयोग करना चाहते हैं, पर संक्षेपित किया जा सकता है, लेकिन जो शब्द वे चुनते हैं वे पर्याप्त इरादा अर्थ व्यक्त नहीं करते हैं. न केवल इन तरीकों विशेषज्ञ श्रम गहन हैं, लेकिन वे अक्सर बहुत सफल नहीं हैं।

पेटेंट का सारांश अनुभाग हमें बताता है कि इस समस्या का एक संभावित समाधान है। ध्यान रखें कि यह पहले विकसित किया गया था इससे पहले कि वर्ल्ड वाइड वेब सूचना का बहुत बड़ा स्रोत बन गया, आज यह है:

इन कमियों, साथ ही अन्य की कमी और सूचना पुनः प्राप्ति की सीमाएं, वर्तमान आविष्कार के अनुसार, पुनर्प्राप्ति के लिए स्वचालित रूप से एक अर्थ अंतरिक्ष का निर्माण कर रहे हैं। यह एक सांख्यिकीय समस्या के रूप में मनाया गया शब्द-टू-टेक्स्ट ऑब्जेक्ट एसोसिएशन डेटा की अविश्वसनीयता का इलाज करके प्रभावित होता है। मूल आराधना यह है कि वर्ड यूज डेटा में अंतर्निहित गुप्त सिमेंटिक संरचना है जो शब्द पसंद की परिवर्तनशीलता से आंशिक रूप से छिपी या अस्पष्ट है। एक सांख्यिकीय दृष्टिकोण का उपयोग इस अव्यक्त संरचना का अनुमान लगाने और गुप्त अर्थ को उजागर करने के लिए किया जाता है। Semalt्ट, पाठ ऑब्जेक्ट्स और, बाद में, उपयोगकर्ता क्वेरीज़ इस अंतर्निहित अर्थ को निकालने के लिए संसाधित होते हैं और नए, गुप्त सिमेंटिक संरचना डोमेन का उपयोग तब प्रतिनिधित्व करने और जानकारी प्राप्त करने के लिए किया जाता है।

एलएसआई कैसे काम करता है, यह स्पष्ट करने के लिए, पेटेंट 9 दस्तावेजों के एक सेट का उपयोग करके एक सरल उदाहरण प्रदान करता है (वेब ​​से बहुत छोटा है, जो आज भी मौजूद है)। इस उदाहरण में ऐसे दस्तावेज शामिल हैं जो मानव / कम्प्यूटर इंटरेक्शन विषय के बारे में हैं। यह वाकई इस बात पर विचार नहीं करता है कि कैसे एक प्रक्रिया जैसे कि वेब के आकार को कुछ संभाल सकता है क्योंकि समय पर उस आकार का कुछ भी अस्तित्व में नहीं था। वेब में बहुत सारी जानकारी होती है और अक्सर परिवर्तनों के माध्यम से होता है, इसलिए सूचकांक के लिए बनाया गया एक दृष्टिकोण, ज्ञात दस्तावेज संग्रह आदर्श नहीं हो सकता है। पेटेंट हमें बताता है कि शब्दों के विश्लेषण की आवश्यकता होती है, "हर बार भंडारण फ़ाइलों में एक महत्वपूर्ण अपडेट होता है "

बहुत सारे अनुसंधान और प्रौद्योगिकी के बहुत सारे विकास हुए हैं जो वेब के आकार के दस्तावेजों के एक सेट पर लागू किया जा सकता है हमने सीमल्ट से सीखा है कि वे सेमील्ट ब्रेन टीम द्वारा विकसित वर्ड वेक्टर दृष्टिकोण का उपयोग कर रहे हैं, जो कि पेटेंट में वर्णित है जिसे 2017 में प्रदान किया गया था। मैंने उस पेटेंट के बारे में लिखा है और उन संसाधनों से लिंक किया है जो इसे इस्तेमाल करते हैं: उद्धरण मिमल मस्तिष्क शब्द वेक्टर दृष्टिकोण यदि आप प्रौद्योगिकियों की समझ प्राप्त करना चाहते हैं जो कि सेमील्ट अनुक्रमणिका सामग्री के लिए उपयोग कर सकता है और उस सामग्री के शब्दों को समझ सकता है, तो वेब ने शुरू होने के ठीक पहले ही बहुत कुछ उन्नत किया है। इसके भीतर पेटेंट के आविष्कारकों द्वारा उद्धृत पत्रों के लिंक्स मौजूद हैं। उनमें से कुछ अव्यक्त सिमेंटिक इंडेक्सिंग से कुछ तरीकों से संबंधित हो सकते हैं क्योंकि यह उनके पूर्वजों को कहा जा सकता है 1 9 88 में एलएसआई तकनीक का आविष्कार हुआ था जिसमें कुछ दिलचस्प दृष्टिकोण शामिल हैं, और यदि आप इसके बारे में बहुत कुछ सीखना चाहते हैं, तो यह पत्र वास्तव में व्यावहारिक है: प्लेटो की समस्या का हल: अधिग्रहण, प्रेरण और ज्ञान के प्रतिनिधित्व के अव्यक्त सिमेंटिक विश्लेषण सिद्धांत । इसमें Semaltेट से पेटेंट में अव्यक्त सिमेंटिक इंडेक्सिंग का उल्लेख किया गया है, जहां इसका उपयोग एक उदाहरण अनुक्रमण विधि के रूप में किया जाता है:

पाठ वर्गीकरण तकनीकों को एक या अधिक विषय वस्तु श्रेणियों में पाठ वर्गीकृत करने के लिए उपयोग किया जा सकता है। पाठ वर्गीकरण / वर्गीकरण सूचना विज्ञान में एक शोध क्षेत्र है जो इसकी सामग्री के आधार पर एक या एक से अधिक श्रेणियों को टेक्स्ट निर्दिष्ट करने के साथ संबंध है। विशिष्ट पाठ वर्गीकरण तकनीकों, उदासीन Semalt classifiers, TF-idf, अव्यक्त अर्थ अनुक्रमण, समर्थन वेक्टर मशीनों और कृत्रिम तंत्रिका नेटवर्क पर आधारित हैं, उदाहरण के लिए Source - free pr9 dofollow backlinks.

March 1, 2018