परिचय
- वीडियो में RAG (Retrieval-Augmented Generation) आधारित एप्लीकेशंस के लिए टेक्स्ट स्प्लिटिंग के महत्व को समझाया गया है।
- पिछले वीडियो में डॉक्यूमेंट लोडर्स पर चर्चा हुई थी , अब टेक्स्ट स्प्लिटिंग के विभिन्न तरीकों को सीखेंगे।
टेक्स्ट स्प्लिटिंग क्या है?
- बड़े टेक्स्ट या PDF को छोटे-छोटे चंक्स में विभाजित करने की प्रक्रिया।
- LLM (Large Language Models) की इनपुट लिमिटेशन को ध्यान में रखते हुए टेक्स्ट को छोटे हिस्सों में बांटना जरूरी होता है।
- इससे मॉडल की आउटपुट क्वालिटी बेहतर होती है।
टेक्स्ट स्प्लिटिंग के कारण
- मॉडल की Context Length लिमिटेशन:
- LLMs की एक इनपुट साइज लिमिट होती है, जैसे 50,000 टोकन्स।
- बड़े डॉक्यूमेंट को सीधे इनपुट में देना संभव नहीं होता।
- बेहतर डाउनस्ट्रीम टास्क परफॉर्मेंस:
- एंबेडिंग, सिमटिक सर्च, समरी जैसे टास्क में छोटे चंक्स बेहतर रिजल्ट देते हैं।
- कंप्यूटेशनल रिसोर्स ऑप्टिमाइजेशन:
- छोटे चंक्स प्रोसेस करने से मेमोरी कम लगती है और पैरेलल प्रोसेसिंग संभव होती है।
टेक्स्ट स्प्लिटिंग की प्रमुख तकनीकें
1. लेंथ बेस्ड टेक्स्ट स्प्लिटिंग
- टेक्स्ट को कैरेक्टर्स या टोकन्स की संख्या के आधार पर छोटे चंक्स में बांटना।
- सबसे सरल और तेज़ तरीका।
- कोड में LangChain के CharacterTextSplitter का उपयोग।
- फायदे: सरल, तेज़।
- नुकसान: शब्द, वाक्य या पैराग्राफ के बीच में कट सकता है, जिससे सेमांटिक कंटेक्स्ट टूट सकता है।
- चंक ओवरलैप पैरामीटर से दो चंक्स के बीच ओवरलैपिंग कर कंटेक्स्ट खोने से बचा जा सकता है।
2. टेक्स्ट स्ट्रक्चर बेस्ड टेक्स्ट स्प्लिटिंग (Recursive Character Text Splitter)
- टेक्स्ट के संरचनात्मक लेवल (पैराग्राफ, सेंटेंस, वर्ड, कैरेक्टर) के आधार पर स्प्लिटिंग।
- पैराग्राफ से शुरू कर छोटे यूनिट्स में ब्रेक करता है।
- कंटेक्स्ट को बेहतर बनाए रखता है।
- Markdown, कोड, HTML जैसे विशेष डॉक्यूमेंट के लिए भी उपयुक्त।
- LangChain में RecursiveCharacterTextSplitter क्लास का उपयोग।
3. डॉक्यूमेंट बेस्ड टेक्स्ट स्प्लिटिंग
- कोड, मार्कडाउन, HTML जैसे संरचित डॉक्यूमेंट के लिए विशेष सेपरेटर का उपयोग।
- डॉक्यूमेंट के कंस्ट्रक्ट्स (जैसे क्लास, फंक्शन) के आधार पर स्प्लिटिंग।
- LangChain में भाषा विशेष पैरामीटर के साथ RecursiveCharacterTextSplitter का उपयोग।
4. सिमटिक मीनिंग बेस्ड टेक्स्ट स्प्लिटिंग (Experimental)
- टेक्स्ट के अर्थ और विषय के आधार पर स्प्लिटिंग।
- एंबेडिंग मॉडल से सेंटेंस के वेक्टर बनाकर सिमिलैरिटी मापना।
- सिमिलैरिटी में अचानक गिरावट पर स्प्लिटिंग पॉइंट निर्धारित करना।
- अभी प्रयोगात्मक स्तर पर, भविष्य में अधिक उपयोगी।
LangChain में टेक्स्ट स्प्लिटिंग का कोड उदाहरण
- CharacterTextSplitter और RecursiveCharacterTextSplitter क्लासेस का उपयोग।
- PDF डॉक्यूमेंट लोड करके टेक्स्ट स्प्लिटिंग करना।
- चंक साइज और चंक ओवरलैप पैरामीटर सेट करना।
- Markdown और कोड फाइल्स के लिए विशेष स्प्लिटिंग।
- सिमटिक मीनिंग बेस्ड स्प्लिटिंग के लिए OpenAI एंबेडिंग मॉडल का उपयोग।
निष्कर्ष
- टेक्स्ट स्प्लिटिंग RAG एप्लीकेशंस में आवश्यक है ताकि LLM की लिमिटेशन को पार किया जा सके।
- Recursive Character Text Splitter सबसे प्रभावी और व्यापक रूप से उपयोग किया जाने वाला तरीका है।
- सिमटिक मीनिंग बेस्ड स्प्लिटिंग भविष्य में और बेहतर परिणाम दे सकती है।
- LangChain लाइब्रेरी में ये सभी तकनीकें उपलब्ध हैं और आसानी से इम्प्लीमेंट की जा सकती हैं।
सुझाव
- LangChain की आधिकारिक डॉक्यूमेंटेशन पढ़ें।
- अपने प्रोजेक्ट के अनुसार उपयुक्त टेक्स्ट स्प्लिटिंग तकनीक चुनें।
- चंक साइज और ओवरलैप को सही से सेट करें ताकि कंटेक्स्ट लॉस न हो।
अगर आपको वीडियो पसंद आया हो तो लाइक और सब्सक्राइब जरूर करें।
हाय गाइस माय नेम इज नितीश एंड यू वेलकम टू माय youtube-dl में आगे बढ़ रहे हैं और अब हम
रैग बेस्ड एप्लीकेशंस बनाना सीख रहे हैं और जैसा मैंने आपको पिछले वीडियो में बताया था कि पहले हम रैग के जो सबसे
इंपोर्टेंट कंपोनेंट्स है वो बनाना सीख रहे हैं और फिर जब हम यह सब कुछ सीख जाएंगे तो हम एक प्रॉपर रैग एप्लीकेशन
बिल्ड करेंगे तो लास्ट वीडियो में हमने सबसे पहला कंपोनेंट डिस्कस किया था जो था डॉक्यूमेंट लोडर्स आज के वीडियो में हम एक
बहुत इंपोर्टेंट सेकंड कंपोनेंट डिस्कस करेंगे जिसका नाम है टेक्स्ट स्प्लिट्स ठीक है सो लेट्स स्टार्ट द वीडियो तो
लेट्स फर्स्ट डिस्कस कि टेक्स्ट स्प्लिटिंग होता क्या है मान लो आपके पास एक बहुत बड़ा टेक्स्ट फाइल है या पीडीएफ
है मान लो हजारों पेजेस का है और आपको उसके ऊपर किसी भी तरीके का प्रोसेसिंग करना है तो ऑब् वियस इतने बड़े पीडीएफ के
ऊपर एक साथ प्रोसेसिंग कर पाना बहुत डिफिकल्ट होगा तो एक ओबवियस सॉल्यूशन क्या होता है कि आप अपने इस पूरे के पूरे
पीडीएफ को छोटे-छोटे चंक्स में डिवाइड कर लो मान लो आपने के बेसिस पे छोटे-छोटे चंक्स बना लिए पेज वन एक चंक बन गया पेज
टू दूसरा चंक बन गया एंड सो ऑन या फिर कोई दूसरी स्ट्रेटेजी भी आप यूज कर सकते हो लेट्स से आपने पैराग्राफ्स के बेसिस पे
चंक्स क्रिएट कर दिए तो जो भी है यह जो पूरा प्रोसेस है जहां पर आप एक बड़े से टेक्स्ट को तोड़ तोड़ करके छोटे-छोटे
चंक्स क्रिएट करते हो इसी प्रोसेस को टेक्स्ट स्प्लिटिंग बुलाया जाता है और जो कोड यह परफॉर्म करके आपको देता है ये
ऑपरेशन आपको करके देता है उसको हम टेक्स्ट स्प्लिटर बुलाते हैं ठीक है तो यहां पर देखो एक डेफिनेशन मैंने लिखा है टेक्स्ट
स्प्लिटिंग इज द प्रोसेस ऑफ ब्रेकिंग लार्ज चंक्स ऑफ टेक्स्ट लाइक आर्टिकल्स पीडीएफ एटीएमएल पेजेस और बुक्स इंटू
स्मॉलर मैनेज बल पीसेज दैट एन एलएलएम कैन हैंडल इफेक्टिवली ठीक है तो यह एलएलएम की दुनिया में एक बहुत बड़ा फैक्ट है कि अगर
आप कोई भी एलएलएम पावर्ड एप्लीकेशन बनाना चाहते हो तो कभी भी बहुत बड़े टेक्स्ट के साथ एक साथ डील करने की कोशिश आपको नहीं
करनी चाहिए जनरली इस तरह के सिचुएशन में एलएलएम का जो अ काइंड ऑफ आउटपुट होता है उसकी क्वालिटी उतनी अच्छी नहीं होती है
हमेशा रिकमेंड किया जाता है कि आपको अपने बड़े टेक्स्ट को छोटे-छोटे चंक्स में डिवाइड करके एलएलएम को फीड करना चाहिए
इससे आपके एलएलएम की जो आउटपुट की क्वालिटी होती है वो बहुत इंप्रूव कर जाती है ठीक है तो अब मैं आपको थोड़ा सा डिटेल
में ये समझाना चाहूंगा एलएलएम पावर्ड एप्लीकेशन बनाने के प्रोसेस में टेक्स स्प्लिटिंग क्यों इंपॉर्टेंट है ठीक है तो
दो-तीन बड़े रीजंस हैं सबसे पहला रीजन यह है कि आपका जो एलएलएम होते हैं उनका एक कॉन्टेक्स्ट लेंथ लिमिट होता है मतलब यह
है कि एक एलएलएम एक बार में कितना टेक्स्ट इनपुट में रिसीव कर सकता है उसके ऊपर एक लिमिट होती है ठीक है जैसे मान लो कोई एक
पर्टिकुलर एलएलएम में जो कॉन्टेक्स्ट लेंथ है वह है 50000 टोकेंस
ठीक है अब थोड़ी देर के लिए अपने डिस्कशन में हम मान लेंगे कि टोकेंस हम वर्ड को बोल रहे हैं होता नहीं है दोनों में
डिफरेंस है बट फिलहाल अपने डिस्कशन को सिंपलीफाई करने के लिए हम टोकेंस और वर्ड्स को सेम मान के चलेंगे तो मान लो
कोई एलएलएम है जिसमें जो कॉन्टेक्स्ट लेंथ है जो लिमिट है इनपुट प्रोसेस करने की वह 50000 वर्ड्स की है अब आप चाहते हो कि आप
इस एलएलएम के पास अपना एक पीडीएफ भेजो और उस पीडीएफ को आप समरा इज करवाना चाहते हो द ओनली प्रॉब्लम इज कि यह पीडीएफ बहुत
बड़ा है इसमें हजारों पेजेस हैं और टोटल मिलाकर अगर आप वर्ड्स की बात करो तो 1 लाख से ज्यादा वर्ड्स हैं तो ऑब् वियस आप इस
पीडीएफ को इस एलएलएम में नहीं भेज सकते बिकॉज़ कॉन्टेक्स्ट लेंथ का जो आपका थ्रश होल्ड है वोह आप ब्रीच कर रहे हो और फिर
आप ऑब् वियस अपने पीडीएफ को समरा इज नहीं कर सकते तो इस तरह के सिचुएशन को हैंडल करने में टेक्स स्प्लिटिंग आपकी हेल्प
करता है ठीक है तो दिस इज रीजन नंबर वन दैट इट ओवरकम्स मॉडल्स लिमिटेशन यहां पे लिखा हुआ है मेनी एंबेडिंग मॉडल्स एंड
लैंग्वेज मॉडल्स हैव मैक्सिमम इनपुट साइज कंस्ट्रेंट्स स्प्लिटिंग अलाउ अस टू प्रोसेस डॉक्यूमेंट दैट वुड अदर वाइज
एक्सीड दीज लिमिट्स रीज़न नंबर टू है कि आप एलएलएम पावर्ड एप्लीकेशन जब बनाते हो तो वहां पे आप कई तरह के टास्क परफॉर्म
करते हो जैसे कि एंबेडिंग का टास्क हुआ सेमांटिक सर्च का टास्क हुआ या टेक्स समरा इजेशन का टास्क हुआ इन सारे तरीके के
टास्क्स में आपको टेक्स स्प्लिटिंग बेटर रिजल्ट्स परफॉर्म करके देता है मैं एक-एक करके आपको समझा ने की कोशिश करता हूं जैसे
कि मान लो हम बात करते हैं एंबेडिंग की तो एंबेडिंग में आप क्या करते हो कि आपके पास एक टेक्स्ट होता है और आप उस टेक्स्ट को
नंबर्स में या फिर वेक्टर्स में कन्वर्ट करते हो सो दैट इसके ऊपर आप कुछ भी मशीन लर्निंग मॉडल्स अप्लाई कर सको राइट और यह
काम करने के लिए आप कोई एंबेडिंग मॉडल यूज करते हो अब अगर आप एक बहुत बड़े टेक्स्ट को
एंबेड करने की कोशिश करोगे इनटू वेक्टर्स यूजिंग सम एंबेडिंग मॉडल तो आप यह बात नोटिस करोगे कि आपका जो एंबेडिंग का
क्वालिटी है वह उतना अच्छा नहीं होता चच मींस कि आपका ये जो वेक्टर बनता है वह इस पूरे टेक्स्ट का जो सेमांटिक मीनिंग है
उसको अच्छे से कैप्चर नहीं कर पाता और इसका रीजन यह है कि आप एक बहुत बड़े टेक्स्ट का सिमटिक मीनिंग कुछ नंबर्स में
कैप्चर करना चाह रहे हो और वो कर पाना आसान काम नहीं है इसके बदले अगर आप यह अप्रोच लो कि आप इस
टेक्स्ट को छोटे-छोटे चंक्स में डिवाइड कर दो और फिर हर चंक का आप अलग से एंबेडिंग कैलकुलेट करो अलग एंबेडिंग वेक्टर बनाओ तो
ऐसा ऑब्जर्व किया गया है कि यह जो छोटे-छोटे चंक्स हैं ये ज्यादा बेटर तरीके से सिमटिक मीनिंग कैप्चर कर पाते हैं ठीक
है सो फॉर एग्जांपल अगर आपके पास एक टेक्स्ट है जहां पर आईपीएल के बारे में लिखा हुआ है और हर पैराग्राफ ा में एकएक
आईपीएल टीम के बारे में लिखा गया है सो सीएसके के बारे में फिर नेक्स्ट पैराग्राफ में मुंबई के बारे में नेक्स्ट पैराग्राफ
में आरसीबी के बारे में तो अगर आप इस पूरे के पूरे पैराग्राफ का एक साथ एंबेडिंग जनरेट करोगे तो जो एंबेडिंग की क्वालिटी
होगी वो उतनी अच्छी नहीं होगी मतलब जो हमारा वेक्टर होगा वह उतना अच्छी तरीके से रिप्रेजेंट नहीं कर पाएगा सेंटिक मीनिंग
को जो उस पूरे पैराग्राफ में था बट अगर हम इस पूरे पैराग्राफ को पहले तोड़ ले सीएसके का अलग पैराग्राफ बना ले आरसीबी का अलग
पैराग्राफ बना ले एमआई का अलग पैराग्राफ बना ले और फिर इन तीनों अलग पैराग्राफ्स की अलग-अलग एंबेडिंग जनरेट करें तो यह अलग
अलग वाली एंबेडिंग बेटर तरीके से आपका सिमटिक मीनिंग कैप्चर कर पाती हैं ठीक है तो यह सबसे पहला ऑब्जर्वेशन है जो लोगों
ने देखा सेकंड इज सिमटिक सर्च सो सिमटिक सर्च मैंने आपको पास्ट में बता रखा है कि अ आपके पास कुछ डॉक्यूमेंट हैं जैसा अभी
हमने एक एग्जांपल में डिस्कस किया कि मान लो आपके पास आरसीबी का अलग डॉक्यूमेंट है एमआई का अलग डॉक्यूमेंट है सीएसके का अलग
डॉक्यूमेंट है और आपने इन तीनों डॉक्यूमेंट की एंबेडिंग्स जनरेट कर रखी है मतलब इन तीनों के वेक्टर्स आपने बना रखे
हैं अब आपके पास एक नया क्वेरी आया मान लो क्वेरी आया कि विराट कोहली किस टीम से खेलता है किस आईपीएल टीम से खेलता है तो
आप इस क्वेरी का भी एंबेडिंग बनाओगे और फिर आप इसको कंपेयर करोगे तीनों एंबेडिंग के साथ और जिसके साथ सिमिलरिटी सबसे हाई
होगा वहीं से आप अपना आंसर एक्सट्रैक्ट करोगे तो इस पूरी चीज को हम सिमटिक सर्च बोलते हैं तो ऐसा अगेन देखा गया है कि अगर
आप चंकि या टेक्स स्प्लिटिंग करने के बाद सिमटिक सर्च करते हो तो आपका जो सर्च का क्वालिटी है वो ज्यादा प्रेसा इज होता है
ज्यादा इंप्रूव्ड होता है वर्सेस अगर आप एक पूरे बड़े टेक्स्ट को लो और फिर उसके ऊपर सेंटिक सर्च करो तो फिर द क्वालिटी ऑफ
द सर्च इज नॉट दैट ग्रेट ठीक है तो दिस इज रीजन नंबर टू रीजन नंबर थ्री समरा इजेशन अगर आप एक बहुत बड़े डॉक्यूमेंट के ऊपर
सराइजेज ऐसा नोटिस किया गया है कि एलएलएम आर नॉट दैट ग्रेट विद बिगर टेक्स्ट सम टाइम्स दे ड्रिफ्ट मतलब कहीं और बात करने
लग जाते हैं या फिर सम टाइम्स दे इवन हेलसन कुछ ऐसा बोलने लग जाएंगे जो उस डॉक्यूमेंट में है ही नहीं तो इस तरह की
सिचुएशन में अगेन इट हैज बीन एंपर कली प्रूवन कि अगर आप टेक्स स्प्लिटिंग करते हो तो आपको समरा इजेशन में बेटर रिजल्ट्स
मिलते हैं तो रीजन नंबर टू इज कि जो भी डाउन स्ट्रीम टास्क हैं जो आप यूज करते ही हो व्हाइट बिल्डिंग एलएलएम एप्लीकेशंस
वहां पर आप जनरली टेक्स स्प्लिटिंग से बेटर रिजल्ट्स एक्ससक्ड कर सकते हो इन कंपैरिजन टू अ बिग डॉक्यूमेंट ठीक है एंड
रीज़न नंबर थ्री टू यूज़ टेक्स स्प्लिटिंग इज टू ऑप्टिमाइज कंप्यूटेशनल रिसोर्सेस ओबवियसली आप एक बड़े टेक्स्ट को प्रोसेस
करो वर्सेस छोटे-छोटे टेक्स्ट को प्रोसेस करो अ इसमें आपको ज्यादा फायदा होगा अगर आप छोटे-छोटे टेक्स्ट को प्रोसेस करो
बिकॉज़ आपका कंप्यूटेशनल रिक्वायरमेंट रिड्यूस हो जाता है है आपको कम मेमोरी चाहिए चीजों को स्टोर करने के लिए साथ ही
साथ आप चीजों को पैरेलली भी एग्जीक्यूट कर सकते हो तो यहां पर यही लिखा हुआ है वर्किंग विद स्मॉलर चंक्स ऑफ टेक्स्ट कैन
बी मोर मेमोरी एफिशिएंट एंड अलाउ फॉर बेटर पैरेललाइजेशन ऑफ प्रोसेसिंग टास्क्स तो ये डिस्कशन के बाद आई होप आपको यह आईडिया लग
गया होगा कि क्यों टेक्स स्प्लिटिंग इतना इंपॉर्टेंट है एलएलएम बेस्ड एप्लीकेशंस बनाने के प्रोसेस में तो हम आज के वीडियो
में टेक्स स्प्लिटिंग को बहुत डिटेल में पढ़ने वाले हैं कि कैसे आप लैंग चेन की हेल्प से टेक्स स्प्लिटिंग परफॉर्म करते
हो और हम प्रेसा इजली चार अलग तरीके के टेक्स स्प्लिट्स पढ़ेंगे पहला होगा लेंथ के बेसिस पे एज इन डॉक्यूमेंट के लेंथ के
बेसिस पे हम स्प्लिटिंग परफॉर्म करेंगे दूसरा होगा टेक्स्ट के स्ट्रक्चर के बेसिस पे तीसरा होगा डॉक्यूमेंट के स्ट्रक्चर के
बेसिस पे और चौथा होगा सेमांटिक मीनिंग के बेसिस पे ठीक है तो ये चारों मेथड्स हम लोग एक-एक करके इस वीडियो में कवर करेंगे
चलो गाइस अब हम लोग डिस्कस करते हैं हमारा फर्स्ट टेक्स स्प्लिटिंग टेक नी जिसको हम बोलते हैं लेंथ बेस्ड टेक्स स्प्लिटिंग
लेंथ बेस्ड टेक्स्ट स्प्लिटिंग ऑनेस्टली सबसे सिंपल और सबसे फास्ट तरीका है टेक्स्ट को स्प्लिट करने का यहां पे आप
क्या करते हो कि आप पहले से ही डिसाइड कर लेते हो कि आपके जो चंक्स बनेंगे उनका साइज क्या होगा मान लो यह हमारे पास एक
बड़ा सा टेक्स्ट है जिसमें दो पैराग्राफ्स हैं और हम इसको स्प्लिट करना चाहते हैं इनटू स्मॉलर चंक्स अब मैं क्या करूंगा मैं
पहले से डिसाइड कर लूंगा कि हर चंक का साइज क्या होगा अब साइज आप किसी भी यूनिट में डिफाइन कर सकते हो मान लो आप
कैरेक्टर्स में भी डिफाइन कर सकते हो या फिर आप टोकेंस में भी डिसाइड कर सकते हो जैसे कि आपने डिसाइड किया कि आपके हर चंक
का साइज होगा 100 कैरेक्टर्स तो अब काम बहुत आसान हो गया आप इस टेक्स्ट को ट्रैवर्स करना स्टार्ट करोगे स्टार्टिंग
से और करते करते आप 100 कैरेक्टर तक जाओगे और जैसे ही आपको 100 कैरेक्टर मिले वहां पर आप अपना फर्स्ट चंक क्रिएट कर
लोगे जैसे कि यह देखो इस टेक्स्ट को हमने ट्रैवर्स करना शुरू किया शुरू से और इस जगह पर आके 100 कैरेक्टर्स कंप्लीट हो गए
तो हमने यहीं पर रोक दिया और यह हमारा चंक वन बन गया चंक वन बनने के बाद हम इस प्रोसेस को कंटिन्यू करेंगे जहां पर हमने
रोका था वहीं से हम रिज्यूम करेंगे सो एक्सप्लोरिंग पर रुका था तो जी पर स्टार्ट हुआ फिर कैरेक्टर्स हम काउंट करेंगे जैसे
100 कैरेक्टर्स टच होंगे हम फिर से रुक जाएंगे और यह जो पोर्शन है यह हमारा सेकंड चंक बन गया फिर हम वहीं से रिज्यूम करेंगे
100 कैरेक्टर्स तक काउंट करेंगे यह हमारा चंक थ्री बन गया यह हमारा चंक फोर बन गया और फाइनली जो भी बचा वो हमारा चंक फाइव बन
गया तो यह काइंड ऑफ सबसे सिंपल तरीका है टेक्स स्प्लिटिंग करने का ठीक है यहां पर हमने जो स्प्लिटिंग की है व कैरेक्टर्स के
बेसिस पे है बट आप बहुत आसानी से टोकन के बेसिस पर भी यह सेम काम कर सकते हो यह पर्टिकुलर स्प्लिटिंग दिखाने के लिए मैं
आपको एक विजुलाइजेशन टूल दिखाता हूं जो मुझे लैंग चन के डॉक्यूमेंटेशन में मिला था
सो व्हाट आई विल डू इज कि मैं इस टेक्स्ट को कॉपी कर लेता हूं सो यहां पर मैंने यह पूरा टेक्स्ट यहां पर
पेस्ट कर दिया अब यहां पर आप सेलेक्ट कर सकते हो कि आपको कौन सा स्प्लिटर यूज करना है फिलहाल हम जो यूज कर रहे हैं वो है
कैरेक्टर स्प्लिटर और हम पहले से बता रहे हैं कि हमारा जो चंक साइज होगा हर चंक का जो साइज होगा वह 100 कैरेक्टर्स का होगा
तो यह देखो गाइस यह रहा हमारा आउटपुट यह रहा हमारा ब्लू वाला फर्स्ट चंक उसके बाद येलो चंक उसके बाद ऑरेंज फिर थोड़ा लाइट
ऑरेंज एंड लास्ट में पिंक ठीक है अब आप यहां पर बहुत आसानी से समझ सकते हो कि अगर आप चंक साइज बढ़ाओ ग तो आपको कम नंबर ऑफ
चंक्स देखने को मिलेंगे अगर आप चंक्स साइज घटाओ ग तो आपको और ज्यादा नंबर ऑफ चंक्स देखने को मिलेंगे ठीक है तो यह हो गया
कैरेक्टर स्प्लिटर ठीक है यह आप कह सकते हो कि सबसे सिंपल तरीका है टेक्स्ट को स्प्लिट करने का इस पूरे अप्रोच का सबसे
बड़ा एडवांटेज ही यही है कि इट इज वेरी वेरी सिंपल कांसेप्चुअली स्पीकिंग और इसको इंप्लीमेंट करना भी बहुत आसान है और यह
काम भी बहुत फास्ट तरीके से करता है ठीक है तो ये इसका सबसे बड़ा एडवांटेज है लेकिन इसका जो सबसे बड़ा डिसएडवांटेज
अवांटेज है वो यह है कि यह पर्टिकुलर तरीका टेक्स्ट को स्प्लिट करते टाइम ना तो आपके टेक्स्ट का लिंग्विस्टिक स्ट्रक्चर
देखता है ना ग्रामर देखता है और ना ही सेमांटिक मीनिंग देखता है सिंपली उसको अगर 100 कैरेक्टर्स पर रोकना है तो वह 100
कैरेक्टर्स पर रुक जाएगा वह यह भी नहीं देखेगा कि कोई पर्टिकुलर वर्ड कंप्लीट भी नहीं हो पाया सो कई बार जब आप यह
स्प्लिटिंग करते हो तो आप नोटिस करोगे कि आपका टेक्स्ट वर्ड के बीच में कट जाता है पैराग्राफ के बीच में कट जाता है या
सेंटेंस के बीच में कट जाता है अब यह थोड़ा प्रॉब्लेम िक है बिकॉज कभी-कभी ऐसा हो सकता है कि आपने डिसाइड किया कि मैं
400 400 कैरेक्टर्स का चंक्स यूज करने वाला हूं बट 400 कैरेक्टर्स का चंक यूज करने के प्रोसेस में आपका जो पैरा था
जिसमें आप किसी पर्टिकुलर टॉपिक के बारे में बात कर रहे थे वही बीच से कट गया अब लेट्स से आपको एंबेडिंग जनरेट करनी है तो
जो एंबेडिंग जनरेट होगी वो कंप्लीट सिमटिक मीनिंग कैप्चर नहीं कर पाएगी बिकॉज़ आपके पास आधा इंफॉर्मेशन एक चंक में है और आधा
इंफॉर्मेशन दूसरे चंक में है तो उस पर्टिकुलर रीजन की वजह से लद यह तरीका बहुत फास्ट है बट इसको उतना यूज नहीं किया
जाता है ठीक है तो आई होप आपको समझ में आ गया कि यह लेंथ बेस्ड टेक्स स्प्लिटिंग काम कैसे करती है अब मैं आपको एक बार कोड
में दिखाता हूं कि लैंग चन में आप इस चीज को कैसे यूज कर सकते हो सो लंग चन में हमारे पास एक डायरेक्ट क्लास है कैरेक्टर
टेक्स्ट स्प्लिटर बोल के हम उ को यूज करेंगे सो सबसे पहले आपको क्या करना है लैंग चन डॉटेक्स स्प्लिटर से इंपोर्ट कर
लेनी है कैरेक्टर टेक्स स्लिटर वाली क्लास उसके बाद आपको आपका टेक्स्ट चाहिए जिसको आपको स्प्लिट करना है सो हमारे केस में हम
सेम वही टेक्स्ट स्प्लिट करेंगे सो मैं यहां से कॉपी कर रहा हूं इस टेक्स्ट को अब हम क्या करेंगे कि हम एक
स्प्लिटर ऑब्जेक्ट बनाएंगे सो स्प्लिटर ऑब्जेक्ट होगा कैरेक्टर टेक्स्ट स्प्लिटर का ऑब्जेक्ट और इसमें आप कुछ चीजें पास
करोगे जैसे कि आप पास करोगे चंक साइज कि हर चंक कितने कैरेक्टर्स का होगा हम 100 लेके चल रहे हैं इसके अलावा एक और
पैरामीटर होता है जिसको हम बोलते हैं चंक ओवरलैप क्या होता है मैं आपको थोड़ी देर बाद बताता हूं फिलहाल मैं इसको जीरो सेट
कर रहा हूं एंड लास्टली हमारा जो सेपरेटर है वह होगा नथिंग मतलब बेसिकली हम जैसे ही 100 कैरेक्टर्स पर रीच करेंगे
हम स्प्लिट कर देंगे हमारे चंक को ठीक है दिस इज द स्प्लिटर दैट वी आर गोइंग टू यूज नाउ स्प्लिटर के पास एक फंक्शन होता है
जिसको हम बोलते हैं स्प्लिट टेक्स्ट और यहां पर आप सिंपली अपने टेक्स्ट को पास कर दो जो भी पलट के आपको
मिल रहा है उसको एक वेरिएबल में स्टोर कर दो और उस वेरिएबल को प्रिंट कर दो दैट इट एंड यू कैन सी गाइस दिस इज द आउटपुट हमें
एक लिस्ट मिल गया और उस लिस्ट में आपके पास आपके चंक्स हैं तो यह आपका फर्स्ट चंक है
यह आपका सेकंड चंक है एंड सो ऑन अब एक चीज मैं आपको करके दिखाता हूं सो हमने लास्ट वीडियो में डॉक्यूमेंट लोडर्स पढ़ा था
जिसका काम था अलग-अलग सोर्सेस से डॉक्यूमेंट को लोड करके लाना अब मैं क्या करता हूं मैं डॉक्यूमेंट लोडर और टेक्स्ट
प्लेटर का जो वर्कफ्लो है उसको कनेक्ट करके दिखाता हूं सो व्हाट आई विल डू इज कि मेरे पास यह एक पीडीएफ फाइल है जो मैंने
आपको लास्ट वीडियो में भी दिखाई थी मैं इस पीडीएफ फाइल को लोड करूंगा और इसके ऊपर टेक्स्ट स्प्लिटिंग परफॉर्म करूंगा ठीक है
सो उसके लिए व्हाट आई विल डू इज मैं लंग चन कम्युनिटी डॉट डॉक्यूमेंट लोडर से इंपोर्ट करूंगा
पाई पीडीएफ लोडर और फिर मैं एक लोडर ऑब्जेक्ट बनाऊंगा जिसमें मैं अपना फाइल का पाथ प्रोवाइड कर दूंगा मेरी फाइल का पाथ
है डीएल करिकुलम ड पीडीए अब मुझे इस टेक्स्ट की जरूरत नहीं
है तो मैं इसको हटा रहा हूं एंड मैं लोडर डॉट लोड कर रहा हूं जिससे मुझे मेरे डॉक्यूमेंट मिलेंगे
सो इफ यू रिमेंबर होगा क्या कि जितने भी मेरे पेजेस हैं पीडीएफ में हर पेज के कॉरस्पॉडिंग मुझे एक डॉक्यूमेंट ऑब्जेक्ट
मिलेगा ठीक है अब मुझे क्या करना है हर डॉक्यूमेंट ऑब्जेक्ट को बेसिकली अपने पूरे के पूरे पीडीएफ को टेक्स्ट स्लेटर के पास
भेजना है ठीक है तो यहां पर मैंने अपना स्प्लिटर डिफाइन कर लिया अब हम क्या करेंगे स्प्लिट टेक्स्ट फंक्शन ना यूज
करके स्प्लिट डॉक्यूमेंट फंक्शन यूज करेंगे ठीक है जिसका काम ही होता है डॉक्यूमेंट ऑब्जेक्ट्स को स्प्लिट करना
ठीक है तो यहां पे हम सिंपली पास कर देंगे हमारे सारे डॉक्यूमेंट को सो मान लो हमारे पास अगर हमारे पीडीएफ में पांच पेजेस थे
यहां पर पांच डॉक्यूमेंट ऑब्जेक्ट्स बनेंगे जो डॉक्स में जाके स्टोर हो जाएंगे और उन पांच डॉक्यूमेंट ऑब्जेक्ट्स को हम
यहां पे भेज रहे हैं और फिर हम उसको स्प्लिट कर रहे हैं और यहां पे हम आपको रिजल्ट दिखा रहे हैं सो अगर आप इस कोड को
रन करो दिस इज द आउटपुट ठीक है सो काफी सारा चीज दिखाई दे रहा है सो व्हाट आई कैन डू इज मैं आपको
फर्स्ट जो चंक है वह निकाल के दिखाता हूं सिंस दिस इज अ लिस्ट ऑफ चंक्स मैं आपको फर्स्ट चंक निकाल के दिखाता हूं सो यह रहा
हमारा फर्स्ट चंक ठीक है एंड एज यू कैन सी हर चंक जो आपको यहां पर मिलेगा व खुद एक डॉक्यूमेंट ऑब्जेक्ट होगा ठीक है च मींस
उसका एक पेज कंटेंट एट्रबीक [संगीत] पेज कंटेंट निकाल के दिखाता हूं सो यह है
मेरा पेज कंटेंट फर्स्ट चंक का यह देखो एंड यू कैन सी यह बीच में कहीं पर कट गया है ठीक है बिकॉज हमने चंक साइज
100 रखा है अगर मैं इसी को थोड़ा बढ़ा के 200 कर देता तो यू कैन इमेजिन आपको ज्यादा टेक्स दिखाई देगा फर्स्ट चंक के अंदर यह
देखो यह सारी चीजें भी अब दिखाई दे रही है ठीक है सिमिलरली अगर आपको सेकंड चंक देखना है है तो आप यहां पे जीरो के बदले वन कर
दो एंड यू विल बी एबल टू सी द सेकंड चंक इंस्टेड ऑफ फर्स्ट चंक ठीक है तो अभी जस्ट हमने यह डिस्कस
किया कि कैसे आप डॉक्यूमेंट लोडर्स एंड टेक्स्ट प्लेटर्स को कनेक्ट करके एक वर्क फ्लो बना सकते हो जिसकी हेल्प से आप नॉट
ओनली डॉक्यूमेंट को लोड कर पा रहे हो बट उनके ऊपर टेक्स्ट स्प्लिटिंग भी परफॉर्म कर पा रहे हो ठीक है तो आई होप आपको यहां
तक चीजें समझ में आ रही है अब अगले टेक्स स्प्लिटिंग टेक्निक्स पे बढ़ने के पहले एक और चीज मैं यहां पर डिस्कस करना चाहूंगा
थोड़ी देर पहले कोड में मैंने आपको दिखाया एक और पैरामीटर होता है जिसका नाम होता है चंक ओवरलैप जिसको मैंने जीरो सेट किया था
बट व भी एक इंपॉर्टेंट पैरामीटर है उसके बारे में हमें डिस्कशन करना चाहिए सो चंक ओवरलैप क्या होता है कि चंक ओवरलैप आपको
यह बताता है कि आपके दो चंक्स के बीच में कितने कैरेक्टर्स का ओवरलैप होगा ठीक है सो मैं आपको पहले एक बार एनिमेशन के थ्रू
दिखाता हूं और फिर मैं आपको एग्जांपल से समझाता हूं कि चंक ओवरलैप से फायदा क्या है सो यह हमारा वही
विजुलाइजेशन टूल है यहां पर हमने सेम वही टेक्स्ट रखा हुआ है कैरेक्टर स्प्लिटर हम यूज कर रहे हैं चंक साइज अभी भी 100 है अब
यहां पर देखो आपके पास चंक ओवरलैप का भी एक पैरामीटर है इसको हम जीरो से उठा के अगर लेट्स से थोड़ी देर के लिए 20 कर देते
हैं 20 चलो थोड़ा ज्यादा हो गया फ कर देते हैं तो देखो क्या हो रहा है अब आप नोटिस करोगे कि आपके जो दो चंक्स बन रहे हैं
उनके बीच में एक ओवरलैपिंग रीजन है और और वो कितना कैरेक्टर का है फाइव कैरेक्टर्स का जैसे ये देखो ये ब्लू वाला आपका फर्स्ट
चंक है और येलो वाला आपका सेकंड चंक है बट इन दोनों के बीच में ये बीच के पांच कैरेक्टर्स
ओवरलैप कर रहे हैं मतलब ये पांच कैरेक्टर्स दोनों में आ रहे हैं तो इसी को बोला जाता है चंक ओवरलैप अब आप इसको जितना
बढ़ाते जाओगे उतना ज्यादा ओवरलैपिंग रीजन भी बढ़ता जाएगा आई होप आपको समझ में आ रहा है कि चंक ओवरलैप होता क्या है अब ओबवियस
क्वेश्चन ये आएगा आपके दिमाग में कि इससे फायदा क्या है अगर हम चंक ओवरलैप यूज़ करते हैं तो व्हाट इज द बेनिफिट दैट वी आर
गेटिंग तो अगर आपको याद होगा थोड़ी देर पहले हमने यह बात डिस्कस भी की थी कि अगर आप कैरेक्टर स्प्लिटर यूज़ करते हो तो
उसका सबसे बड़ा डिसएडवांटेज है कि अब्रप्टली आपका जो टेक्स्ट है वह बीच से कट जाता है कभी-कभी तो बीच वर्ड से कट
जाता है राइट तो कभी-कभी हो सकता है कि आपका कॉन्टेक्स्ट जो है वह मिडवे आप लूज कर दो राइट और फिर एंबेडिंग वगैरह करने
में यह थोड़ा नुकसानदायक है तो चंक ओवरलैप की हेल्प से आप क्या कर सकते हो कि वह कॉन्टेक्स्ट रिटेन कर सकते हो सोच के देखो
ना आप कर क्या रहे हो आप थोड़ा पीछे से स्टार्ट कर रहे हो अगले वाले चंक को तो जो इंफॉर्मेशन कटा था वो आप काइंड ऑफ बचा
सकते हो राइट तो द मेन आइडिया बिहाइंड चंक ओवरलैप इज कि आप दो चंक्स के बीच में थोड़ा इंफॉर्मेशन सिमिलर रखना चाहते हो सो
दैट आप जो कॉन्टेक्स्ट लूज कर रहे थे अब्रप्टली कट करके दो चंक्स को वो आप लूज ना करो और वह कांटेक्ट किसी तरीके से पास
ऑन हो जाए अगले वाले चंक में ठीक है तो दिस इज द मेन आईडिया अब अगर आप चंक ओवरलैप बहुत बढ़ा देते हो तो यह एक तरह से अच्छा
है कि आपका बहुत ज्यादा कांटेक्ट सिमिलर रहेगा दो चंक्स के बीच में बट डिसएडवांटेज यह है कि फिर आपके जो नंबर ऑफ चंक्स है वो
ज्यादा बनेंगे तो बेसिकली आपको फिर ज्यादा कंप्यूटेशन परफॉर्म करना पड़ेगा तो इट इज अ ट्रेड ऑफ राइट आप बहुत ज्यादा चंक
ओवरलैप भी नहीं कर सकते और थोड़ा करोगे तो फिर कं नेक्स्ट बीच से कट जाएगा सो दिस इज व्हाट चंक ओवरलैप इज अगर आपके दिमाग में
यह आ रहा है कि व्हाट इज अ गुड नंबर मतलब अगर मान लो आपका चंक साइज 100 है तो चंक ओवरलैप कितना होना चाहिए तो रफल ऐसा बोला
जाता है कि रैग बेस्ड एप्लीकेशंस के लिए 10 टू 20 पर इज अ गुड नंबर सो अगर आपके पास 100 का चंक साइज है तो आप 10 से लेके
20 के बीच में चंक ओवरलैप कर सकते हो अगर आपका चंक साइज बढ़ेगा तो उसी हिसाब से आपका चंक ओवरलैप भी बढ़ जाएगा ठीक है तो
आई होप आपको यह चीज भी समझ में आ गई जो अगला टेक्स स्प्लिटिंग टेक्नीक हम पढ़ने जा रहे हैं उसका नाम है टेक्स स्ट्रक्चर
बेस्ड टेक्स स्प्लिटिंग सो यह पर्टिकुलर टेक्निक कैसे काम करता है मैं आपको समझाता हूं यह टेक्निक इस बात को कंसीडर करता है
कि कोई भी टेक्स्ट इन्हेरेंटली एक स्ट्रक्चर फॉलो करता है मतलब आप टेक्स्ट को एक तरीके से ऑर्गेनाइज करते हो पहले आप
अपने टेक्स्ट को पैराग्राफ्स में ऑर्गेनाइज करते हो फिर पैराग्राफ्स के अंदर आप अपने टेक्स्ट को सेंटेंसेस में
ऑर्गेनाइज करते हो सेंटेंसेस के अंदर आप वर्ड्स में ऑर्गेनाइज करते हो तो यह जो हायरा की ऑफ स्ट्रक्चरिंग है इसका फायदा
उठाता है यह पर्टिकुलर टेक्स प्लेटिंग टेक्नीक तो यहां पर हम जो टेक्नीक पढ़ने जा रहे हैं उस पर्टिकुलर टेक्नीक का नाम
है अ रिकर्स कैरेक्टर टेक्स स्प्लिटिंग जो आपको लैंग चेन में भी मिलेगा इनफैक्ट ये अ वन ऑफ द मोस्ट यूज्ड टेक्स्ट स्लिटिंग
टेक्नीक है और आगे चलके आप देखोगे बहुत सारे लोग इस पर्टिकुलर टेक्निक को यूज करेंगे सो हम लोग एक बार स्टेप बाय स्टेप
समझने की कोशिश करते हैं कि रिकर्स कैरेक्टर टेक्स्ट स्प्लिटिंग टेक्नीक काम कैसे करती है सो इसमें होता क्या है कि आप
पहले से कुछ सेपरेटर्स डिफाइन कर लेते हो जैसे कि पैराग्राफ के लिए आपके पास दो स्लैश एन है फिर लाइन चेंज के लिए आपके
पास एक स्लैश एन है और आपके पास स्पेसेस के लिए स्पेस है एंड फाइनली अगर कुछ नहीं
मिला तो नथिंग बेसिकली आप कैरेक्टर भी स्प्लिट कर दो तो यह आपका
सेपरेटर रिप्रेजेंट करता है पैराग्राफ को यह रिप्रेजेंट करता है लाइंस को या सेंटेंसेस को यह रिप्रेजेंट करता है
वर्ड्स को और यह रिप्रेजेंट करता है कैरेक्टर को तो आपका जो रिकसिव टेक्स्ट स्प्लिटर है रिकसिव कैरेक्टर टेक्स्ट
स्प्लिटर है व क्या करता है पहले कोशिश करता है पैराग्राफ के बेसिस पर चंक्स बनाने का बट अगर पैराग्राफ के बेसिस पे
चंक नहीं बन पाता है तो फिर वो कोशिश करता है अ सेंटेंसेस के बेसिस प चंक बनाने का अगर सेंटेंसेस पे भी नहीं बनता है तो फिर
वो वर्ड्स के बेसिस प बनाने की कोशिश करता है और वर्ड्स पे भी नहीं बनता है तो फाइनली जाके वो कैरेक्टर के लेवल पे चंकि
करता है ठीक है तो पूरे टाइम ये पर्टिकुलर एल्गोरिदम ये कोशिश करते रहेगा कि मिडवे अब्रप्टली आपका टेक्स्ट हां स्प्लिट ना हो
ठीक है अब अगेन ये ऐसी टेक्निक है जो मैं आपको समझा के समझा नहीं सकता मुझे एक एग्जांपल
देना पड़ेगा इसका वर्किंग दिखाने के लिए सो व्हाट आई विल डू इज मैं एक पर्टिकुलर पीस ऑफ टेक्स्ट लेता हूं और उसके ऊपर इस
टेक्निक को लगा के आपको दिखाता हूं इससे आपको ज्यादा क्लीयरली विजुलाइज होगा कि यह टेक्निक काम कैसे करती है ठीक है तो मान
लो मेरे पास यह पर्टिकुलर टेक्स्ट है माय नेम इज नितिश आई एम 35 इयर्स ओल्ड आई लिव इन गुड़गांव एंड हाउ आर यू ठीक है मुझे
क्या करना है मुझे इस पर्टिकुलर पीस ऑफ टेक्स्ट को टेक्स स्प्लिट करना है चंक्स में डिवाइड कर करना है ठीक है आपकी हेल्प
करने के लिए मैंने हर लाइन के बगल में उस लाइन का या सेंटेंस का कैरेक्टर काउंट लिख दिया है जैसे फर्स्ट दोनों लाइंस में 1717
कैरेक्टर्स है आप काउंट कर सकते हो थर्ड में भी 17 कैरेक्टर्स है एंड लास्ट लाइन में 11 कैरेक्टर्स हैं इंक्लूडिंग वाइट
स्पेसेस ठीक है अब हमें क्या करना है हमें इस पूरे के पूरे टेक्स्ट को चंक्स में डिवाइड करना है ठीक है और शुरू में हम मान
के चलते हैं कि हमारा जो चंक साइज रहने वाला है वो है 10 ठीक है मतलब हमारा कोई भी चंक 10 कैरेक्टर से ज्यादा बड़ा नहीं
होना चाहिए तो हमारा जो अलाउड चंक साइज है वोह 10 है ठीक है तो अब स्टार्टिंग कैसे होती है आप सबसे पहले यह सेपरेटर खोजते हो
क्योंकि यह पैराग्राफ को सिग्नीफा कर रहा है तो आप यहां पर अगर देखो तो इस जगह पर आपका डबल स्लैश है तो आपके एल्गोरिदम को
जैसे ही यह दिखाई देगा आपका एल्गोरिदम इस पूरे टेक्स्ट को दो पर्ट डिवाइड कर देगा बेसिकली दो पैरास बना देगा यह रहा फर्स्ट
पैरा यह रहा सेकंड पैरा ठीक है तो आपने सबसे पहले पैराग्राफ के बेसिस पर चंकि कर दिया अब यहां पर अगर आप देखो तो इस
पैराग्राफ में 34 कैरेक्टर्स है और इस पैराग्राफ में 28 कैरेक्टर्स है बट हमारा जो अलाउड चंक साइज है वह 10 है तो यह भी
जो चंक है 10 से बड़ा है यह वाला चंक भी 10 से बड़ा है इट मींस अब हमें इनको फिर से और तो तोड़ना पड़ेगा तो अब पैराग्राफ
के बेसिस पर तो हमने तोड़ दिया अब हम किसके बेसिस पर तोड़ेंगे अब हम स्लैश एन एज इन लाइन चेंज के बेसिस पर तोड़ेंगे
सेंटेंस के बेसिस पर तोड़ेंगे तो यहां पर एक स्लश एन है इस जगह प तो इसके बेसिस पर हमने तोड़ा तो हमें इस पैराग्राफ से दो
सेंटेंसेस मिले ठीक है एक है माय नेम इज नितिश एंड सेकंड इज आई एम 35 इयर्स ओल्ड अब फिर से ये जो दो चंक्स बने हैं हम इन
दोनों में कैरेक्टर काउंट करेंगे तो यहां भी 17 है यहां भी 17 है इ अगेन ग्रेटर देन द अलाउड लिमिट तो इसका मतलब अब हमें फिर
से इस जगह पे और चंकि करनी पड़ेगी और ब्रेक डाउन करना पड़ेगा तो अब हम सेंटेंस से भी नीचे जाएंगे और अब हम स्पेस के
बेसिस पर करेंगे मतलब वर्ड के बेसिस पर करेंगे तो वर्ड के बेसिस पर मुझे मिल रहे हैं
माय नेम इज नितिश माई में दो कैरेक्टर्स हैं नेम में
चार कैरेक्टर्स हैं इज में दो है में छह हैं ठीक है तो अभी मेरे पास चार चंक्स मिले और चारों ही 10 से छोटे हैं तो अब
यहां पे यह पर्टिकुलर टेक्निक थोड़ा सा ऑप्टिमाइज करने की कोशिश करेगी उसको दिखाई देगा कि मुझे तो 10 तक अलाउड था बट मेरा
चंक दो का बन रहा है यहां पे चार का बन रहा है यहां पे दो का बन रहा है तो व्हाट इफ मैं कुछ चंक्स को मर्ज करके बड़ा चंक
बना दूं वो यह करने की कोशिश करेगा तो व क्या करेगा माई और नेम को स्पेस के बेसिस पे जोड़ देगा माई नेम बना देगा ठीक है तो
अब यह जो नया चंक बना इसमें टोटल मिलाकर सेवन कैरेक्टर्स है यहां पर अभी भी इज है और यहां पर अभी भी नितिश है ठीक है अब वह
देख रहा है कि यहां पर सेन है क्या मैं और इसको थोड़ा सा बड़ा कर सकता हूं 10 के नीचे ही रहना है बट क्या मैं 10 के आसपास
पहुंच सकता हूं तो यहां पर दो है तो वह इन दोनों को मर्ज कर देगा और आपको मिलेगा माय नेम इज
इसमें 10 कैरेक्टर्स हो गए ठीक है और यह नितिश अभी भी यहीं पर है अब वो सोचेगा क्या मैं और दोनों को जोड़ सकता हूं वो इन
दोनों को जोड़ने की जैसे ही कोशिश करेगा तो उसको दिखाई देगा कि 10 प् 6 16 हो गया चच इज ग्रेटर दन 10 तो ये वाला मर्जिंग वो
नहीं करेगा और इस ब्रांच में अब आप नोटिस करो कि फाइनली आपको जो दो चंक्स मिल रहे हैं वह यह है माई नेम इज यह आपका एक चंक
बना फाइनली और फिर नितिश यह आपका दूसरा चंक बना ठीक है अब वो ऊपर जाएगा इस जगह पर अब यहां पर भी नोटिस करो
कि 17 है बट उसको चाहिए कितना था मैक्सिमम 10 तो वो फिर से यहां पर वर्ड लेवल पर ब्रेक करेगा यहां पर आएगा आई यहां पर आएगा
ए यहां पर आएगा 35 और यहां पे इयर्स और यहां पे ओल्ड ठीक है आई में एक है एम में दो है 35 में दो है यर्स में
पांच है ओल्ड में थ्री है ठीक है तो पांच चंक्स बन गए बट अगेन बहुत छोटे-छोटे चंक्स बने हैं तो वो ऑप्टिमाइज करके मर्ज करने
की कोशिश करेगा तो वो इसको इसको और इसको मर्ज कर देगा आई एम 35 इसमें टोटल मिला के 5 + 2 वाइट स्पेसेस सेवन कैरेक्टर्स हो गए
इयर्स को नहीं जोड़ सकते बिकॉज 7 + 5 12 हो जाएगा लेकिन वो इयर्स और ओल्ड को जोड़ सकता है बिकॉज 5 + 38 है और एक स्पेस को
मिला दो तो नाइन हो गया तो यहां पे आ जाएगा इयर्स ओल्ड तो आपको यहां पर यह चंक मिला ठीक है तो एक चंक यह है एक चंक यह है
एक चंक यह है एक चंक ये है ठीक है अब यह सेम चीज रिपीट होगी यहां पे सो यहां पे आएगा आई यहां पे आएगा लिव यहां पर आएगा इन
और यहां पे आएगा गुड़गांव ठीक है आई में एक है लिव में चार है इन में दो है गुड़गांव में सात है तो एक चार और दो आपके
हो गए सात और इनके बीच में दो स्पेसेस न तो आई लिव इन यह हो गया आपका एक चंक और गुड़गांव हो
गया आपका सेकंड चंक ठीक है सिमिलरली हाउ आर यू में हाउ बना एक चंक आर बना दूसरा चंक यू बना तीसरा चंक तीन तीन तीन तीनों
को साथ में नहीं जोड़ सकता दो स्पेसेस मिलाकर 11 हो जा रहा है लेकिन इन दोनों को जोड़ सकता है तो हाउ आर एक चंक बना
और यू एक चंक बन गया और यह रहा गाइस आपका फाइनल चंकि का रिजल्ट आपको इसको अगर चंक साइज 10 के लिए चंकि करनी है तो माय नेम
इज यह बनेगा एक चंक नितिश बनेगा एक चंक जो जो भी बेसिकली मैंने नीचे लिखा नितीश उसके बाद आई एम 35 इयर्स ओल्ड आई लिव इन
गुड़गांव हाउ आर यू ठीक है अगर आप इसको चेक करना चाहो ये एग्जैक्ट टेक्स्ट मैंने यहां पर पेस्ट कर रखा है ठीक है यहां पे
देखो मैं क्या करूंगा चंक साइज 10 को डिफाइन करूंगा और ये देखो रिजल्ट माय नेम इज नितिश आई एम 35 इयर्स ओल्ड अ आई लिव इन
गुड़गांव हाउ आर यू ठीक है अब इसमें एक चीज जो ऑब्जर्व करने वाली है कि लास्ट तक भी हमारे इस चंकि टेक्नीक ने कोशिश की कि
वर्ड्स के बीच में तो चीजें ना कटे ठीक है सेंटेंस के मिडवे उसको काटना पड़ा बिकॉज चंक साइज छोटा था बट उसने लास्ट तक कोशिश
करते रही कि सेंटेंस अ वर्ड के बीच में चंकि ना हो व्हिच इज लाइक बेटर देन कैरेक्टर स्प्लिटिंग ठीक है अब एक काम
करते हैं चंक साइज थोड़ा बढ़ा के देखते हैं चंक साइज अब 25 करके देखते हैं कि क्या होता है सो अब हम सेम एग्जांपल के
ऊपर चंक साइज 25 रख कर के काम करेंगे ठीक है तो फिर से क्या होगा कि सबसे पहले हमारा एल्गोरिदम इसको पैराग्राफ के बेसिस
पर तोड़ने की कोशिश करेगा जिससे हमें यह दो पैराग्राफ्स मिलेंगे अब इस पॉइंट पर जो दो चंक्स बने हैं जो कि
खुद एक एक पैराग्राफ है इन दोनों का साइज है 34 एंड 28 अब प्रॉब्लम क्या है कि हमारा अलाउड चंक साइज इ 25 और दोनों जो
चंक्स बने हैं वह 25 से ज्यादा है इट मींस हमें दोनों को और छोटे चंक्स में डिवाइड करना है तो अब हम फिर से
इसको सेंटेंसेस के बेसिस पर ब्रेक करेंगे जिससे हमें दो सेंटेंसेस मिलेंगे पहला 17 दूसरा 17 अब अच्छ अी बात क्या है कि यह
दोनों ही अलाउड चंक साइज के नीचे हैं च् मींस हमें और तोड़ने की जरूरत नहीं है बट क्या हम ऑप्टिमाइज करके थोड़ा मर्ज कर
सकते हैं तो अब एल्गोरिदम क्या करने की कोशिश करेगा इन दोनों को मर्ज करने की कोशिश करेगा बट इनको मर्ज करने से आपको 34
कैरेक्टर्स का एक सेंटेंस मिल रहा है च इज नॉट अलाउड तो फिर वह मर्जिंग नहीं करेगा और फाइनली आपको यह दो सेंटेंसेस मिलेंगे
एस चंक्स अब बात करते हैं इसकी यहां भी 28 है च इज ग्रेटर दन 25 तो आप इसको भी दो सेंटेंसेस में ब्रेक करोगे जिससे आपको एक
17 का सेंटेंस मिला एक 11 का सेंटेंस मिला और 17 भी अलाउड है 11 भी अलाउड है तो और तोड़ने की जरूरत नहीं है दोनों को बट हम
क्या मर्ज करके ऑप्टिमाइज कर सकते हैं वो इन दोनों को जोड़ने की कोशिश करेगा बट 17 और 18 28 हो गए 17 और 11 28 हो गए और 25
से ज्यादा है तो वो ये मर्जिंग नहीं करेगा और आपको यह दो सेंटेंसेस यहां पर मिल जाएंगे तो बेसिकली जब आप 25 रख के चंक
साइज इस टेक्स्ट को स्प्लिट करने जा रहे हो तो आपको चार अलग सेंटेंसेस मिल रहे हैं लेट मी शो इट टू
यू सो यहां पर मैं 10 के बदले अगर 25 कर दूं तो यह देखो गाइस हमें मिल रहे हैं चार सेंटेंसेस एस इन चार चंक्स ठीक है तो अब
आप नोटिस करो कि यह पर्टिकुलर एल्गोरिदम सेंटेंस के बेसिस पर तोड़ रहा है पूरे के पूरे आपके टेक्स्ट को ठीक है चच इज अ गुड
थिंग राइट अब एक चीज और करते हैं चंक साइज बढ़ाते हैं और 50 लेक देखते हैं कि क्या होता है तो फिर से सबसे पहले हम पैराग्राफ
के बेसिस पर तोड़ेंगे तो हमें दो पैराग्राफ्स मिलेंगे पहले पैराग्राफ में टोटल 34 कैरेक्टर्स है दूसरे में 28
कैरेक्टर्स है अब मजे की बात क्या है कि सिंस चंक साइज 50 है तो यहां पर भी अलाउड है यहां पर भी अलाउड है ठीक है तो और
तोड़ने की जरूरत नहीं है बट क्या हम मर्ज कर सकते हैं द आंसर इज नो मर्ज नहीं कर सकते तो बेली हमें एक पैराग्राफ यहां पे
मिला एक पैराग्राफ यहां पे मिला अगर मैं यहां पे 50 कर दूं तो दिस इज द रिजल्ट अब हम पैराग्राफ के बेसिस पे चंक कर पा रहे
हैं ठीक है तो नाउ यू कैन अंडरस्टैंड कि ये कितना बेटर है कैरेक्टर टेक्स्ट स्लेटर से बिकॉज ये जितना आप चंक साइज बढ़ा रहे
हो यह कोशिश कर रहा है पैराग्राफ्स के बेसिस पर तोड़ने का चंक साइज और घटा रहे हो कोशिश कर रहा है सेंटेंस के बेसिस प
तोड़ने का और घटा रहे हो तो कोशिश कर रहा है वर्ड्स की बेसिस प तोड़ने का और बहुत घटा दे रहे हो तब वो कोशिश कर रहा है कि
भाई ठीक है अब कैरेक्टर के बेसिस प मुझे करना पड़ेगा मतलब लिटरली अगर आप यहां पर वन कर दो तो उसको हर कैरेक्टर के बेसिस पर
तोड़ना पड़ेगा या फिर आप 100 कर दो तो फिर उसको पूरा टेक्स्ट उसको लगेगा कि सेम पैराग्राफ है ठीक है बट अगर आप एक सही
नंबर लेकर चलते हो तो यह आपको बहुत बढ़िया तरीके से टेक्स स्प्लिट करके देता है एंड दैट इज वई यह पर्टिकुलर स्प्लिटिंग
टेक्निक सबसे ज्यादा यूज होते हुए आपको दिखाई देगी अब एक बार देखते हैं कि हम रिकर्स कैरेक्टर टेक्स स्लिटर को लैंग चन
में कैसे यूज करते हैं कोड मैंने रेडी लिख रखा है बिकॉज़ कुछ अलग कोड नहीं है फिर से आपको चेन डटे स्प्लिटर से इस क्लास को
इंपोर्ट करना है आपके पास एक बड़ा सा टेक्स्ट होना चाहिए जैसे मेरे पास है और उसके बाद आप एक स्प्लिटर ऑब्जेक्ट बनाओगे
जो रिकर्स कैरेक्टर टेक्स्ट स्प्लिटर क्लास का ऑब्जेक्ट होगा यहां पे आपको अपना चंक साइज स्पेसिफाई करना है और अपना चंक
ओवरलैप स्पेसिफाई करना है ठीक है तो लेट्स से हम 100 से स्टार्ट करते हैं चंक साइज और हम स्लिटर डॉट स्प्लिट टेक्स्ट फंक्शन
को कॉल करके अपना टेक्स्ट पास करते हैं और यह हमें पलेट के हमारा चंक्स देगा हम यह पता कर रहे हैं कि नंबर ऑफ चंक्स कितने बन
रहे हैं और हम यह पता कर रहे हैं कि वो चंक्स दिखते कैसे हैं ठीक है सो अगर आप इस कोड को रन करोगे तो यू कैन सी टोटल मिलाकर
हमारे पास फाइव चंक्स बने वन ऑफ देम इज दिस स्पेस एक्सप्लोरेशन ज लेड टू इनक्रेडिबल साइंटिफिक डिस्कवरीज और यह मिड
सेंटेंस ब्रेक हो रहा है यह देखो ठीक है अगर हम इसको थोड़ा बढ़ा के 300 कर दें तो अब दो चंक्स बन रहे हैं और आप नोट करोगे
कि यह दोनों चंक्स दो पैराग्राफ्स को रिप्रेजेंट कर रहे हैं ठीक है वही अगर आप इसको थोड़ा बढ़ा दो मान लो 500 कर दो तो
अब सिर्फ एक चंक बनेगा बेसिकली आपका पूरा का पूरा पैराग्राफ उस चंक में आ जाएगा ठीक है तो यह पर्टिकुलर टेक्स्ट लेटर आप सबसे
ज्यादा यूज करने वाले हो फ्यूचर में बिकॉज ऐसा बोला जाता है कि जब आप पैराग्राफ्स या फिर सेंटेंसेस के बेसिस पर चंकि कर रहे हो
तो वो कॉन्टेक्स्ट के हिसाब से भी आप सही से ब्रेक डाउन कर रहे हो अपने सेंटेंस को अ अपने टेक्स्ट को ठीक है तो मोस्टली यू
विल बी यूजिंग रिकर्स इव कैरेक्टर टेक्स्ट स्प्लिटर मोर देन द प्रीवियस वन अब बात करते हैं हम लोग थर्ड टाइप ऑफ टेक्स्ट
स्प्लिटर की दैट इज डॉक्यूमेंट बेस्ड टेक्स्ट स्प्लिटर सो इसके पहले जो हमने डिस्कस किया था वो था टेक्स्ट स्ट्रक्चर
बेस्ड टेक्स्ट स्प्लिटर जहां पे हम टेक्स्ट का जो स्ट्रक्चर होता है उसको यूज़ कर रहे थे टेक्स्ट को स्प्लिट करने
के लिए टेक्स्ट कैसे स्ट्रक्चर्ड होता है पहले पैराग्राफ्स में फिर सेंटेंसेस में फिर वर्ड्स में फिर कैरेक्टर्स में राइट
बट व्हाट इफ आपके पास एक ऐसा डॉक्यूमेंट है जो प्लेन टेक्स्ट ना हो मेरे कहने का यह मतलब है कि आपको एक ऐसे डॉक्यूमेंट के
साथ काम करना है जो इंग्लिश हिंदी या फिर किसी लैंग्वेज में ना लिखा हुआ है बट किसी एंटायस फॉर्मेट में लिखा हुआ है जैसे कि
आपके पास एक पीस ऑफ कोड है और यह आपको प्रोसेस करना है यूजिंग अ एलएलएम अब है तो यह भी टेक्स्ट बट यह नॉर्मल प्लेन टेक्स
नहीं है तो इसको आप नॉर्मल प्लेन टेक्स्ट की तरह स्प्लिट नहीं कर सकते यह पैराग्राफ्स में ऑर्गेनाइज नहीं होता यह
सेंटेंसेस में ऑर्गेनाइज नहीं होता इसको अलग ढंग से ऑर्गेनाइज किया जाता है विद द हेल्प ऑफ सर्टेन कीवर्ड्स जैसे यहां पर
क्लास बोल करके एक कंस्ट्रक्ट है जिसमें हम एक क्लास का डेफिनेशन ऐड करते हैं यहां पर फंक्शंस होते हैं यहां पे लूप्स होते
हैं तो इस तरह की चीजें होती हैं तो हम क्या कर सकते हैं कि जो हमने थोड़ी देर पहले सीखा प्लेन टेक्स्ट के लिए वो सेम
चीज को हम दूसरे टाइप के डॉक्यूमेंट पे भी अप्लाई कर सकते हैं सो यहां पे भी हम रिकर्स कैरेक्टर टेक्स्ट स्प्लिटर ही यूज
करते हैं बस एक बड़ा डिफरेंस ये होता है कि यहां पे जो सेपरेटर्स हम यूज करते हैं वो डिफरेंट टाइप्स के होते हैं जैसे कि
यहां पे देखो हम पाइथन कोड को टेक्स्ट स्प्लिट करने के लिए ये सारे स्प्लिट्स यूज करते हैं क्लास कीवर्ड यूज करते हैं
बिकॉज पाइथन में क्लास कीवर्ड होता है डेफ यूज करते हैं टू टेक्स स्प्लिट अ फंक्शन और जब यह सब
कुछ काम कर लेता है उसके बाद हम नॉर्मल जो अभी तक हम करते आ रहे थे पैराग्राफ लाइन वर्ड और कैरेक्टर लेवल पे वह भी हम यूज
करते हैं सो बेसिकली मेरे कहने का यह मतलब है कि लास्ट जो हमने सीखा यह पर्टिकुलर टेक्स स्लिटिंग टेक्नीक उसका जस्ट एक
एक्सटेंशन है फॉर स्पेशल काइंड ऑफ डॉक्युमेंट्स लाइक कोड्स ठीक है सेम चीज आप अप्लाई कर सकते हो टू मार्क डाउन मार्क
डाउन भी एक लैंग्वेज नहीं बोलना चाहिए इट्स अ मार्कअप लैंग्वेज एक्चुअली जिसकी हेल्प से आप टेक्स्ट को ऑर्गेनाइज कर सकते
हो इन हेडिंग्स लिस्ट एक्सेट्रा तो मान लो अगर आप एक मार्क डाउन टेक्स्ट है आपके पास और इसको आपको प्रोसेस करवाना है विद द
हेल्प ऑफ अ एलएलएम और इसके लिए आपको टेक्स स्प्लिटिंग करना है तो यहां पे भी रेगुलर वाला टेक्स स्प्लिटिंग नहीं चलेगा तो इसके
खुद के अलग टाइप के आपके सेपरेटर्स हैं जिसके बेसिस पे स्प्लिटिंग होगी ठीक है तो यह हम लोग नेक्स्ट देखेंगे कि कोड में
कैसे किया जाता है इनफैक्ट कोड में जाने के पहले मैं आपको दिखाता हूं कि यह चीज कैसे आप एनिमेशन के थ्रू कर सकते हो या
कैसे एनिमेशन के थ्रू होता है अब जैसे कि यह देखो मैंने यहां पर एक मार्क डाउन फाइल ऐड की है मार्क
डाउन कंटेंट ऐड किया है इस पर्टिकुलर वेबसाइट में अब हमें क्या करना है हमें इसके ऊपर टेक्स्ट स्प्लिटिंग करनी है ठीक
है तो यहां से आपको सबसे पहले सेलेक्ट करना है रिकसिव टेक्स प्लेटर फॉर मार्क डाउन और फिलहाल जब हमने चंक साइज बहुत
छोटा कर रखा है तो आपको दिखाई दे रहा होगा कि बहुत सारे चंक्स बन रहे हैं और इट्स नॉट लॉजिकल बट जैसे-जैसे आप इसको बढ़ाते
जाओगे बाय द वे अगर आप पहले देख लो हमारे मार्क डाउन में चार पार्ट्स हैं एक यह वाला पार्ट है एक यह वाला पार्ट है एक यह
वाला पार्ट है और फाइनली एक यह वाला पार्ट है तो आईडियली होना क्या चाहिए कि इस पर्टिकुलर पीस ऑफ मार्क डाउन से चार चंक्स
बनने चाहिए फिलहाल यू कैन सी 64 चंक्स बन र है विच इज नॉट गुड हम थोड़ा बढ़ा के देखते हैं लेट्स से 50 करके देखते हैं तो
50 करने पे यू कैन सी ऑलरेडी थोड़ा प्रोग्रेस है बट अगेन जो हमें चाहिए उससे हम दूर हैं 100 ट्राई करके देखते
हैं 100 में भी ठीक है धीरे-धीरे इंप्रूव कर रहा है अ इफ वी गो टू 150 150 में भी
अ यह वाला चीज तो सही से आ रहा है फीचर्स वाला टेक्स टक वाला भी सही से आ रहा है गेटिंग स्टार्टेड बस एक काम करते हैं
थोड़ा सा और बढ़ा के देखते हैं 175 करके देखते हैं यह देखो अब ये एकदम सही हो गया यह फर्स्ट पार्ट हो गया फीचर्स वाला
सेकंड पार्ट हो गया टेक्स्ट टैक वाला थर्ड पार्ट हो गया एंड गेटिंग स्टार्टेड वाला फोर्थ पार्ट हो गया ठीक है तो यह हो
बिल्कुल सेम चीज रही है बिहाइंड द सींस रिकर्स इव कैरेक्टर टेक्स स्प्लिटर ही लग रहा है इट्स जस्ट कि इस बार वो डिफरेंट
सेट ऑफ सेपरेटर्स यूज कर रहा है पूरा का पूरा टेक्स स्प्लिटिंग करने के लिए बिकॉज हम मार्क डाउन के ऊपर टेक्स्ट स्प्लिटिंग
करवा रहे हैं अब मैं आपको कोड के ऊपर करके दिखाता हूं अब यह देखो यह एक पाइथन कोड है जहां पे क्लास डेफिनेशन है जिसके अंदर
अलग-अलग मेथड्स बने हुए हैं और बाहर हम उस क्लास को यूज कर रहे हैं और यूसेज में हम यहां पर ऑब्जेक्ट बना रहे हैं और यहां पर
एक इफ एल्स स्टेटमेंट लगा रहे हैं ठीक है तो अब यहां से आप सेलेक्ट करोगे पाइथन पाइथन सिलेक्ट करने के बाद 175 प ऑटोमेटिक
यू कैन सी यू आर गेटिंग गुड रिजल्ट्स ऑलमोस्ट गेटिंग गुड रिजल्ट यह
क्लास में कंस्ट्रक्टर तक एक चंक बन गया जो मेथड से वह अलग चक बन गए फिर आपका जो ऑब्जेक्ट का क्रिएशन है वह एक अलग ंग बन
गया और फल्स जो था वह एक अलग ंग बन गया अगर हम 200 करें 200 भी नहीं अगर हम 300 करें 350 करके देखते हैं हां 350 में दो
चंक्स बन रहे हैं सो क्लास वाला पूरा पार्ट आपका एक चंक बन गया दिस मच दिस एंटायस वन चंक और ये पूरी चीज आपकी
एक चंक बन गई ठीक है अगेन सेम चीज हो रही है बिहाइंड द सीन बिल्कुल सेम एल्गोरिदम सेम तरीके से अप्लाई हो रहा है बस इस बार
जो सेपरेटर्स हैं वो हम अलग यूज कर रहे हैं ठीक है तो नट शल में आपने क्या सीखा कि जो हमने पिछला टेक्स्ट स्प्लिटिंग
टेक्नीक डिस्कस किया था टेक्स्ट स्ट्रक्चर बेस्ड उस आइडिया को आप एक्सटेंड कर सकते हो टू डिफरेंट काइंड ऑफ़ डॉक्यूमेंट जहां
पर एगजैक्टली पैराग्राफ्स एंड सेंटेंसेस में आपका टेक्स्ट ऑर्गेनाइज नहीं है बट डिफरेंट टाइप ऑफ कंस्ट्रक्ट्स में चीजें
ऑर्गेनाइज्ड हैं जैसे कि कोड्स हुए मार्क डाउन हुए इवन html-pdf का कोड है यह आपको अलग से बताना
होगा ठीक है तो एक काम करता हूं मैं आपको एक पीस ऑफ कोड दिखाता हूं जिससे आपको समझ में आएगा कि कोडिंग में इसको कैसे करना है
सो यह रहा गाइस कोड जिसकी हेल्प से हम एक पाइथन कोड को टेक्स्ट स्प्लिट कर सकते हैं अ फिर से हम टेक्स स्प्लिटर से रिकर्स
कैरेक्टर टेक्स स्प्लिटर को इंपोर्ट कर रहे हैं यहां पे टेक्स्ट में हमने अपना पाइथन कोड डाल रखा है एज यू कैन सी उसके
बाद यहां पे आप अपना स्प्लिटर ऑब्जेक्ट बनाते हो यहां पे बस एक चीज अलग है कि आप डायरेक्टली रिकर्स कैरेक्टर टेक्स्ट
स्प्लिटर का ऑब्जेक्ट नहीं बना रहे हो आप एक्चुअली इस मेथड को कॉल कर रहे हो और यहां पर आप यह सारी चीजें प्रोवाइड कर रहे
हो सबसे पहले आप बता रहे हो कि आप कौन सा लैंग्वेज यूज कर रहे हो अपने टेक्स्ट में सो हम बता रहे हैं इट्स लैंग्वेज ड पाइथन
यहां से आप अपना चंक साइज डिसाइड कर रहे हो यहां से आप अपना चंक ओवरलैप डिसाइड कर रहे हो और आगे का काम बिल्कुल सेम है हम
स्प्लिटर डॉट स्प्लिट टेक्स्ट फंक्शन को कॉल कर रहे हैं और हम यह पता कर रहे हैं टोटल नंबर ऑफ चंक्स कितने बने और हम
फर्स्ट चंक निकाल के देखेंगे सो मैंने यहां पे जीरो चंक निकाल कोड को रन किया एंड यू कैन सी दिस इज द जीरो चंक जहां पे
क्लास रिलेटेड एवरीथिंग वी आर गेटिंग ठीक है अगर मैं यहां पर वन कर दूं तो मुझे सेकंड चंक दिखने लगेगा च् इज जहां पर हम
उस क्लास को यूज कर रहे हैं ठीक है तो दिस इज हाउ यू स्प्लिट अप पाइथन कोड सेम आप अलग-अलग लैंग्वेजेस के लिए कर सकते हो
यहां पर अगर आप मैं चाहूं तो मैं बहुत सारी चीजें कर सकता हूं मैं जावास्क्रिप्ट के लिए भी सेम काम कर सकता हूं जावा के
लिए भी कर सकता हूं पीएचपी के लिए भी कर सकता हूं बहुत सारे लैंग्वेजेस का सपोर्ट है इवन एचटीएमएल के
लिए कर सकते हैं मार्क डाउन के लिए कर सकते हैं चलो मार्क डाउन का मैं आपको दिखाता हूं सो यहां पर पहले मैं एक बार
वापस पाइथन लिख देता हूं और यहां पर मैंने सेम कोड रिपीट किया है फॉर अ मार्क डाउन पीस ऑफ टेक्स्ट सो यह मार्क डाउन
है ठीक है यहां पर हमने रिकसिव कैरेक्टर डॉट टेक्स्ट प्लेटर ड फ्रॉम लैंग्वेज में लैंग्वेज में हमने बता दिया लैंग्वेज ड
मार्क डाउन चंक साइज डिफाइन कर दिया चंक ओवरलैप डिसाइड कर दिया और यहां पे हम फिर से जीरो चंक निकाल के देख रहे हैं सो इसको
हमने रन किया एंड यू कैन सी दिस इज द फर्स्ट चंक बहुत बड़ा हमने चंक साइज ले लिया अगर हम सिर्फ 200 ले तो यह
देखो इतना हमें फर्स्ट चंक में मिल रहा है व्हिच इज फाइन बिकॉज दिस मच वी आर गेटिंग ठीक
है आई होप आपको समझ में आ रहा है कि कैसे कोड में ये सारा काम किया जा सकता है सो गाइ अभी तक हमने दो मेजर तरीके देखे
टेक्स्ट को स्प्लिट करने के एक हमने देखा लेंथ बेस्ड अप्रोच जहां पर हम कैरेक्टर काउंट या फिर टोकन काउंट के बेसिस पे
टेक्स्ट की स्प्लिटिंग कर रहे थे और सेकंड हमने देखा स्ट्रक्चर के बेसिस पे जहां पे हम यह देख रहे थे कि टेक्स्ट किस तरीके से
ऑर्गेनाइज्ड है पैराग्राफ्स में सेंटेंसेस में वर्ड्स में कैरेक्टर्स में एक्सेट्रा और उसके बेसिस पे हम स्प्लिटिंग कर रहे थे
बट देयर आर सर्टेन सिनेरियो जहां पर ये दोनों तरीके फेल कर जाते हैं और उसका एक एग्जांपल अभी आपके स्क्रीन पर
है आई वुड रिकमेंड एक बार आप वीडियो पॉज करके इस पैराग्राफ को इस टेक्स्ट को रीड करने की कोशिश करो और फिर सोच के बताओ कि
यहां पर आप कितने चंक्स बनाओगे इस पूरे टेक्स्ट को ब्रेक करके कितने चंक्स बनाओगे ठीक है अब अगर आपने इस टेक्स्ट को पढ़ा
होगा तो आई गेस आपको समझ में आ रहा होगा फर्स्ट ऑफ ल देखने में समझ में आ रहा है कि यहां पर दो पैराग्राफ्स है सेकंड
पैराग्राफ बहुत क्लियर टेररिज्म के बारे में है व्हिच इज फाइन बट जो फर्स्ट पैराग्राफ है उसमें प्रॉब्लम
है प्रॉब्लम क्या है कि फर्स्ट पैराग्राफ में दो कंपलीटली अलग चीजों के बारे में बात हो रही है सो अगर
आप यहां तक पढ़ोगे तो यहां पर एग्रीकल्चर फार्मर्स के बारे में बात हो रही है और आप यहां से यहां पढ़ोगे तो आईपीएल के बारे
में बात हो रही है चच इज अ कंपलीटली डिफरेंट टॉपिक ठीक है अब अगर आप टेक्स स्ट्रक्चर बेस्ड टेक्निक यूज करो रिकर्स
कैरेक्टर टेक्स स्प्लिटर यूज करो तो अगर आप एक डिसेंट ंक साइज देते हो तो होगा क्या कि वह इस टेक्स्ट को दो चंक्स में
डिवाइड कर देगा ऊपर वाला पैराग्राफ नीचे वाला पैराग्राफ बट प्रॉब्लम क्या है कि ऊपर
वाले पैराग्राफ में दो बहुत अलग चीजों के बारे में बात की गई है तो उनकी एंबेडिंग जनरेट करने पर क्वालिटी उतनी अच्छी नहीं
रहेगी तो आईडियली होना क्या चाहिए था इस केस में कि आपके तीन चंक्स बनने चाहिए थे सो दिस मच शुड हैव बीन वन चंक दिस मच शुड
हैव बीन द सेकंड चंक एंड दिस मच शुड हैव बीन द थर्ड चंक ठीक है एग्रीकल्चर का अलग चंक और आईपीएल का अलग चंक टेररिज्म का अलग
चंक ठीक है और इसी में आपको हेल्प करता है इस तरह के सिचुएशन में आपको हेल्प करता है सेमांटिक मीनिंग बेस्ड टेक्स स्लेटर जहां
पे आईडिया यह है कि आप लेंथ के बेसिस पे या फिर टेक्स्ट के स्ट्रक्चर के बेसिस पे डिसीजन मेकिंग नहीं कर रहे हो कि टेक्स्ट
स्लिटिंग कहां होनी चाहिए बट आप सिमटिक मीनिंग के बेसिस पे ये डिसीजन मेकिंग कर रहे हो ठीक है तो सिमटिक मीनिंग बेस्ड
टेक्स्ट स्लिटर्स का मेन आईडिया यह होता है कि वो टेक्स्ट का जो मीनिंग है उसको समझने की कोशिश करते हैं और जहां उनको
दिखाई देता है कि दो टेक्स्ट के बीच में जो मीनिंग है वो बहुत डिफरेंट है तो वो वहां पर टेक्स्ट स्प्लिटिंग परफॉर्म करते
हैं ठीक है जैसे यहां पर एक अप्रोच आप यह लगा सकते थे कि आप यहां पे इस पूरे टेक्स्ट को सेंटेंस बाय सेंटेंस अलग कर
देते जैसे कि मान लो यह आपका फर्स्ट सेंटेंस हो गया दिस मच इज र फर्स्ट सेंटेंस यह आपका सेकंड
सेंटेंस हो गया यह आपका थर्ड सेंटेंस हो गया और यह आपका फोर्थ सेंटेंस हो गया ठीक है इस तरीके से आप अलग-अलग सेंटेंसेस बना
लो फिर आप क्या करो आप एक एंबेडिंग मॉडल उठाओ जैसे कि ओपन एआई का एंबेडिंग मॉडल हो सकता है और उस एंबेडिंग मॉडल में इन सारे
सेंटेंसेस को वन बाय वन भेज करके इन सारे सेंटेंसेस के लिए आप एंबेडिंग वेक्टर्स जनरेट कर लो ठीक है उसके बाद क्या करो आप
सेंटेंस वन के वेक्टर को सेंटेंस टू के वेक्टर के साथ कंपेयर करो और सिमिलरिटी निकालो कोइन सिमिलरिटी निकाल सकते हो
जिससे आपको यह समझ में आएगा कि इन दोनों सेंटेंसेस के बीच में कितनी सिमिलरिटी है अगर यह दोनों सेंटेंसेस सेम टॉपिक के बारे
में बात कर रहे हैं तो ओबवियसली इनके बीच में सिमिलरिटी हाई होगा बट अगर अगर ये दोनों बहुत अलग टॉपिक्स के बारे में बात
कर रहे तो इनके बीच की सिमिलरिटी कम होगी ठीक है फिर आप क्या करो s2 और s3 के बीच में निकालो s3 और s4 के बीच में निकालो और
ऐसे करते-करते आप हर कंकट पेयर ऑफ सेंटेंसेस की एंबेडिंग के बीच में कोइन सिमिलरिटी निकालते जाओ जिस भी पेयर के पास
जाके आपको सडन से लगे कि ये सिमिलरिटी बहुत ज्यादा लो है वो पॉइंट आपको इंडिकेट कर रहा है कि
यहां पर टॉपिक चेंज हुआ है और सिमटिक मीनिंग बेस टेक्स्ट लेटर एगजैक्टली इसी प्रिंसिपल पर काम करते हैं ठीक है दे यूज
अ स्लाइडिंग विंडो अप्रोच जहां पर वो एक सेंटेंस से अगले सेंटेंस से अगले सेंटेंस के बीच कंपैरिजन करते चलते हैं सिमिलरिटी
का सेमांटिक मीनिंग का और जहां पर उनको लगता है कि सिमिलरिटी अचानक से अब्रप्टली बहुत कम हो गई वहां पर उनको समझ में आ
जाता है कि अच्छा यहां पर मीनिंग चेंज हुआ है इट मींस यहां पर वी कैन परफॉर्म अ स्प्लिटिंग ठीक है द ओनली प्रॉब्लम इज कि
यह कांसेप्ट थोड़ा नया है और यह टेक्स स्लिटर्स अभी काइंड ऑफ एक्सपेरिमेंटल है अभी इनको उतना ज्यादा यूज नहीं किया जाता
है बट जैसे-जैसे एंबेडिंग मॉडल्स और पावरफुल होते जा रहे हैं यह टेक्निक आपको फ्यूचर में और ज्यादा
दिखाई देगा ठीक है तो लैंग चन में हालांकि ये पर्टिकुलर टेक्स पटर एजिस्ट करता है बट वो एक्सपेरिमेंटल स्टेज में है और मेरे
एक्सपीरियंस में मैंने जितना भी यूज किया मुझे उसका परफॉर्मेंस बहुत ज्यादा एक्यूरेट दिखाई नहीं नहीं दिया ठीक है तो
मैं आपको एक पीस ऑफ कोड दिखाता हूं जहां पर मैं यह सिमटिक मीनिंग बेस्ड टेक्स्ट स्प्लिटिंग अप्लाई करूंगा इस सेम टेक्स्ट
के ऊपर एंड लेट्स सी रिजल्ट क्या आता है सो यू कैन सी यह कोड मैंने ऑलरेडी लिख रखा है यह हमारा सैंपल टेक्स्ट है एगजैक्टली
वही टेक्स्ट है जो मैंने आपको थोड़ी देर पहले दिखाया है हम क्या कर रहे हैं हम लैंग चन एक्सपेरिमेंटल से सिमटिक चंकर बोल
के एक टेक्स्ट प्लेटर को इंपोर्ट कर रहे हैं और जैसा मैंने बोला यह अभी एक्सपेरिमेंट टल है मेन लाइब्रेरी का
पार्ट नहीं है ठीक है साथ ही साथ हम ओपन एआई से ओपन एआई एंबेडिंग्स को इंपोर्ट कर रहे हैं और यहां पर हम अपना टेक्स
स्प्लिटर फॉर्म कर रहे हैं टेक्स स्लेटर फॉर्म करने के प्रोसेस में हम बता दे रहे हैं कि हम यह एंबेडिंग यूज करना चाहते हैं
आप कोई और एंबेडिंग भी यूज कर सकते हो फिर यहां पर आपको एक थ्रश होल्ड टाइप बताना होता है ठीक है सो जैसा मैंने बोला कि
अचानक से यह सिमिलरिटी अगर बहुत लो हो जाती है तो आपको समझ में आता है कि कांटेक्ट चेंज हुआ है बट कितना लो हाउ वुड
यू डिसाइड तो यहां पर अलग-अलग क्राइटेरियास होते हैं उन्हीं में से एक क्राइटेरिया है स्टैंडर्ड डेविएशन ठीक है
स्टैंडर्ड डेविएशन मतलब आपने क्या किया आपने s1 s2 का सिमिलरिटी निकाला मान लो वो पं3 आया s2 s3 का सिमिलरिटी निकाला प2 आया
s3 s4 का सिमिलरिटी निकाला वो पॉइंट ना आया और लास्ट में s 10 और s1 का निकाला तो ये पंट व आया या 001 आया ठीक है तो आप
क्या करोगे आप इन सारे नंबर्स का स्टैंडर्ड डेविएशन निकालो ठीक है
और अगर यहां पे मान लो अगर आपने ब्रेक पॉइंट थ्रश होल्ड अमाउंट वन रखा है इसका मतलब
अगर कभी भी कोई भी डिस्टेंस बिटवीन टू सेंटेंसेस एक स्टैंडर्ड डेविएशन से अगर
ज्यादा है तो हम उसको एक ब्रेकिंग पॉइंट मानेंगे वहां पे हम टेक्स्ट को स्प्लिट करेंगे ठीक है तो फिर से समझना हम सारे
सेंटेंसेस के एंबेडिंग वेक्टर्स निकाल रहे हैं फिर हर दो कंसेक्युटिव वेक्टर्स के बीच में सिमिलरिटी निकाल रहे हैं उन
सिमिलरिटी से हम स्टैंडर्ड डेविएशन कैलकुलेट कर रहे हैं राइट सेट ऑफ नंबर्स हैं आप स्टैंडर्ड
डेविएशन कैलकुलेट कर सकते हो और फिर जहां भी कोई भी सिमिलरिटी एक स्टैंडर्ड डेविएशन से अगर ज्यादा है या फिर एक स्टैंडर्ड
डेविएशन से कम डिपेंड करता है अगर आप सिमिलरिटी यूज कर रहे हो या डिस्टेंस यूज कर रहे हो उसके बेसिस पे तो आप उसको
ब्रेकिंग पॉइंट मान लेते हो ठीक है तो यह थ्रश होल्ड टाइप हम यहां पे स्टैंडर्ड डेविएशन यूज कर रहे हैं इसके अलावा और भी
थ्रश होल्ड्स होते हैं मैं डॉक्यूमेंटेशन ऐड कर दूंगा आपके पास परसेंटाइल का ऑप्शन होता है आपके पास इंटर क्वार्टाइल्स का
ऑप्शन होता है आपके पास स्टैंडर्ड डेविएशन का ऑप्शन होता है आपके पास ग्रेडिएंट का ऑप्शन होता है अलग-अलग टाइप्स हैं और उन
टाइप्स का आप थ्रश होल्ड यहां पे डिसाइड कर सकते हो वन स्टैंडर्ड डे टू स्टैंडर्ड डेविएशन थ्री स्टैंडर्ड डेविएशन आप डिसाइड
कर सकते हो तो यहां पर हमने अपना टेक्स स्प्लिटर बनाया और यहां पर हमने अपना डॉक्यूमेंट पास किया और अब हम देख रहे हैं
कि कितने चंक्स बन रहे हैं तो एक बार इस कोड को रन करते हैं देखो हमारी उम्मीद के हिसाब से तीन चंक्स तो बने हैं लेकिन अगर
आप ध्यान दो तो चंक्स थोड़े गड़बड़ है जैसे एग्रीकल्चर वाला ठीक है यहां तक ठीक है बट आईपीएल वाले में नोटिस करो कि यह
वाली लाइन ऐड हो गई द सन वाज ब्राइट एंड द एयर स्मेल्ड ऑफ अर्थ एंड फ्रेश ग्रास ये आना चाहिए था
एग्रीकल्चर वाले में बट ये इंडियन प्रीमियर लीग वाले में आ गया और फिर यह थर्ड वाले में देखो टेररिज्म के बारे में
पूरी चीज दी हुई है ठीक है अब यहां पर आप यह थ्रश होल्ड चेंज कर कर के देख सकते हो जैसे अगर आप थ्री कर दो थ्री स्टैंडर्ड
डेविएशन आप ज्यादा टॉलरेंस ला रहे हो कॉन्टेक्स्ट चेंज के लिए तो अब आप नोटिस करोगे कि एक
सिंगल चंक बना बेसिकली वो पूरे के पूरे चीज को सेम कॉन्टेक्स्ट मान रहा है क्योंकि आपने स्टैंडर्ड डेविएशन बहुत हाई
सेट कर रखा है थ्री स्टैंडर्ड डेविएशन के बराबर सेट कर रखा है अनलेस बहुत ज्यादा डिसिमिलरिटी नहीं आएगी तब तक आप मान के चल
रहे हो कि सब कुछ सेम है ठीक है तो यहां पर आप इसके साथ थोड़ा एक्सपेरिमेंट कर सकते हो उसके बेसिस पर आपको अलग-अलग
रिजल्ट्स दिखने लगेंगे बट मैंने जितना एक्सपेरिमेंट किया है बहुत ज्यादा सेटिस्फाइंग रिजल्ट्स नहीं मिले हैं
हालांकि यह जो कांसेप्ट है यह बहुत प्रॉमिसिफाई वन ऑफ द मेन टेक्स स्लिटर्स बन स सकता है
एज ऑफ नाउ जो चार ऑप्शंस हमने देखे उनमें से जो बेस्ट है वह रिकर्स कैरेक्टर टेक्स स्प्लिटर ही है और वही आपको सबसे ज्यादा
यूज करने को मिलेगा ठीक है सो विद दैट हमने सारे जो भी मेन टेक्स स्लिटर्स थे कवर कर लिए इस वीडियो में बाकी आई वुड
रिकमेंड एक बार आप जाके थोड़ा डॉक्यूमेंटेशन देखो बिकॉज बहुत कुछ है लैंग चन में सब कुछ कवर कर पाना पॉसिबल
नहीं है एक वीडियो में बट जितना हो सका मैंने किया इस वीडियो में अगर आपको वीडियो पसंद आया प्लीज लाइक करना अगर आपने चैनल
को सब्सक्राइब नहीं किया है प्लीज डू सब्सक्राइब मिलते हैं नेक्स्ट वीडियो में बाय
Heads up!
This summary and transcript were automatically generated using AI with the Free YouTube Transcript Summary Tool by LunaNotes.
Generate a summary for freeRelated Summaries

एंकर C200 2K वेबकैम: विस्तृत समीक्षा और तुलना
जानें एंकर C200 2K वेबकैम की विशेषताएँ, तुलना और उपयोग के टिप्स।

C++ प्रोग्रामिंग बेसिक्स: कंपाइलर, वेरिएबल्स और डेटा टाइप्स समझें
इस वीडियो में हमने C++ प्रोग्रामिंग की शुरुआत से लेकर कंपाइलर, वेरिएबल डिक्लेरेशन, डेटा टाइप्स, और मेमोरी स्टोरेज तक के महत्वपूर्ण कॉन्सेप्ट्स को विस्तार से समझा। साथ ही, हमने कोड लिखने, रन करने और सिंटैक्स के बेसिक्स को भी सीखा।

ईमेल मार्केटिंग: डिजिटल मार्केटिंग में ROI बढ़ाने की रणनीतियाँ
इस वीडियो में, ईमेल मार्केटिंग के महत्व और इसके माध्यम से उच्चतम रिटर्न ऑन इन्वेस्टमेंट (ROI) प्राप्त करने के तरीकों पर चर्चा की गई है। जानें कि कैसे ईमेल मार्केटिंग आपके व्यवसाय को बढ़ाने में मदद कर सकती है और इसके विभिन्न फनल स्टेजेस के बारे में जानकारी प्राप्त करें।

क्लास 12th मनी एंड बैंकिंग: मनी, बैंकिंग और क्रेडिट क्रिएशन का पूरा गाइड
इस वीडियो में क्लास 12th के मनी एंड बैंकिंग के दो चैप्टर का डिटेल वन शॉट कवर किया गया है। बार्टर सिस्टम से लेकर मनी के फंक्शंस, मनी के प्रकार, बैंकिंग सिस्टम, सेंट्रल बैंक के फंक्शंस, मनी सप्लाई, मॉनिटरी पॉलिसी और क्रेडिट क्रिएशन तक सभी महत्वपूर्ण कॉन्सेप्ट्स को आसान भाषा में समझाया गया है।

नेचुरल लैंग्वेज प्रोसेसिंग (NLP) का परिचय और उपयोग
इस वीडियो में नेचुरल लैंग्वेज प्रोसेसिंग (NLP) के मूल सिद्धांत, इसकी जरूरत, और इसके विभिन्न एप्लीकेशंस पर विस्तार से चर्चा की गई है। साथ ही, मशीन लर्निंग और डीप लर्निंग के NLP में उपयोग, चुनौतियां, और भविष्य की संभावनाओं को समझाया गया है।
Most Viewed Summaries

Kolonyalismo at Imperyalismo: Ang Kasaysayan ng Pagsakop sa Pilipinas
Tuklasin ang kasaysayan ng kolonyalismo at imperyalismo sa Pilipinas sa pamamagitan ni Ferdinand Magellan.

A Comprehensive Guide to Using Stable Diffusion Forge UI
Explore the Stable Diffusion Forge UI, customizable settings, models, and more to enhance your image generation experience.

Mastering Inpainting with Stable Diffusion: Fix Mistakes and Enhance Your Images
Learn to fix mistakes and enhance images with Stable Diffusion's inpainting features effectively.

Pamamaraan at Patakarang Kolonyal ng mga Espanyol sa Pilipinas
Tuklasin ang mga pamamaraan at patakaran ng mga Espanyol sa Pilipinas, at ang epekto nito sa mga Pilipino.

Pag-unawa sa Denotasyon at Konotasyon sa Filipino 4
Alamin ang kahulugan ng denotasyon at konotasyon sa Filipino 4 kasama ang mga halimbawa at pagsasanay.