एक सिमेंटिक रेज्यूमे मैचर का निर्माण - ऑफलाइन, प्राइवेट और वास्तव में स्मार्ट

26 जून 2026५ मिनट का पाठ

बड़े पैमाने पर भर्ती करना टूट चुका है। इसलिए नहीं कि कंपनियों के पास उम्मीदवारों की कमी है, बल्कि इसलिए कि सही उम्मीदवारों को खोजने के लिए उपयोग किए जाने वाले उपकरण 2026 के लिए शर्मनाक रूप से आदिम हैं। मैंने इसे ठीक करने के लिए और पूरी तरह से ऑफलाइन करने के लिए सिमेंटिक रेज्यूमे मैचर का निर्माण किया।

पारंपरिक एटीएस के साथ समस्या

यदि आपने कभी किसी नौकरी के लिए आवेदन किया है और स्पष्ट रूप से योग्य होने के बावजूद कोई प्रतिक्रिया नहीं सुनी है, तो आपको लगभग निश्चित रूप से एक आवेदक ट्रैकिंग सिस्टम (एटीएस) द्वारा खारिज कर दिया गया है, न कि किसी इंसान द्वारा। ये सिस्टम नौकरी विवरण (job description) के खिलाफ सटीक कीवर्ड मिलान के लिए रेज्यूमे को स्कैन करके काम करते हैं। यदि कोई उम्मीदवार “वितरित पाइपलाइन (distributed pipelines) का निर्माण किया” लिखता है और नौकरी सूची में “डेटा इंजीनियरिंग अनुभव” लिखा है, तो सिस्टम शून्य समानता देखता है। किसी रिक्रूटर द्वारा उनकी प्रोफ़ाइल देखने से पहले ही उम्मीदवार को फ़िल्टर कर दिया जाता है।

यह केवल उम्मीदवारों के लिए बुरा नहीं है। यह कंपनियों के लिए भी बुरा है। वास्तविक प्रतिभाएं दरारों से फिसल जाती हैं क्योंकि एक मशीन केवल वर्तनी (spelling) को समझ सकती है, अर्थ को नहीं।

क्लाउड एआई की समस्या

स्पष्ट समाधान (रेज्यूमे को समझने के लिए एक एलएलएम का उपयोग करना) समस्याओं का एक नया सेट पेश करता है। रेज्यूमे सबसे संवेदनशील दस्तावेजों में से हैं जो एक व्यक्ति के पास होते हैं। उनमें पूरे कानूनी नाम, पते, रोजगार इतिहास और कभी-कभी वेतन की उम्मीदें शामिल होती हैं। उस डेटा को किसी तीसरे पक्ष के क्लाउड एपीआई (OpenAI, Anthropic, Gemini) पर भेजना एक जीडीपीआर (GDPR) और सीसीपीए (CCPA) उल्लंघन का क्षेत्र है, और कई न्यायालयों में एक सीधा कानूनी जोखिम है।

इसके साथ ही लागत भी जोड़ें: क्लाउड एपीआई मूल्य निर्धारण पर हजारों रेज्यूमे में एलएलएम अनुमान (inference) चलाना तेजी से निषेधात्मक रूप से महंगा हो जाता है। आप उस डेटा के लिए प्रति टोकन भुगतान कर रहे हैं जिसके आप स्वामी नहीं हैं, उस इंफ्रास्ट्रक्चर पर संसाधित किया जा रहा है जिसे आप नियंत्रित नहीं करते हैं।

समाधान: स्थानीय, सिमेंटिक और व्याख्या योग्य

सिमेंटिक रेज्यूमे मैचर एक एंटरप्राइज-ग्रेड रेज्यूमे-टू-जॉब मिलान प्रणाली है जो पूरी तरह से आपकी अपनी मशीन पर चलती है। कोई भी डेटा कभी भी आपके स्थानीय नेटवर्क से बाहर नहीं जाता है। यह तीन तकनीकों को जोड़ता है जो मिलकर कुछ वास्तव में उपयोगी बनाती हैं:

एलएलएम-संचालित संरचित निष्कर्षण (structured extraction): एक स्थानीय मॉडल (ओलामा के माध्यम से सेवित गेमा 3 या लामा 3.2) कच्चे पीडीएफ रेज्यूमे टेक्स्ट को पढ़ता है और एक क्लीन, मान्य JSON प्रोफाइल निकालता है: कौशल, कार्य इतिहास, शिक्षा। किसी क्लाउड एपीआई कुंजी की आवश्यकता नहीं है।
सिमेंटिक वेक्टर खोज: उम्मीदवार प्रोफाइल और नौकरी विवरण दोनों को nomic-embed-text का उपयोग करके उच्च-आयामी वैक्टर के रूप में एनकोड किया जाता है, जो स्थानीय रूप से भी चल रहा है। कोसाइन समानता खोज सीधे pgvector एक्सटेंशन के माध्यम से पोस्टग्रेएसक्यूएल के अंदर की जाती है। एक उम्मीदवार जिसने “माइक्रोसर्विसेज को आर्किटेक्ट किया” है, वह “वितरित सिस्टम अनुभव” चाहने वाली भूमिका से मेल खाएगा, क्योंकि वैक्टर अर्थ की निकटता को समझते हैं।
नियतात्मक (deterministic) व्यावसायिक नियम सुरक्षा: किसी भी मिलान को दिखाने से पहले, कठोर बाधाएं लागू की जाती हैं: वीजा प्रायोजन आवश्यकताएं, वेतन सीमा संरेखण, और स्थान या दूरस्थ प्राथमिकताएं। एआई इनके पार जाने के लिए मतिभ्रम (hallucinate) नहीं कर सकता। वे डेटाबेस क्वेरी द्वारा लागू किए जाते हैं, न कि मॉडल द्वारा।

समझाए जाने योग्य, न कि एक ब्लैक बॉक्स

जिस हिस्से पर मुझे सबसे ज्यादा गर्व है वह है फिट विश्लेषण लेयर (fit analysis layer)। प्रत्येक मिलान के लिए, सिस्टम एक प्राकृतिक भाषा स्पष्टीकरण उत्पन्न करता है: यह उम्मीदवार क्यों फिट बैठता है, भूमिका के सापेक्ष उनकी उत्कृष्ट ताकत क्या है, और सबसे महत्वपूर्ण बात, कौन से कौशल अंतराल मौजूद हैं। रिक्रूटर्स को एक स्कोर सौंपकर उस पर भरोसा करने के लिए नहीं कहा जाता है। उन्हें एक पठनीय संक्षिप्त विवरण मिलता है जो उन्हें यह तय करने में मदद करता है कि उम्मीदवार को आगे बढ़ाना है या नहीं और साक्षात्कार में क्या जांच करनी है।

तकनीकी स्टैक (The Stack)

बैकएंड एक FastAPI सेवा है जिसमें एसिंक्रोनस SQLAlchemy, Pydantic सत्यापन, संरचित JSON लॉगिंग और अनुरोध ट्रेस-ID प्रचार शामिल है। डेटाबेस PostgreSQL 15 है जिसमें एलेम्बिक (Alembic) द्वारा प्रबंधित स्कीमा माइग्रेशन और pgvector द्वारा नियंत्रित वेक्टर संचालन शामिल हैं। एलएलएम और एम्बेडिंग को Ollama द्वारा स्थानीय रूप से परोसा जाता है। फ्रंटएंड एक React + Vite डैशबोर्ड है जिसमें रीयल-टाइम टेलीमेट्री चार्ट, एक रेज्यूमे अपलोड प्रवाह और एक साइड-बाय-साइड मिलान पैनल है जिसमें सर्कुलर मैच स्कोर संकेतक हैं। पूरा स्टैक एक सिंगल docker compose up के साथ खड़ा हो जाता है।

यह क्यों मायने रखता है

यह परियोजना केवल एक पोर्टफोलियो डेमो नहीं है। यह इस बात का प्रमाण है कि बिग टेक क्लाउड इंफ्रास्ट्रक्चर पर निर्भर हुए बिना जिम्मेदार, निजी, लागत प्रभावी एआई-सहायता प्राप्त भर्ती आज संभव है। स्थानीय ओपन-सोर्स मॉडल संरचित निष्कर्षण और सिमेंटिक तर्क करने के लिए काफी अच्छे हैं। पोस्टग्रेस वेक्टर खोज करने के लिए पर्याप्त शक्तिशाली है। आपको बाहरी सर्वर पर उम्मीदवार पीआईआई (PII) का एक भी बाइट भेजने की आवश्यकता नहीं है।

स्रोत कोड GitHub पर पूरी तरह से खुला है। मुझे भर्ती उपकरण क्षेत्र में काम करने वाले या स्थानीय-प्रथम एआई सिस्टम के बारे में सोचने वाले किसी भी व्यक्ति से प्रतिक्रिया सुनना अच्छा लगेगा।