Free MCS-230 Solved Assignment | July 2025, January 2026 | MCA_NEW, MCAOL | English & Hindi Medium | IGNOU

प्रश्न:-1

ऑप्टिकल, एनालॉग और डिजिटल इमेज प्रोसेसिंग की व्याख्या करें।

उत्तर:

???? ऑप्टिकल इमेज प्रोसेसिंग

ऑप्टिकल इमेज प्रोसेसिंग में इलेक्ट्रॉनिक संकेतों में परिवर्तित होने से पहले ऑप्टिकल तकनीकों और लेंसों का उपयोग करके छवियों में हेरफेर करना शामिल है। यह विधि सीधे प्रकाश तरंगों पर काम करती है और अक्सर वास्तविक समय में फ़िल्टरिंग, सहसंबंध और संवर्द्धन जैसे कार्यों के लिए उपयोग की जाती है। उदाहरण के लिए, माइक्रोस्कोपी या होलोग्राफी में, लेंस, प्रिज्म और दर्पण का उपयोग डिजिटल रूपांतरण के बिना प्रकाश पैटर्न को फ़ोकस करने, आवर्धित करने या संशोधित करने के लिए किया जाता है। इसका एक उत्कृष्ट उदाहरण एनालॉग प्रणालियों में फूरियर ऑप्टिक्स का उपयोग है, जहाँ लेंस शोर को दूर करने या किनारों को बढ़ाने के लिए स्थानिक आवृत्ति फ़िल्टरिंग करते हैं। ऑप्टिकल प्रोसेसिंग असाधारण रूप से तेज़ है क्योंकि यह प्रकाश की गति का लाभ उठाती है और इसके लिए किसी डिजिटल गणना की आवश्यकता नहीं होती है, लेकिन इसमें डिजिटल विधियों जैसा लचीलापन और सटीकता का अभाव होता है। इसका उपयोग मुख्य रूप से चिकित्सा इमेजिंग, खगोल विज्ञान और ऑप्टिकल कंप्यूटिंग जैसे विशिष्ट अनुप्रयोगों में किया जाता है।

???? एनालॉग इमेज प्रोसेसिंग

एनालॉग इमेज प्रोसेसिंग में, किसी इमेज को दर्शाने वाले निरंतर विद्युत संकेतों को, आमतौर पर एनालॉग सर्किट या उपकरणों के माध्यम से, संशोधित करना शामिल होता है। डिजिटल तकनीक के आगमन से पहले यह विधि प्रचलित थी और आज भी कुछ वीडियो सिस्टम और टेलीविजन प्रसारण में इसका उपयोग किया जाता है। एनालॉग प्रोसेसिंग में, चमक समायोजन, कंट्रास्ट वृद्धि और शोर में कमी जैसे कार्य प्रतिरोधकों, संधारित्रों और एम्पलीफायरों जैसे इलेक्ट्रॉनिक घटकों का उपयोग करके किए जाते हैं। उदाहरण के लिए, कैथोड-रे ट्यूब (CRT) टेलीविजन स्कैन लाइनों और रंगीन संकेतों को नियंत्रित करने के लिए एनालॉग सर्किट का उपयोग करते थे। हालाँकि एनालॉग प्रोसेसिंग वास्तविक समय के कार्यों के लिए कुशल है और डिजिटलीकरण संबंधी कलाकृतियों से बचाती है, लेकिन समय के साथ इसमें शोर, विकृति और क्षरण का खतरा बना रहता है। यह सीमित लचीलापन भी प्रदान करता है, क्योंकि प्रोसेसिंग कार्यों को संशोधित करने के लिए हार्डवेयर में बदलाव की आवश्यकता होती है।

???? डिजिटल इमेज प्रोसेसिंग

डिजिटल इमेज प्रोसेसिंग (डीआईपी) में एल्गोरिदम और कम्प्यूटेशनल तकनीकों का उपयोग करके पिक्सेल के असतत सरणियों के रूप में प्रदर्शित छवियों में हेरफेर करना शामिल है। यह दृष्टिकोण सटीक, जटिल और पुनरुत्पादनीय रूपांतरणों की अनुमति देता है। इस प्रक्रिया में आमतौर पर अधिग्रहण (जैसे, डिजिटल कैमरों के माध्यम से), पूर्व-प्रसंस्करण (जैसे, शोर में कमी, संवर्द्धन), विभाजन, विशेषता निष्कर्षण और विश्लेषण शामिल हैं। प्रमुख लाभों में लचीलापन, सटीकता और वस्तु पहचान या चिकित्सा निदान के लिए कन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) जैसी उन्नत तकनीकों को लागू करने की क्षमता शामिल है। उदाहरण के लिए, एमआरआई स्कैन ऊतक कंट्रास्ट को बढ़ाने के लिए डिजिटल फ़िल्टर का उपयोग करते हैं, और उपग्रह इमेजरी भू-भाग मानचित्रण के लिए डीआईपी पर निर्भर करती है। ऑप्टिकल या एनालॉग विधियों के विपरीत, डिजिटल प्रोसेसिंग के लिए महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, लेकिन यह स्वचालन, भंडारण और अन्य डिजिटल प्रणालियों के साथ एकीकरण को सक्षम बनाता है। यह रोबोटिक्स, एआई और मल्टीमीडिया में आधुनिक अनुप्रयोगों की आधारशिला है।

???? तुलनात्मक अवलोकन

तीनों विधियाँ अपने सिद्धांतों और अनुप्रयोगों में मौलिक रूप से भिन्न हैं। ऑप्टिकल प्रोसेसिंग निष्क्रिय और हार्डवेयर-आधारित है, एनालॉग प्रोसेसिंग निरंतर संकेतों पर काम करती है, और डिजिटल प्रोसेसिंग असतत गणितीय संक्रियाओं पर निर्भर करती है। जहाँ ऑप्टिकल और एनालॉग विधियाँ गति और वास्तविक समय प्रदर्शन में उत्कृष्ट हैं, वहीं डिजिटल प्रोसेसिंग बेजोड़ बहुमुखी प्रतिभा, सटीकता और मापनीयता प्रदान करती है। आजकल, हाइब्रिड प्रणालियाँ अक्सर इन तरीकों को जोड़ती हैं; उदाहरण के लिए, ऑप्टिकल सेंसर छवियों को कैप्चर करते हैं, एनालॉग सर्किट प्रारंभिक सिग्नल कंडीशनिंग करते हैं, और डिजिटल एल्गोरिदम विस्तृत विश्लेषण करते हैं। दूरसंचार, चिकित्सा इमेजिंग और रिमोट सेंसिंग जैसे क्षेत्रों में सही तकनीक चुनने के लिए इन अंतरों को समझना महत्वपूर्ण है।

प्रश्न:-2

(i) 400dpi पर स्कैन किए जाने पर 3200x2400 आयाम वाले दस्तावेज़ की 2D छवि का भौतिक आकार क्या होना चाहिए। यहां dpi का अर्थ डॉट्स प्रति इंच है।

(ii) यदि किसी मेडिकल छवि का भौतिक आकार 4x4 इंच है और नमूनाकरण रिज़ॉल्यूशन 5 चक्र/मिमी है, तो बेहतर गुणवत्ता वाली छवि के लिए प्रति चक्र कितने पिक्सेल की आवश्यकता होगी? क्या आकार की छवि

512 \times 512

क्या यह पर्याप्त होगा?

उत्तर:

(i) स्कैन किए गए दस्तावेज़ छवि का भौतिक आकार

दिया गया:

छवि आयाम: 3200 × 2400 पिक्सेल
स्कैनिंग रिज़ॉल्यूशन: 400 डीपीआई (डॉट्स प्रति इंच)

गणना:
भौतिक आकार (इंच में) पिक्सेल की संख्या को रिज़ॉल्यूशन (डीपीआई) से विभाजित करके निर्धारित किया जाता है।

चौड़ाई: $\frac{3200 पिक्सेल}{400 डीपीआई} = 8 इंच$
ऊंचाई: $\frac{2400 पिक्सेल}{400 डीपीआई} = 6 इंच$

उत्तर:
स्कैन की गई छवि का भौतिक आकार 8 इंच × 6 इंच है ।

(ii) प्रति चक्र पिक्सेल और 512×512 छवि की पर्याप्तता

दिया गया:

चिकित्सा छवि का भौतिक आकार: 4 × 4 इंच
नमूनाकरण संकल्प: 5 चक्र/मिमी

चरण 1: साइकिल/मिमी को साइकिल/इंच में बदलें
क्योंकि 1 इंच = 25.4 मिमी,

5 चक्र/मिमी \times 25.4 मिमी/इंच = 127 चक्र/इंच

चरण 2: प्रति चक्र आवश्यक पिक्सेल निर्धारित करें
अलियासिंग से बचने और उच्च गुणवत्ता सुनिश्चित करने के लिए, नाइक्विस्ट मानदंड के लिए प्रति चक्र कम से कम 2 पिक्सेल की आवश्यकता होती है ।

आवश्यक नमूना दर: $2 पिक्सेल/चक्र$

चरण 3: आवश्यक कुल पिक्सेल की गणना करें

एक आयाम में कुल चक्र (जैसे, चौड़ाई):
$127 चक्र/इंच \times 4 इंच = 508 चक्र$
आवश्यक पिक्सेल (चौड़ाई): $508 चक्र \times 2 पिक्सेल/चक्र = 1016 पिक्सेल$
इसी प्रकार, ऊंचाई के लिए: $1016 पिक्सेल$

इस प्रकार, नाइक्विस्ट आवश्यकताओं को पूरा करने के लिए छवि कम से कम 1016 × 1016 पिक्सेल की होनी चाहिए।

चरण 4: जांचें कि क्या 512×512 पर्याप्त है

न्यूनतम आवश्यक आकार 1016 × 1016 पिक्सेल है।
एक 512×512 छवि केवल प्रदान करती है $512 पिक्सेल$ प्रति आयाम, जो 1016 से कम है।

परिणाम:

चूंकि नमूनाकरण दर नाइक्विस्ट दर से कम है, इसलिए अलियासिंग हो सकती है।
सूक्ष्म विवरण खो सकते हैं या गलत प्रस्तुत हो सकते हैं, जिससे छवि की गुणवत्ता कम हो सकती है।

उत्तर:

प्रति चक्र आवश्यक पिक्सेल: 2 पिक्सेल/चक्र (नाइक्विस्ट मानदंड के अनुसार)।
क्या 512×512 पर्याप्त है? नहीं, यह अपर्याप्त है। अलियासिंग से बचने और गुणवत्ता बनाए रखने के लिए कम से कम 1016×1016 पिक्सेल की आवश्यकता होती है।

सारांश:

(i) भौतिक आकार: 8 इंच × 6 इंच.
(ii) ≥1016×1016 पिक्सेल की आवश्यकता होती है; 512×512 पर्याप्त नहीं है और इससे अलियासिंग हो सकती है।

प्रश्न:-3

(i) 2048 x 2048, 24-बिट रंगीन छवि के लिए भंडारण आवश्यकता क्या है?

(ii) छवियों के संदर्भ में तीव्रता, कंट्रास्ट, चमक, शोर और रिज़ॉल्यूशन की व्याख्या करें।

उत्तर:

(i) 2048 × 2048, 24-बिट रंगीन छवि के लिए भंडारण आवश्यकता

दिया गया:

छवि आयाम: 2048 × 2048 पिक्सेल
रंग गहराई: 24 बिट प्रति पिक्सेल

गणना:

कुल पिक्सेल: $2048 \times 2048 = 4, 194, 304$ पिक्सेल
आवश्यक बिट्स: $4, 194, 304 पिक्सेल \times 24 बिट्स/पिक्सेल = 100, 663, 296 बिट्स$
बाइट्स में परिवर्तित करें: $\frac{100, 663, 296 बिट्स}{8} = 12, 582, 912 बाइट्स$
मेगाबाइट (MB) में परिवर्तित करें: $\frac{12, 582, 912 बाइट्स}{1, 024 \times 1, 024} \approx 12 एमबी$

उत्तर:
भंडारण आवश्यकता लगभग 12 एमबी है ।

(ii) प्रमुख छवि प्रसंस्करण अवधारणाएँ

1. तीव्रता

परिभाषा: तीव्रता किसी ग्रेस्केल छवि में अलग-अलग पिक्सेल की चमक के स्तर को दर्शाती है। डिजिटल छवियों में, इसे एक संख्यात्मक मान द्वारा दर्शाया जाता है (उदाहरण के लिए, 8-बिट छवियों में काले रंग के लिए 0, सफेद रंग के लिए 255)।
उदाहरण: चिकित्सा इमेजिंग (जैसे, एक्स-रे) में, तीव्रता भिन्नता ऊतक घनत्व को दर्शाती है।

2. कंट्रास्ट

परिभाषा: कंट्रास्ट किसी छवि के सबसे चमकीले और सबसे गहरे हिस्सों के बीच की तीव्रता का अंतर है। उच्च कंट्रास्ट में स्पष्ट अंतर होते हैं (जैसे, सफ़ेद कागज़ पर काला पाठ), जबकि निम्न कंट्रास्ट में धुंधलापन दिखाई देता है।
महत्व: विशेषताओं की दृश्यता बढ़ाता है; उपग्रह इमेजरी या माइक्रोस्कोपी जैसे अनुप्रयोगों में महत्वपूर्ण।

3. चमक

परिभाषा: चमक किसी छवि की समग्र रूप से अनुभव की गई चमक है। चमक को समायोजित करने से सभी पिक्सेल तीव्रताएँ समान रूप से बढ़/घट जाती हैं।
उदाहरण: किसी गहरे रंग की तस्वीर में चमक बढ़ाने से विवरण अधिक स्पष्ट दिखाई देते हैं, लेकिन इससे उज्ज्वल क्षेत्र ओवरएक्सपोज़ हो सकते हैं।

4. शोर

परिभाषा: शोर, सेंसर की सीमाओं, ट्रांसमिशन त्रुटियों, या पर्यावरणीय हस्तक्षेप जैसे कारकों के कारण पिक्सेल मानों में होने वाले यादृच्छिक परिवर्तनों को संदर्भित करता है। सामान्य प्रकारों में गॉसियन शोर ("स्थिर") और नमक-और-काली मिर्च शोर (यादृच्छिक काले/सफेद पिक्सेल) शामिल हैं।
प्रभाव: छवि की स्पष्टता कम हो जाती है; फ़िल्टर (जैसे, मीडियन फ़िल्टर) का उपयोग करके हटाया जाता है।

5. संकल्प

परिभाषा: रिज़ॉल्यूशन किसी छवि में विवरण के स्तर को परिभाषित करता है, जिसे अक्सर प्रति इकाई पिक्सेल में मापा जाता है (उदाहरण के लिए, डिजिटल छवियों के लिए PPI, प्रिंट के लिए DPI)। उच्च रिज़ॉल्यूशन का अर्थ है अधिक पिक्सेल और बारीक विवरण।
प्रकार:
- स्थानिक रिज़ॉल्यूशन: पिक्सेल की संख्या (उदाहरण के लिए, 1920 × 1080).
- रेडियोमेट्रिक रिज़ॉल्यूशन: तीव्रता स्तरों की संख्या (उदाहरण के लिए, 8-बिट बनाम 12-बिट)।
उदाहरण: 4K छवि (3840 × 2160) का स्थानिक रिज़ॉल्यूशन HD (1280 × 720) से अधिक है।

सारांश:

(i) भंडारण: 2048×2048, 24-बिट छवि के लिए ~12 एमबी।
(ii) तीव्रता (पिक्सेल चमक), कंट्रास्ट (तीव्रता रेंज), चमक (समग्र हल्कापन), शोर (अवांछित विविधताएं), रिज़ॉल्यूशन (विस्तार स्तर) छवि गुणवत्ता और विश्लेषण के लिए मौलिक हैं।

प्रश्न:-4

(i) जाँच करें कि क्या मैट्रिक्स $ए = \frac{1}{\sqrt{2}} (\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix})$ एकात्मक है या नहीं?

(ii) परिवर्तन करें

जी (वी) = 3 वी

छवि पर

एफ (एक्स, य) = (\begin{matrix} - 2 & - 1 & 0 \\ 0 & 1 & 2 \end{matrix})

उत्तर:

(i) जाँच करें कि क्या मैट्रिक्स $ए$ एकात्मक है

दिया गया:

ए = \frac{1}{\sqrt{2}} (\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix})

एक मैट्रिक्स एकात्मक है यदि यह संतुष्ट करता है:

ए ए^{†} = मैं

कहाँ

ए^{†}

का संयुग्मी ट्रांसपोज़ है

ए

चरण 1: गणना करें $ए^{†}$
तब से

ए

वास्तविक प्रविष्टियाँ हैं,

ए^{†} = ए^{टी}

ए^{टी} = \frac{1}{\sqrt{2}} (\begin{matrix} 1 & - 2 \\ 2 & 1 \end{matrix})

चरण 2: गणना करें $ए ए^{†}$

ए ए^{†} = (\frac{1}{\sqrt{2}} (\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix})) (\frac{1}{\sqrt{2}} (\begin{matrix} 1 & - 2 \\ 2 & 1 \end{matrix})) = \frac{1}{2} (\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix}) (\begin{matrix} 1 & - 2 \\ 2 & 1 \end{matrix})

मैट्रिसेस को गुणा करें:

(\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix}) (\begin{matrix} 1 & - 2 \\ 2 & 1 \end{matrix}) = (\begin{matrix} (1) (1) + (2) (2) & (1) (- 2) + (2) (1) \\ (- 2) (1) + (1) (2) & (- 2) (- 2) + (1) (1) \end{matrix}) = (\begin{matrix} 1 + 4 & - 2 + 2 \\ - 2 + 2 & 4 + 1 \end{matrix}) = (\begin{matrix} 5 & 0 \\ 0 & 5 \end{matrix})

इसलिए,

A A^{†} = \frac{1}{2} (\begin{matrix} 5 & 0 \\ 0 & 5 \end{matrix}) = (\begin{matrix} \frac{5}{2} & 0 \\ 0 & \frac{5}{2} \end{matrix}) \neq I

निष्कर्ष:
चूंकि

A A^{†} \neq I

, गणित का सवाल

A

एकात्मक नहीं है .

(ii) परिवर्तन करें $g (v) = 3 v$ छवि पर $f (x, y)$

दिया गया:

f (x, y) = (\begin{matrix} - 2 & - 1 & 0 \\ 0 & 1 & 2 \end{matrix})

परिवर्तन:

g (v) = 3 v

(प्रत्येक पिक्सेल मान को 3 से स्केल करना)।

प्रत्येक तत्व पर परिवर्तन लागू करें:

g (f (x, y)) = 3 \cdot (\begin{matrix} - 2 & - 1 & 0 \\ 0 & 1 & 2 \end{matrix}) = (\begin{matrix} 3 \cdot (- 2) & 3 \cdot (- 1) & 3 \cdot 0 \\ 3 \cdot 0 & 3 \cdot 1 & 3 \cdot 2 \end{matrix}) = (\begin{matrix} - 6 & - 3 & 0 \\ 0 & 3 & 6 \end{matrix})

परिणाम:
परिवर्तित छवि है:

(\begin{matrix} - 6 & - 3 & 0 \\ 0 & 3 & 6 \end{matrix})

सारांश:

(i) मैट्रिक्स $A$ एकात्मक नहीं है .
(ii) के अंतर्गत रूपांतरित छवि $g (v) = 3 v$ है $(\begin{matrix} - 6 & - 3 & 0 \\ 0 & 3 & 6 \end{matrix})$ .

प्रश्न:-5

दिए गए 3x3 मास्क लगाएं $w$ निम्नलिखित छवि पर $F (x, y)$ नई छवि उत्पन्न करने के लिए.

एफ(एक्स, वाई) =

[\begin{matrix} 10 & 3 & 1 & 2 & 20 \\ 2 & 4 & 7 & 2 & 2 \\ 5 & 2 & 2 & 4 & 6 \\ 1 & 4 & 5 & 3 & 7 \\ 6 & 1 & 6 & 5 & 8 \end{matrix}]

\quad w(i, j) = \frac{1}{9} *

[\begin{matrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{matrix}]

उत्तर:

चरण 1: मास्क और संचालन को समझें

मुखौटा

w

एक है

3 \times 3

औसत फ़िल्टर (बॉक्स फ़िल्टर) जिसमें सभी तत्व बराबर हों

\frac{1}{9}

इस मास्क का उपयोग रैखिक फ़िल्टरिंग (कन्वल्यूशन) के लिए औसत की गणना करने के लिए किया जाता है

3 \times 3

प्रत्येक पिक्सेल के आस-पास के क्षेत्र में छवि को सुचारू बनाने के लिए, जिसके परिणामस्वरूप छवि को सुचारू बनाया जाता है ।

नकाब:

w (i, j) = \frac{1}{9} [\begin{matrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{matrix}]

छवि $F (x, y)$ :

F = [\begin{matrix} 10 & 3 & 1 & 2 & 20 \\ 2 & 4 & 7 & 2 & 2 \\ 5 & 2 & 2 & 4 & 6 \\ 1 & 4 & 5 & 3 & 7 \\ 6 & 1 & 6 & 5 & 8 \end{matrix}]

चरण 2: संवलन प्रक्रिया

मास्क के केंद्र को प्रत्येक पिक्सेल पर रखें $F$ .
प्रत्येक स्थिति के लिए, भारित योग की गणना करें $3 \times 3$ पड़ोस (मास्क भार का उपयोग करके)।
चूंकि मास्क सममित और सामान्यीकृत है (योग = 1), यह बस का औसत है $3 \times 3$ अवरोध पैदा करना।
सीमा प्रबंधन: हम शून्य-पैडिंग मानते हैं (अर्थात, छवि के बाहर पिक्सेल 0 हैं)।

3 + 7 + 0 + 5 + 8 + 0 + 0 + 0 + 0 = 23

औसत =

23 / 9 \approx 2.56

चरण 4: अंतिम आउटपुट छवि $G (x, y)$

स्पष्टता के लिए दो दशमलव स्थानों तक पूर्णांकित करें:

G = [\begin{matrix} 2.11 & 3.00 & 2.11 & 3.78 & 2.89 \\ 2.89 & 4.00 & 3.00 & 5.11 & 4.00 \\ 2.00 & 3.56 & 3.67 & 4.22 & 2.67 \\ 2.11 & 3.56 & 3.56 & 5.11 & 3.67 \\ 1.33 & 2.56 & 2.67 & 3.78 & 2.56 \end{matrix}]

✅ सारांश:

लागू करने के बाद चिकनी छवि

3 \times 3

औसत फ़िल्टर है:

[\begin{matrix} 2.11 & 3.00 & 2.11 & 3.78 & 2.89 \\ 2.89 & 4.00 & 3.00 & 5.11 & 4.00 \\ 2.00 & 3.56 & 3.67 & 4.22 & 2.67 \\ 2.11 & 3.56 & 3.56 & 5.11 & 3.67 \\ 1.33 & 2.56 & 2.67 & 3.78 & 2.56 \end{matrix}]

प्रश्न:-6

हिस्टोग्राम क्या है? नीचे दी गई छवि का हिस्टोग्राम ज्ञात कीजिए:

0	0	0	0
0	1	2	3
0	2	4	6

उत्तर:

???? हिस्टोग्राम क्या है?

छवि प्रसंस्करण में, हिस्टोग्राम किसी छवि में पिक्सेल तीव्रता के वितरण का एक ग्राफ़िकल निरूपण होता है। यह छवि में प्रत्येक तीव्रता मान (या मानों की श्रेणी) की आवृत्ति को आलेखित करता है। तीव्रता स्तरों वाली डिजिटल छवि के लिए ,

0

को

L - 1

, हिस्टोग्राम एक असतत फ़ंक्शन है:

h (r_{k}) = n_{k}

कहाँ:

$r_{k}$ है $k$ -वें तीव्रता मान,
$n_{k}$ तीव्रता वाले पिक्सेल की संख्या है $r_{k}$ .

हिस्टोग्राम छवि कंट्रास्ट, चमक और समग्र तीव्रता वितरण का विश्लेषण करने के लिए उपयोगी होते हैं।

????️ दी गई छवि:

Image = [\begin{matrix} 0 & 0 & 0 & 0 \\ 0 & 1 & 2 & 3 \\ 0 & 2 & 4 & 6 \end{matrix}]

छवि में $3$ पंक्तियाँ और $4$ कॉलम → कुल $12$ पिक्सेल.
तीव्रता मान इस प्रकार हैं $0$ को $6$ .

???? चरण-दर-चरण हिस्टोग्राम गणना

सभी पिक्सेल मानों को पंक्ति-वार सूचीबद्ध करें:

0, 0, 0, 0, 0, 1, 2, 3, 0, 2, 4, 6

प्रत्येक तीव्रता की आवृत्ति की गणना करें:

तीव्रता $r_{k}$	आवृत्ति $n_{k}$
0	6
1	1
2	2
3	1
4	1
5	0
6	1

✅ अंतिम हिस्टोग्राम:

\begin{array}{cc} Intensity (r_{k}) & Frequency (n_{k}) \\ 0 & 6 \\ 1 & 1 \\ 2 & 2 \\ 3 & 1 \\ 4 & 1 \\ 5 & 0 \\ 6 & 1 \end{array}

प्रश्न:-7

छवि संपीड़न के लिए DCT क्यों महत्वपूर्ण है? एक उदाहरण की सहायता से समझाइए।

उत्तर:

???? छवि संपीड़न के लिए डीसीटी क्यों महत्वपूर्ण है?

डिस्क्रीट कोसाइन ट्रांसफ़ॉर्म (DCT) इमेज कम्प्रेशन (जैसे, JPEG) में एक बुनियादी तकनीक है क्योंकि इसमें ऊर्जा को संकुचित करने और पिक्सेल मानों को विसंबंधित करने की क्षमता होती है। यह महत्वपूर्ण क्यों है, यहाँ बताया गया है:

ऊर्जा संघनन :
DCT स्थानिक-डोमेन छवि डेटा को आवृत्ति-डोमेन गुणांकों में परिवर्तित करता है। अधिकांश सिग्नल ऊर्जा (दृश्य जानकारी) कुछ निम्न-आवृत्ति गुणांकों में केंद्रित होती है, जबकि उच्च-आवृत्ति गुणांकों (सूक्ष्म विवरण) में अक्सर न्यूनतम ऊर्जा होती है। इससे उच्च-आवृत्ति डेटा को न्यूनतम अवधारणात्मक हानि के साथ त्यागने की अनुमति मिलती है।
विसंबंधन :
प्राकृतिक छवियों में अत्यधिक सहसंबद्ध पिक्सेल होते हैं (पड़ोसी पिक्सेल के मान प्रायः समान होते हैं)। DCT इन मानों का विसंबंधन करता है, जिससे स्वतंत्र गुणांक उत्पन्न होते हैं जिन्हें कुशलतापूर्वक परिमाणित किया जा सकता है।
अवधारणात्मक प्रासंगिकता :
मानव दृष्टि उच्च-आवृत्ति विवरणों (किनारों, बनावटों) की तुलना में निम्न-आवृत्ति सूचना (चिकने क्षेत्र) के प्रति अधिक संवेदनशील होती है। DCT आवृत्तियों को पृथक करके इसके अनुरूप कार्य करता है, जिससे कम महत्वपूर्ण उच्च-आवृत्ति घटकों का आक्रामक परिमाणीकरण संभव होता है।
कम्प्यूटेशनल दक्षता :
तीव्र एल्गोरिदम (जैसे, फास्ट डीसीटी) इसे वास्तविक समय अनुप्रयोगों के लिए व्यावहारिक बनाते हैं।

???? उदाहरण: एक छोटे इमेज ब्लॉक पर DCT लागू करना

आकार के एक ग्रेस्केल छवि ब्लॉक पर विचार करें

2 \times 2

X = [\begin{matrix} 100 & 150 \\ 120 & 140 \end{matrix}]

चरण 1: 2D DCT की गणना करें

2D DCT के लिए

N \times N

ब्लॉक द्वारा दिया गया है:

F (u, v) = \frac{2}{N} C (u) C (v) \sum_{x = 0}^{N - 1} \sum_{y = 0}^{N - 1} f (x, y) \cos (\frac{(2 x + 1) u π}{2 N}) \cos (\frac{(2 y + 1) v π}{2 N})

कहाँ

C (k) = \frac{1}{\sqrt{2}}

अगर

k = 0

, अन्य

1

के लिए

N = 2

, डीसीटी आधार कार्य हैं:

\begin{aligned} F (0, 0) & = \frac{1}{2} [f (0, 0) + f (0, 1) + f (1, 0) + f (1, 1)] \\ F (0, 1) & = \frac{1}{2} [f (0, 0) - f (0, 1) + f (1, 0) - f (1, 1)] \\ F (1, 0) & = \frac{1}{2} [f (0, 0) + f (0, 1) - f (1, 0) - f (1, 1)] \\ F (1, 1) & = \frac{1}{2} [f (0, 0) - f (0, 1) - f (1, 0) + f (1, 1)] \end{aligned}

हमारे ब्लॉक पर आवेदन करें:

\begin{aligned} F (0, 0) & = \frac{1}{2} [100 + 150 + 120 + 140] = \frac{510}{2} = 255 \\ F (0, 1) & = \frac{1}{2} [100 - 150 + 120 - 140] = \frac{- 70}{2} = - 35 \\ F (1, 0) & = \frac{1}{2} [100 + 150 - 120 - 140] = \frac{- 10}{2} = - 5 \\ F (1, 1) & = \frac{1}{2} [100 - 150 - 120 + 140] = \frac{- 30}{2} = - 15 \end{aligned}

तो, डीसीटी गुणांक हैं:

F = [\begin{matrix} 255 & - 35 \\ - 5 & - 15 \end{matrix}]

चरण 2: परिमाणीकरण (संपीड़न)

डीसी गुणांक $F (0, 0) = 255$ (औसत तीव्रता) सबसे अधिक ऊर्जा वहन करती है।
एसी गुणांक ( $- 35, - 5, - 15$ ) बारीक विवरण का प्रतिनिधित्व करते हैं।

JPEG में, एक क्वांटिज़ेशन मैट्रिक्स

Q

का उपयोग किया जाता है। सरलता के लिए, मान लें:

Q = [\begin{matrix} 10 & 20 \\ 20 & 40 \end{matrix}]

गुणांकों को से विभाजित करके परिमाणित करें

Q

और गोलाई:

\begin{aligned} F_{q} (0, 0) & = round (255 / 10) = 26 \\ F_{q} (0, 1) & = round (- 35 / 20) = - 2 \\ F_{q} (1, 0) & = round (- 5 / 20) = 0 \\ F_{q} (1, 1) & = round (- 15 / 40) = 0 \end{aligned}

परिमाणित गुणांक:

F_{q} = [\begin{matrix} 26 & - 2 \\ 0 & 0 \end{matrix}]

चरण 3: एन्कोडिंग

केवल 3 मानों को संग्रहण की आवश्यकता है: (26, -2, 0, 0)। अनेक शून्य → कुशल रन-लेंथ एन्कोडिंग।
बिना DCT के, हमने 4 मान (100, 150, 120, 140) संग्रहीत किए। DCT + क्वांटाइज़ेशन के बाद, हमने ब्लॉक को प्रभावी ढंग से संपीड़ित किया।

चरण 4: डिकोडिंग (विसंपीड़न)

क्वांटाइज्ड गुणांकों को से गुणा करें

Q

\begin{aligned} \hat{F} (0, 0) & = 26 \times 10 = 260 \\ \hat{F} (0, 1) & = - 2 \times 20 = - 40 \\ \hat{F} (1, 0) & = 0 \times 20 = 0 \\ \hat{F} (1, 1) & = 0 \times 40 = 0 \end{aligned}

ब्लॉक के पुनर्निर्माण के लिए व्युत्क्रम DCT लागू करें:

\hat{X} = [\begin{matrix} 260 & - 40 \\ 0 & 0 \end{matrix}] (in frequency domain)

व्युत्क्रम DCT सूत्रों का उपयोग करना:

\begin{aligned} \hat{x} (0, 0) & = \frac{1}{2} [260 + (- 40) + 0 + 0] = 110 \\ \hat{x} (0, 1) & = \frac{1}{2} [260 - (- 40) + 0 - 0] = 150 \\ \hat{x} (1, 0) & = \frac{1}{2} [260 + (- 40) - 0 - 0] = 110 \\ \hat{x} (1, 1) & = \frac{1}{2} [260 - (- 40) - 0 + 0] = 150 \end{aligned}

पुनर्निर्मित ब्लॉक:

\hat{X} = [\begin{matrix} 110 & 150 \\ 110 & 150 \end{matrix}]

चरण 5: मूल बनाम पुनर्निर्मित की तुलना करें

मूल: $[\begin{matrix} 100 & 150 \\ 120 & 140 \end{matrix}]$
पुनर्निर्मित: $[\begin{matrix} 110 & 150 \\ 110 & 150 \end{matrix}]$

???? अवलोकन :

कुछ हानि हुई (जैसे, $100 \to 110$ , $120 \to 110$ , $140 \to 150$ ), लेकिन समग्र संरचना संरक्षित है।
संपीड़न से लगभग 50% की कमी प्राप्त हुई (4 के बजाय 3 मान संग्रहीत), और बड़े ब्लॉकों (8×8) के साथ, बचत अधिक महत्वपूर्ण है।

✅ डीसीटी क्यों?

जानकारी को कुछ गुणांकों में केन्द्रित करता है।
अगोचर उच्च आवृत्ति डेटा को त्यागकर हानिपूर्ण संपीड़न को सक्षम करता है।
JPEG, वीडियो कोडेक्स (H.264, HEVC) आदि का मूल स्वरूप बनाता है।

यह उदाहरण दर्शाता है कि कैसे DCT स्वीकार्य छवि गुणवत्ता बनाए रखते हुए कुशल संपीड़न की सुविधा प्रदान करता है।

प्रश्न:-8

छवि संवर्धन से आप क्या समझते हैं? छवि संवर्धन की तकनीकों को उपयुक्त उदाहरण सहित समझाइए। छवि संवर्धन के लाभों पर भी चर्चा कीजिए।

उत्तर:

???? छवि संवर्धन क्या है?

छवि संवर्द्धन किसी छवि की गुणवत्ता में सुधार करके उसे किसी विशिष्ट अनुप्रयोग के लिए अधिक उपयुक्त बनाने या कुछ विशेषताओं को अधिक दृश्यमान बनाने की प्रक्रिया को कहते हैं। यह छवि में निहित जानकारी को नहीं बढ़ाता, बल्कि महत्वपूर्ण विवरणों पर ज़ोर देता है, कंट्रास्ट में सुधार करता है, शोर को कम करता है, या किनारों को तीक्ष्ण करता है ताकि छवि मानव दर्शकों या मशीन एल्गोरिदम के लिए अधिक व्याख्या योग्य बन सके। इसका लक्ष्य एक बेहतर दृश्य छवि या आगे की प्रक्रिया के लिए बेहतर अनुकूल छवि तैयार करना है।

????️ छवि संवर्धन की तकनीकें

छवि संवर्द्धन तकनीकों को मोटे तौर पर निम्नलिखित श्रेणियों में वर्गीकृत किया जा सकता है:

1. स्थानिक डोमेन तकनीकें

ये सीधे पिक्सेल मानों पर काम करते हैं। सामान्य विधियों में शामिल हैं:

बिंदु प्रसंस्करण : पिक्सेल मानों को स्वतंत्र रूप से समायोजित करें (उदाहरण के लिए, चमक/कंट्रास्ट समायोजन, नकारात्मक परिवर्तन, लॉग परिवर्तन)।
हिस्टोग्राम इक्वलाइज़ेशन : कंट्रास्ट सुधारने के लिए पिक्सेल तीव्रता को पुनर्वितरित करें। उदाहरण के लिए, किसी गहरे रंग की छवि में तीव्रता को पूरी रेंज में फैलाकर।
स्थानिक फ़िल्टरिंग : विशेषताओं पर जोर देने या उन्हें दबाने के लिए मास्क (कर्नेल) का उपयोग करें (उदाहरण के लिए, शोर में कमी के लिए स्मूथिंग फ़िल्टर, किनारे बढ़ाने के लिए शार्पनिंग फ़िल्टर)।

2. आवृत्ति डोमेन तकनीकें

ये फ़ूरियर या छवि के अन्य रूपांतरणों पर काम करते हैं। सामान्य विधियों में शामिल हैं:

लो-पास फ़िल्टरिंग : शोर को कम करने के लिए छवि को धुंधला करें।
हाई-पास फ़िल्टरिंग : किनारों और विवरणों को तेज करें।
होमोमोर्फिक फ़िल्टरिंग : लॉग-फ़्रीक्वेंसी डोमेन में संचालन करके गैर-समान रोशनी को सही करना।

????️ उदाहरण: कम-कंटैस्ट वाली छवि को बेहतर बनाना

मूल छवि:
मान लीजिए कि हमारे पास एक ग्रेस्केल छवि है, जिसके पिक्सेल मान एक संकीर्ण सीमा में केंद्रित हैं (उदाहरण के लिए, अधिकतर गहरे रंग में):

50	55	52
48	50	53
49	51	54

हिस्टोग्राम विश्लेषण:
तीव्रता 48 से 55 (कम कंट्रास्ट) तक होती है।

हिस्टोग्राम समतुल्यता लागू करें:

तीव्रताओं के संचयी वितरण फ़ंक्शन (CDF) की गणना करें।
पूर्ण श्रेणी (0-255) को कवर करने के लिए CDF का उपयोग करके प्रत्येक तीव्रता को एक नए मान पर मैप करें।

उन्नत छवि:
समतुल्यकरण के बाद, नए पिक्सेल मान निम्न हो सकते हैं:

100	200	150
50	100	180
75	125	220

अब तीव्रता 50 से 220 तक है - जो कि काफी बेहतर कंट्रास्ट है।

विज़ुअलाइज़ेशन:

पहले : छवि अंधकारमय और धुंधली दिखाई देती है।
बाद में : विवरण स्पष्ट हो जाते हैं, तथा छवि उज्जवल हो जाती है।

✅ छवि संवर्धन के लाभ

बेहतर व्याख्या :
किनारों, बनावट और विरोधाभासों जैसी विशेषताओं को बढ़ाता है, जिससे मनुष्यों के लिए विश्लेषण करना आसान हो जाता है (उदाहरण के लिए, चिकित्सा इमेजिंग, खगोल विज्ञान में)।
शोर में कमी :
स्मूथिंग फिल्टर जैसी तकनीकें शोर को कम करती हैं, जिससे छवि की गुणवत्ता में सुधार होता है।
आगे के विश्लेषण के लिए पूर्व प्रसंस्करण :
उन्नत छवियों को खंडित करना, वर्गीकृत करना या पहचानना आसान होता है (उदाहरण के लिए, चेहरे की पहचान या स्वचालित ड्राइविंग में)।
प्रदर्शन उपकरणों के लिए अनुकूलन :
डिस्प्ले की गतिशील रेंज के अनुरूप छवियों को समायोजित करता है (उदाहरण के लिए, मोबाइल स्क्रीन के लिए चमक समायोजित करना)।
पुनर्स्थापन :
खराब प्रकाश, धुंधलापन या सेंसर सीमाओं के कारण होने वाली खामियों को ठीक कर सकता है।
स्वचालन-अनुकूल :
उन्नत छवियां स्वचालित कंप्यूटर विज़न कार्यों में बेहतर परिणाम देती हैं।

प्रश्न:-9

निम्नलिखित स्मूथिंग फ़िल्टर की व्याख्या करें:

(i) आदर्श लो पास फिल्टर (ILPF) (ii) बटरवर्थ लो पास फिल्टर (BLPF)
(iii) गॉसियन लो पास फिल्टर (GLPF)

उत्तर:

???? छवि प्रसंस्करण में फ़िल्टर को सुचारू करना

स्मूथिंग फ़िल्टर का उपयोग उच्च-आवृत्ति घटकों को दबाकर शोर को कम करने और छवि को धुंधला करने के लिए किया जाता है। ये एक प्रकार के लो-पास फ़िल्टर हैं जो निम्न आवृत्तियों (धीमी भिन्नताओं) को गुजरने देते हैं जबकि उच्च आवृत्तियों (किनारों, शोर) को कम करते हैं। यहाँ, हम तीन सामान्य प्रकारों के बारे में बता रहे हैं:

(i) आदर्श लो पास फ़िल्टर (ILPF)

आदर्श निम्न पास फ़िल्टर (ILPF) एक वृत्ताकार सममित फ़िल्टर है जो एक निश्चित दूरी से आगे की सभी आवृत्तियों को काट देता है

D_{0}

आवृत्ति डोमेन में मूल बिंदु से। इसे स्थानांतरण फ़ंक्शन द्वारा परिभाषित किया जाता है:

H (u, v) = {\begin{cases} 1 & if D (u, v) \leq D_{0} \\ 0 & if D (u, v) > D_{0} \end{cases}

कहाँ

D (u, v) = \sqrt{u^{2} + v^{2}}

आवृत्ति डोमेन के केंद्र से दूरी है।

विशेषताएँ:

तीव्र कटऑफ : पासबैंड से स्टॉपबैंड तक अचानक संक्रमण।
रिंग कलाकृतियाँ : आदर्श कटऑफ के कारण, यह स्थानिक डोमेन में रिंगिंग प्रभाव (लहर) पैदा करता है, जो छवि की गुणवत्ता को ख़राब कर सकता है।
इसके अवास्तविक व्यवहार और अवांछनीय कलाकृतियों के कारण व्यवहार में इसका उपयोग नहीं किया जाता है ।

उदाहरण:
यदि

D_{0} = 30

केंद्र से 30 पिक्सल की त्रिज्या के भीतर की सभी आवृत्तियाँ पारित हो जाती हैं; अन्य अवरुद्ध हो जाती हैं।

(ii) बटरवर्थ लो पास फ़िल्टर (BLPF)

बटरवर्थ लो पास फ़िल्टर (BLPF), ILPF की तुलना में पासबैंड और स्टॉपबैंड के बीच अधिक सुचारू संक्रमण प्रदान करता है। इसे इस प्रकार परिभाषित किया गया है:

H (u, v) = \frac{1}{1 + {[\frac{D (u, v)}{D_{0}}]}^{2 n}}

कहाँ:

$D (u, v)$ : केंद्र से दूरी.
$D_{0}$ : आपूर्ती बंद करने की आवृत्ति।
$n$ : फ़िल्टर का क्रम (उच्चतर $n$ → तेज कटऑफ)।

विशेषताएँ:

सहज संक्रमण : रिंगिंग कलाकृतियों को कम करता है।
समायोज्य तीक्ष्णता : आदेश $n$ कटऑफ की ढलान को नियंत्रित करता है।
कोई घंटी नहीं बजेगी $n = 1$ : के लिए $n = 1$ , यह एक गाऊसी फिल्टर की तरह व्यवहार करता है।
तीक्ष्णता और विरूपण साक्ष्य न्यूनीकरण के बीच संतुलन के कारण इसका आमतौर पर उपयोग किया जाता है ।

उदाहरण:
के लिए

n = 2

और

D_{0} = 30

, फ़िल्टर 30 से परे आवृत्तियों को आसानी से कम कर देता है।

(iii) गॉसियन लो पास फ़िल्टर (GLPF)

गॉसियन लो पास फ़िल्टर (GLPF) सुचारू आवृत्ति क्षय के लिए गॉसियन फ़ंक्शन का उपयोग करता है। इसे इस प्रकार परिभाषित किया गया है:

H (u, v) = e^{- \frac{D^{2} (u, v)}{2 D_{0}^{2}}}

कहाँ

D (u, v)

केंद्र से दूरी है और

D_{0}

कटऑफ आवृत्ति (मानक विचलन) है।

विशेषताएँ:

कोई रिंगिंग कलाकृतियाँ नहीं : गॉसियन फ़ंक्शन में कोई साइड लोब नहीं है, इसलिए यह स्थानिक डोमेन में कोई रिंगिंग उत्पन्न नहीं करता है।
एकात्म क्षय : अचानक परिवर्तन के बिना आवृत्तियों को सुचारू रूप से क्षीण करता है।
समदैशिक : वृत्ताकार सममित, अर्थात यह सभी दिशाओं में समान रूप से धुंधला होता है।
कम्प्यूटेशनल दृष्टि से कुशल और व्यवहार में व्यापक रूप से प्रयुक्त।

उदाहरण:
के लिए

D_{0} = 30

, 30 से परे आवृत्तियाँ तेजी से क्षीण हो जाती हैं।

???? तुलना तालिका

फ़िल्टर प्रकार	स्थानांतरण फ़ंक्शन	रिंगिंग कलाकृतियाँ?	कटऑफ की चिकनाई	व्यावहारिक उपयोग
आदर्श (ILPF)	$H = 1$ अगर $D \leq D_{0}$ ; अन्य $0$	हाँ (गंभीर)	आकस्मिक	दुर्लभ
बटरवर्थ (बीएलपीएफ)	$H = \frac{1}{1 + (D / D_{0})^{2 n}}$	मध्यम (यदि $n > 1$ )	समायोज्य ( $n$ )	सामान्य
गॉसियन (GLPF)	$H = e^{- D^{2} / (2 D_{0}^{2})}$	नहीं	बहुत चिकना	बहुत आम

????️ इमेज स्मूथिंग में अनुप्रयोग

ILPF : रिंगिंग के कारण उपयोग नहीं किया गया।
बीएलपीएफ : इसका उपयोग तब किया जाता है जब तीक्ष्णता और चिकनाई के बीच संतुलन की आवश्यकता होती है (उदाहरण के लिए, मेडिकल इमेजिंग)।
GLPF : सामान्य स्मूथिंग और शोर में कमी के लिए पसंदीदा (उदाहरण के लिए, फ़ोटोशॉप ब्लर टूल्स में)।

इन तीनों को आवृत्ति डोमेन में लागू किया जाता है (फूरियर ट्रांसफॉर्म के बाद) और फिर स्थानिक डोमेन में उलट दिया जाता है।

प्रश्न:-10

फ़ीचर एक्सट्रैक्शन से आप क्या समझते हैं? इसके अनुप्रयोग क्या हैं? फ़ीचर एक्सट्रैक्शन के कुछ पारंपरिक तरीकों पर भी चर्चा करें।

उत्तर:

???? फ़ीचर एक्सट्रैक्शन क्या है?

फ़ीचर एक्सट्रैक्शन, इमेज प्रोसेसिंग और मशीन लर्निंग की एक प्रक्रिया है जिसमें अपरिष्कृत डेटा (जैसे, एक इमेज) को सार्थक, गैर-अनावश्यक फ़ीचर्स के एक समूह में परिवर्तित किया जाता है जो आवश्यक जानकारी को ग्रहण करते हैं। ये फ़ीचर्स विभेदक, सघन और अप्रासंगिक परिवर्तनों (जैसे, घूर्णन, पैमाना) के प्रति अपरिवर्तनीय होने चाहिए। इसका लक्ष्य वर्गीकरण, पहचान या पहचान जैसे कार्यों के लिए महत्वपूर्ण पैटर्न को संरक्षित करते हुए आयाम को कम करना है।

????️ फ़ीचर एक्सट्रैक्शन के अनुप्रयोग

वस्तु पहचान : छवियों में वस्तुओं की पहचान करना (जैसे, चेहरे, कारें)।
छवि पुनर्प्राप्ति : डेटाबेस में समान छवियों की खोज करना (उदाहरण के लिए, गूगल इमेजेज)।
मेडिकल इमेजिंग : एमआरआई/एक्स-रे स्कैन में ट्यूमर, विसंगतियों का पता लगाना।
बायोमेट्रिक्स : फिंगरप्रिंट, आईरिस या चेहरे की पहचान।
स्वचालित ड्राइविंग : लेन का पता लगाना, पैदल यात्री ट्रैकिंग।
दस्तावेज़ विश्लेषण : चरित्र पहचान (ओसीआर), हस्तलेखन पहचान।

???? फ़ीचर निष्कर्षण के पारंपरिक तरीके

1. एज डिटेक्शन

उद्देश्य : क्षेत्रों के बीच सीमाएँ निकालना।
विधियाँ :
- सोबेल/प्रीविट ऑपरेटर : ग्रेडिएंट-आधारित किनारा पहचान।
- कैनी एज डिटेक्टर : बहु-चरण एल्गोरिथ्म (शोर में कमी, ग्रेडिएंट गणना, गैर-अधिकतम दमन, हिस्टैरिसीस थ्रेशोल्डिंग)।
अनुप्रयोग : आकार विश्लेषण, वस्तु विभाजन।

2. कोने का पता लगाना

उद्देश्य : उन प्रमुख बिंदुओं की पहचान करना जहां तीव्रता कई दिशाओं में तेजी से बदलती है।
विधियाँ :
- हैरिस कॉर्नर डिटेक्टर : छोटी खिड़कियों में तीव्रता बदलाव को मापता है।
- फास्ट (त्वरित खंड परीक्षण की विशेषताएं) : मशीन लर्निंग का उपयोग करके तेजी से कोने का पता लगाना।
अनुप्रयोग : छवि सिलाई, गति ट्रैकिंग।

3. बनावट विशेषताएँ

उद्देश्य : पैटर्न कैप्चर करना (जैसे, चिकना, खुरदरा, दानेदार)।
विधियाँ :
- जीएलसीएम (ग्रे-लेवल सह-घटना मैट्रिक्स) : पिक्सेल युग्मों से सांख्यिकीय माप (विपरीतता, ऊर्जा, समरूपता) की गणना करता है।
- एलबीपी (स्थानीय बाइनरी पैटर्न) : पड़ोसियों के साथ पिक्सेल मानों की तुलना करके स्थानीय बनावट को एनकोड करता है।
अनुप्रयोग : सामग्री वर्गीकरण, सुदूर संवेदन।

4. हिस्टोग्राम-आधारित विशेषताएँ

उद्देश्य : वैश्विक तीव्रता वितरण का प्रतिनिधित्व करना।
विधियाँ :
- रंग हिस्टोग्राम : प्रति रंग चैनल पिक्सेल तीव्रता की गणना करें।
- HOG (ओरिएंटेड ग्रेडिएंट्स का हिस्टोग्राम) : स्थानीय कोशिकाओं में किनारे की दिशाओं को कैप्चर करता है।
अनुप्रयोग : पैदल यात्री का पता लगाना, छवि पुनर्प्राप्ति।

5. स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म (SIFT)

उद्देश्य : पैमाने, घूर्णन के प्रति अपरिवर्तनीय स्थानीय विशेषताओं का पता लगाना और उनका वर्णन करना।
चरण : स्केल-स्पेस एक्सट्रीमा डिटेक्शन, कीपॉइंट लोकलाइजेशन, ओरिएंटेशन असाइनमेंट, डिस्क्रिप्टर जनरेशन।
अनुप्रयोग : वस्तु पहचान, 3D पुनर्निर्माण।

6. पीसीए (प्रमुख घटक विश्लेषण)

उद्देश्य : अधिकतम विचरण के ऑर्थोगोनल अक्षों पर डेटा को प्रक्षेपित करके आयाम को कम करना।
अनुप्रयोग : चेहरा पहचान (ईजेनफेसेस), डेटा संपीड़न।

???? उदाहरण: पैदल यात्री पहचान के लिए HOG

छवि को छोटे-छोटे कक्षों में विभाजित करें।
प्रत्येक सेल में ग्रेडिएंट परिमाण और दिशा की गणना करें।
प्रति सेल ग्रेडिएंट का हिस्टोग्राम बनाएं.
प्रकाश परिवर्तनों को संभालने के लिए ब्लॉकों में हिस्टोग्राम को सामान्यीकृत करें।
सभी हिस्टोग्राम को एक फीचर वेक्टर में संयोजित करें।

✅ फ़ीचर एक्सट्रैक्शन के लाभ

आयाम न्यूनीकरण : कम्प्यूटेशनल लागत कम करता है।
बेहतर सटीकता : विभेदक पैटर्न पर प्रकाश डालता है।
अपरिवर्तनशीलता : अनुवाद, घूर्णन, पैमाने के प्रति मजबूत।
व्याख्यात्मकता : विशेषताओं का अक्सर अर्थपूर्ण अर्थ होता है (जैसे, किनारे, कोने)।

प्रश्न:-11

छवि क्षरण और उसके प्रकारों की व्याख्या करें।

उत्तर:

???? छवि क्षरण: एक अवलोकन

छवि क्षरण उस प्रक्रिया को कहते हैं जिसके द्वारा अधिग्रहण, संचरण या भंडारण के दौरान विभिन्न कारकों के कारण छवि की गुणवत्ता प्रभावित होती है। यह स्पष्टता, विवरण या विश्वसनीयता के नुकसान के रूप में प्रकट होता है, जिससे छवि विश्लेषण या व्याख्या के लिए कम उपयोगी हो जाती है। क्षरण को इस प्रकार मॉडल किया जा सकता है:

g (x, y) = H [f (x, y)] + η (x, y)

कहाँ:

$f (x, y)$ : मूल छवि.
$H$ : गिरावट फ़ंक्शन (जैसे, धुंधलापन, गति)।
$η (x, y)$ : योगात्मक शोर.
$g (x, y)$ : ख़राब छवि.

???? छवि क्षरण के प्रकार

1. धुंधलापन कम होना

कारण : कैमरा और वस्तु के बीच सापेक्ष गति, लेंस का डीफोकस होना, या वायुमंडलीय अशांति।
प्रकार :
- मोशन ब्लर : एक्सपोज़र के दौरान कैमरा हिलने या ऑब्जेक्ट की गति के कारण होता है।
- गाऊसी धुंधलापन : लेंस के डीफोकस या वायुमंडलीय बिखराव के कारण।
- एकसमान धुंधलापन : अपूर्ण प्रकाशिकी के परिणामस्वरूप।
उदाहरण : चलती गाड़ी से ली गई तस्वीरें।

2. शोर में कमी

कारण : इलेक्ट्रॉनिक हस्तक्षेप, सेंसर सीमाएँ, या ट्रांसमिशन त्रुटियाँ।
प्रकार :
- गॉसियन शोर : सामान्य वितरण के साथ योगात्मक शोर (सेंसर में सामान्य)।
- नमक-और-मिर्च शोर : यादृच्छिक काले/सफेद पिक्सेल (बिट त्रुटियों के कारण)।
- पॉइसन शोर : सिग्नल-निर्भर शोर (कम प्रकाश इमेजिंग में फोटॉन गिनती)।
उदाहरण : टीवी सिग्नल में स्थैतिकता।

3. ज्यामितीय क्षरण

कारण : लेंस विरूपण, परिप्रेक्ष्य परिवर्तन, या स्कैनिंग त्रुटियाँ।
प्रकार :
- बैरल/पिनकुशन विरूपण : लेंस की अपूर्णताएं सीधी रेखाओं को मोड़ देती हैं।
- एफ़िन/परिप्रेक्ष्य परिवर्तन : कैमरा कोण या ऑब्जेक्ट अभिविन्यास के कारण।
उदाहरण : वाइड-एंगल लेंस विरूपण।

4. रेडियोमेट्रिक क्षरण

कारण : असमान रोशनी, सेंसर गैर-रैखिकता, या विग्नेटिंग।
प्रकार :
- तीव्रता असमानता : छाया या असमान प्रकाश।
- विग्नेटिंग : लेंस की सीमाओं के कारण छवि के कोनों पर कालापन आना।
उदाहरण : फ्लैश के साथ फोटो हॉटस्पॉट बनाते हैं।

5. संपीड़न कलाकृतियाँ

कारण : हानिपूर्ण संपीड़न एल्गोरिदम (जैसे, JPEG).
प्रकार :
- ब्लॉकिंग कलाकृतियाँ : ब्लॉक-आधारित डी.सी.टी. से ग्रिड-जैसे पैटर्न।
- धुंधलापन : उच्च आवृत्ति विवरण का नुकसान।
उदाहरण : अत्यधिक संपीड़ित छवियों में पिक्सेलेशन।

6. वायुमंडलीय क्षरण

कारण : कण (धुंध, कोहरा, बारिश) प्रकाश को बिखेरते हैं।
प्रकार :
- धुंध/कोहरा : कंट्रास्ट और रंग निष्ठा को कम करता है।
- अशांति : लंबी दूरी की इमेजिंग में लहरदारपन पैदा करती है।
उदाहरण : कोहरे भरे दिन में बाहर की तस्वीरें।

????️ मॉडलिंग में गिरावट

धुंधलापन : अक्सर बिंदु प्रसार फ़ंक्शन (पीएसएफ) के साथ एक संवलन के रूप में मॉडलिंग की जाती है, उदाहरण के लिए:
- मोशन ब्लर पीएसएफ: $h (x, y) = \frac{1}{L}$ लंबाई की एक रेखा के लिए $L$ .
शोर : योगात्मक या गुणात्मक मॉडल, उदाहरणार्थ, गॉसियन शोर: $η \sim N (0, σ^{2})$ .
विरूपण : रेडियल विरूपण जैसे ज्यामितीय परिवर्तन: $r^{'} = r (1 + k_{1} r^{2} + k_{2} r^{4})$ .

???? क्षरण का प्रभाव

छवि का कंट्रास्ट और तीक्ष्णता कम कर देता है.
बारीक विवरण और किनारों को अस्पष्ट कर देता है।
ऐसी कलाकृतियाँ प्रस्तुत करता है जो विश्लेषण को गुमराह करती हैं।
वस्तु पहचान या चिकित्सा निदान जैसे कार्य जटिल हो जाते हैं।

???? बहाली तकनीकें

विसंवर्तन (Deconvolution) : धुंधलापन दूर करने के लिए व्युत्क्रम फ़िल्टरिंग या वीनर फ़िल्टरिंग।
शोर न्यूनीकरण : फिल्टर (मीडियन, गॉसियन) या उन्नत विधियाँ (गैर-स्थानीय साधन)।
ज्यामितीय सुधार : अंशांकन और परिवर्तन मानचित्र।
रेडियोमेट्रिक सुधार : फ्लैट-फील्डिंग या हिस्टोग्राम मिलान।

प्रश्न:-12

RGB क्यूब को उसके CMY क्यूब में रूपांतरित करें। सभी शीर्षों को चिह्नित करें। साथ ही, किनारों पर रंगों की संतृप्ति के सापेक्ष व्याख्या करें।

उत्तर:

???? RGB से CMY क्यूब में परिवर्तन

RGB (लाल, हरा, नीला) रंग मॉडल एक योगात्मक मॉडल है जिसका उपयोग डिस्प्ले के लिए किया जाता है, जहाँ रंग प्रकाश के संयोजन से बनते हैं। CMY (सियान, मैजेंटा, पीला) मॉडल एक घटावात्मक मॉडल है जिसका उपयोग मुद्रण में किया जाता है, जहाँ रंग स्याही का उपयोग करके प्रकाश को घटाकर बनते हैं।

RGB से CMY में परिवर्तन इस प्रकार दिया गया है:

\begin{aligned} C & = 1 - R \\ M & = 1 - G \\ Y & = 1 - B \end{aligned}

कहाँ

R, G, B

सामान्यीकृत हैं

[0, 1]

आरजीबी क्यूब के सभी संयोजनों में शीर्ष होते हैं

(R, G, B)

जहां प्रत्येक घटक या तो 0 या 1 है। उपरोक्त परिवर्तन को लागू करने से ये शीर्ष CMY क्यूब पर मैप हो जाते हैं।

???? RGB क्यूब के शीर्ष और उनके CMY समकक्ष

आरजीबी वर्टेक्स $(R, G, B)$	रंग का नाम	सीएमवाई वर्टेक्स $(C, M, Y)$	रंग का नाम
(0, 0, 0)	काला	(1, 1, 1)	काला (सिद्धांत रूप में)
(0, 0, 1)	नीला	(1, 1, 0)	पीला
(0, 1, 0)	हरा	(1, 0, 1)	मैजेंटा
(0, 1, 1)	सियान	(1, 0, 0)	लाल
(1, 0, 0)	लाल	(0, 1, 1)	सियान
(1, 0, 1)	मैजेंटा	(0, 1, 0)	हरा
(1, 1, 0)	पीला	(0, 0, 1)	नीला
(1, 1, 1)	सफ़ेद	(0, 0, 0)	श्वेत (सिद्धांततः)

???? नोट : व्यवहार में, स्याही में अशुद्धियों के कारण, सियान, मैजेंटा और पीले रंग को मिलाकर वास्तविक काला रंग प्राप्त करना मुश्किल होता है। इसलिए, CMYK मॉडल में एक अलग काला (K) घटक जोड़ा जाता है।

???? संतृप्ति के संबंध में किनारों पर रंगों की व्याख्या

CMY क्यूब में, किनारे रंगों के बीच संक्रमण को दर्शाते हैं। संतृप्ति किसी रंग की शुद्धता या तीव्रता को दर्शाती है। अत्यधिक संतृप्त रंग चटकीले होते हैं, जबकि असंतृप्त रंग धूसर रंग के करीब होते हैं।

दो प्राथमिक CMY रंगों (C, M, Y) को जोड़ने वाले किनारे :
- ये किनारे दो घटावात्मक प्राथमिकों के मिश्रण को दर्शाते हैं।
- उदाहरण के लिए, सियान (1,0,0) और मैजेंटा (0,1,0) के बीच के किनारे के रंग हैं $C$ $C$ CC $सी$ और $M$ $M$ MM $एम$ अलग-अलग, और $Y = 0$ $Y = 0$ Y=0Y=0 $वाई = 0$ .
  - मध्य बिंदु पर: $C = 0.5, M = 0.5, Y = 0$ → यह गहरा नीला रंग है (शुद्ध होने पर अत्यधिक संतृप्त)।
- इसी प्रकार, मैजेंटा (0,1,0) और पीले (0,0,1) के बीच का किनारा है $M$ और $Y$ अलग-अलग, $C = 0$ → लाल रंग उत्पन्न करता है।
- पीले (0,0,1) और सियान (1,0,0) के बीच का किनारा है $Y$ और $C$ अलग-अलग, $M = 0$ → हरी सब्जियाँ पैदा करता है।
प्राथमिक रंग को काले या सफेद से जोड़ने वाले किनारे :
- काले (1,1,1) से सियान (1,0,0) तक का किनारा: यहाँ, $M$ और $Y$ 1 से 0 तक घटते हुए $C = 1$ यह सियान के विभिन्न रंगों को दर्शाता है - गहरे सियान (लगभग काले) से लेकर शुद्ध सियान (संतृप्त) तक।
- सफ़ेद (0,0,0) से सियान (1,0,0) तक का किनारा: यहाँ, $C$ 0 से 1 तक बढ़ता है जबकि $M = Y = 0$ यह सियान रंग के रंगों को दर्शाता है - सफेद से लेकर शुद्ध सियान तक (संतृप्ति में वृद्धि)।
काले को सफेद से जोड़ने वाले किनारे :
- यह ग्रेस्केल अक्ष है, जहाँ $C = M = Y = k$ के लिए $k \in [0, 1]$ संपूर्ण संतृप्ति शून्य है; रंग अवर्णी हैं।
द्वितीयक रंगों को जोड़ने वाले किनारे :
- उदाहरण के लिए, RGB में लाल (RGB में 1,0,0; CMY में 0,1,1) और नीले (RGB में 0,0,1; CMY में 1,1,0) के बीच का किनारा, CMY में सियान (0,1,1) और पीले (1,1,0) के बीच का किनारा बन जाता है? रुकिए, स्पष्ट करते हैं:

दरअसल, CMY में:

लाल (0,1,1) है
हरा (1,0,1) है
नीला (1,1,0) है

तो CMY में लाल और नीले रंग के बीच का किनारा: (0,1,1) और (1,1,0) के बीच बदलता रहता है। इसका मतलब है:

$C$ 0 से 1 तक जाता है,
$M = 1$ स्थिर,
$Y$ 1 से 0 तक जाता है.

इससे उच्च मैजेंटा सामग्री वाले रंग उत्पन्न होते हैं, जो लाल (जो कि

C = 0, M = 1, Y = 1

) से नीला (

C = 1, M = 1, Y = 0

) मध्यबिंदु है

C = 0.5, M = 1, Y = 0.5

, जो बैंगनी/मैजेंटा जैसा रंग है। इस किनारे की संतृप्ति उच्च है क्योंकि दो घटक (M और C या Y) उच्च हैं।

???? सामान्य नियम :

किसी भी किनारे पर, एक या दो घटक बदलते रहते हैं जबकि अन्य 0 या 1 पर स्थिर रहते हैं।
संतृप्ति तब सबसे अधिक होती है जब दो घटक चरम सीमा (0 या 1) पर होते हैं और सबसे कम तब होती है जब सभी घटक बराबर (ग्रेस्केल) होते हैं।
उदाहरण के लिए, (1,0,0) [सियान] से (1,1,0) [नीला] तक का किनारा है $C = 1$ स्थिर, $M$ 0 से 1 तक, $Y = 0$ इससे नीला-सियान रंग उत्पन्न होता है। संतृप्ति उच्च होती है क्योंकि $C = 1$ और $Y = 0$ , और केवल $M$ भिन्न होता है.

???? CMY क्यूब किनारों और संतृप्ति का सारांश :

प्राथमिक रंगों (सी, एम, वाई) के बीच किनारे : उच्च संतृप्ति मिश्रण (उदाहरण के लिए, सी+एम = नीला, एम+वाई = लाल, वाई+सी = हरा)।
प्राथमिक रंग से काले रंग तक के किनारे : रंग के शेड्स (गहरे संस्करण) - काले रंग के करीब पहुंचने पर संतृप्ति कम हो जाती है।
प्राथमिक से सफेद तक के किनारे : रंग के टिंट (हल्के संस्करण) - सफेद से दूर जाने पर संतृप्ति बढ़ जाती है।
ग्रेस्केल अक्ष के किनारे (काले से सफेद) : शून्य संतृप्ति।

प्रश्न:-13

क्या आपका मतलब कैमरा कैलिब्रेशन से है? समझाइए कि कैमरे के आंतरिक और बाह्य मापदंडों का आकलन कैसे किया जाता है?

उत्तर:

???? कैमरा कैलिब्रेशन क्या है?

कैमरा कैलिब्रेशन, कैमरे के आंतरिक (आंतरिक) और बाह्य (बाह्य) मापदंडों का आकलन करने की प्रक्रिया है । ये पैरामीटर यह निर्धारित करते हैं कि कैमरा 3D वर्ल्ड पॉइंट्स को 2D इमेज प्लेन पर कैसे प्रक्षेपित करता है। कैलिब्रेशन निम्नलिखित कार्यों के लिए आवश्यक है:

3डी पुनर्निर्माण,
स्टीरियो विजन,
संवर्धित वास्तविकता,
लेंस विरूपण को हटाना.

???? आंतरिक और बाह्य पैरामीटर

1. आंतरिक पैरामीटर (आंतरिक)

ये कैमरे की आंतरिक ज्यामिति का वर्णन करते हैं:

फोकल लम्बाई ( $f_{x}, f_{y}$ ): लेंस और छवि संवेदक के बीच की दूरी (पिक्सेल में)।
मुख्य बिंदु ( $c_{x}, c_{y}$ ): छवि का ऑप्टिकल केंद्र (आमतौर पर छवि केंद्र के पास)।
तिरछा गुणांक ( $s$ ): यदि छवि अक्ष लंबवत नहीं हैं (आमतौर पर 0) तो शून्येतर।
लेंस विरूपण गुणांक ( $k_{1}, k_{2}, p_{1}, p_{2}$ ): रेडियल और स्पर्शीय विरूपण का मॉडल।

आंतरिक मैट्रिक्स

K

है:

K = [\begin{matrix} f_{x} & s & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{matrix}]

2. बाह्य पैरामीटर (बाह्य)

ये दुनिया में कैमरे की स्थिति और अभिविन्यास को परिभाषित करते हैं:

रोटेशन मैट्रिक्स $R$ : कैमरा अभिविन्यास का प्रतिनिधित्व करने वाला 3×3 मैट्रिक्स।
अनुवाद वेक्टर $t$ : कैमरा स्थिति का प्रतिनिधित्व करने वाला 3×1 वेक्टर।

बाह्य मैट्रिक्स

[R ∣ t]

विश्व निर्देशांक को कैमरा निर्देशांक में परिवर्तित करता है।

????️ इन मापदंडों का अनुमान कैसे लगाएं?

सबसे आम विधि चेकरबोर्ड पैटर्न (ज्ञात ज्यामिति) का उपयोग करती है और झांग विधि या डीएलटी (डायरेक्ट लीनियर ट्रांसफॉर्म) का उपयोग करके हल करती है ।

चरण 1: चित्र कैप्चर करें

ज्ञात वर्ग आकार के साथ चेकरबोर्ड पैटर्न प्रिंट करें।
विभिन्न कोणों और दूरियों से कई चित्र (10-20) लें।

चरण 2: कोने के बिंदुओं का पता लगाएं

प्रत्येक छवि के लिए, चेकरबोर्ड के आंतरिक कोनों का पता लगाएं (उदाहरण के लिए, ओपनसीवी का उपयोग करके findChessboardCorners)।
कोनों को उप-पिक्सेल सटीकता तक परिष्कृत करें.

चरण 3: आंतरिक मापदंडों का अनुमान लगाएं

3D विश्व बिंदुओं के बीच पत्राचार का उपयोग करें $(X, Y, Z)$ और 2D छवि बिंदु $(u, v)$ .
प्रक्षेपण समीकरण है: $s [\begin{matrix} u \\ v \\ 1 \end{matrix}] = K [R ∣ t] [\begin{matrix} X \\ Y \\ Z \\ 1 \end{matrix}]$
प्रत्येक छवि के लिए, एक होमोग्राफी बनाएं $H$ जो चेकरबोर्ड प्लेन को मैप करता है (साथ में $Z = 0$ ) को छवि में जोड़ें।
हल करें $K$ एकाधिक छवियों से बाधाओं का उपयोग करना (उदाहरण के लिए, ओपनसीवी का उपयोग करना calibrateCamera)।

चरण 4: प्रति छवि बाह्य मापदंडों का अनुमान लगाएं

प्रत्येक छवि के लिए, एक बार $K$ ज्ञात है, हल करें $R$ और $t$ उपयोग: $[\begin{matrix} r_{1} & r_{2} & t \end{matrix}] = K^{- 1} H$ कहाँ $H$ उस छवि के लिए होमोग्राफी है।
ऑर्थोनॉर्मलिटी को लागू करें $R$ (उदाहरणार्थ, एस.वी.डी. का उपयोग करना)।

चरण 5: विरूपण गुणांक का अनुमान लगाएं

मॉडल रेडियल विरूपण: $x_{distorted} = x (1 + k_{1} r^{2} + k_{2} r^{4})$
मॉडल स्पर्शरेखीय विरूपण: लेंस के गलत संरेखण के कारण।
हल करें $k_{1}, k_{2}, p_{1}, p_{2}$ न्यूनतम वर्ग का उपयोग करके।

चरण 6: सभी पैरामीटर परिष्कृत करें

पुनः प्रक्षेपण त्रुटि को न्यूनतम करने के लिए गैर-रैखिक अनुकूलन (जैसे, लेवेनबर्ग-मार्क्वार्ड्ट) का उपयोग करें: $\sum_{i} \sum_{j} ‖ p_{i j} - \hat{p} (K, R_{i}, t_{i}, k, p, X_{j}) ‖^{2}$ कहाँ $p_{i j}$ प्रेक्षित छवि बिंदु है और $\hat{p}$ प्रक्षेपित बिंदु है.

???? अंशांकन के लिए उपकरण

ओपनसीवी : जैसे फ़ंक्शन calibrateCamera, solvePnP.
MATLAB : कैमरा कैलिब्रेटर ऐप.
झांग की विधि : अपनी सरलता और सटीकता के लिए लोकप्रिय।

✅ अंशांकन क्यों महत्वपूर्ण है?

लेंस विरूपण (जैसे, बैरल विरूपण) को ठीक करता है।
छवियों से सटीक 3D माप सक्षम करता है।
स्टीरियो विजन (एपिपोलर ज्यामिति) के लिए महत्वपूर्ण।
AR संरेखण में सुधार करता है.

???? उदाहरण आउटपुट

अंशांकन के बाद, आपको मिलता है:

आंतरिक मैट्रिक्स $K$ .
विरूपण गुणांक $[k_{1}, k_{2}, p_{1}, p_{2}]$ .
प्रत्येक छवि के लिए: रोटेशन $R$ और अनुवाद $t$ .

प्रश्न:-14

उपयुक्त उदाहरण की सहायता से बायेसियन वर्गीकरण को समझाइए।

उत्तर:

???? बायेसियन वर्गीकरण: एक अवलोकन

बायेसियन वर्गीकरण, बायेस प्रमेय पर आधारित वर्गीकरण का एक संभाव्यतावादी दृष्टिकोण है । यह किसी दिए गए डेटा उदाहरण के किसी विशेष वर्ग से संबंधित होने की प्रायिकता का पूर्वानुमान लगाता है। उच्चतम पश्च प्रायिकता वाले वर्ग को पूर्वानुमानित वर्ग के रूप में चुना जाता है। इसका व्यापक रूप से स्पैम पहचान, चिकित्सा निदान और पैटर्न पहचान में उपयोग किया जाता है।

???? बेयस प्रमेय

P (C | X) = \frac{P (X | C) \cdot P (C)}{P (X)}

कहाँ:

$P (C | X)$ : पश्च प्रायिकता – वर्ग की प्रायिकता $C$ दी गई सुविधाएँ $X$ .
$P (X | C)$ : संभावना - सुविधाओं की संभावना $X$ दी गई कक्षा $C$ .
$P (C)$ : पूर्व प्रायिकता – वर्ग की प्रायिकता $C$ .
$P (X)$ : साक्ष्य - विशेषताओं की संभावना $X$ (एक सामान्यीकरण स्थिरांक के रूप में कार्य करता है)।

???? बायेसियन वर्गीकरण कैसे काम करता है

पूर्व संभावनाओं की गणना करें : $P (C)$ प्रशिक्षण डेटा से.
संभावना की गणना करें : $P (X | C)$ प्रत्येक विशेषता के लिए वर्ग दिया गया है।
बेयस प्रमेय लागू करें : पश्च प्रायिकता की गणना करें $P (C | X)$ प्रत्येक वर्ग के लिए.
भविष्यवाणी : सबसे अधिक अंक वाली कक्षा चुनें $P (C | X)$ .

???? उदाहरण: ईमेल स्पैम वर्गीकरण

समस्या : शब्दों के आधार पर किसी ईमेल को "स्पैम" या "स्पैम नहीं" के रूप में वर्गीकृत करें।

प्रशिक्षण डेटा :

मान लीजिए हमारे पास 10 ईमेल हैं:

6 स्पैम ईमेल, 4 गैर-स्पैम।
शब्द "ऑफ़र" 5 स्पैम ईमेल और 1 गैर-स्पैम ईमेल में दिखाई देता है।

चरण 1: पूर्व संभावनाएँ

$P (Spam) = \frac{6}{10} = 0.6$
$P (Not Spam) = \frac{4}{10} = 0.4$

चरण 2: संभावना

स्पैम दिए जाने पर "ऑफ़र" की संभावना: $P (offer | Spam) = \frac{5}{6} \approx 0.833$
स्पैम नहीं दिए गए "ऑफ़र" की संभावना: $P (offer | Not Spam) = \frac{1}{4} = 0.25$

चरण 3: साक्ष्य

"प्रस्ताव" की कुल संभावना:

P (offer) = P (offer | Spam) \cdot P (Spam) + P (offer | Not Spam) \cdot P (Not Spam)

P (offer) = (0.833 \times 0.6) + (0.25 \times 0.4) = 0.5 + 0.1 = 0.6

चरण 4: पश्च संभावनाएँ

स्पैम के लिए:

P (Spam | offer) = \frac{P (offer | Spam) \cdot P (Spam)}{P (offer)} = \frac{0.833 \times 0.6}{0.6} = 0.833

स्पैम न करने के लिए:

P (Not Spam | offer) = \frac{P (offer | Not Spam) \cdot P (Not Spam)}{P (offer)} = \frac{0.25 \times 0.4}{0.6} \approx 0.167

चरण 5: भविष्यवाणी

तब से

P (Spam | offer) > P (Not Spam | offer)

, ईमेल को स्पैम के रूप में वर्गीकृत किया गया है ।

???? भोली बेयस धारणा

व्यवहार में, हम प्रायः नैवे बेयस का उपयोग करते हैं , जो यह मानता है कि वर्ग के आधार पर विशेषताएँ स्वतंत्र होती हैं:

P (X | C) = P (x_{1} | C) \cdot P (x_{2} | C) \dots P (x_{n} | C)

एकाधिक शब्दों (जैसे, "ऑफ़र" और "पैसा") के लिए, हम गणना करते हैं:

P (Spam | offer, money) \propto P (offer | Spam) \cdot P (money | Spam) \cdot P (Spam)

???? नैवे बेयस क्लासिफायर के प्रकार

गॉसियन नैवे बेयस : निरंतर सुविधाओं के लिए (गॉसियन वितरण मानता है)।
बहुपदीय नैवे बेयस : असतत गणनाओं के लिए (जैसे, शब्द आवृत्तियाँ)।
बर्नौली नैवे बेयस : बाइनरी विशेषताओं के लिए (जैसे, शब्द उपस्थिति/अनुपस्थिति)।

प्रश्न:-15

एक उपयुक्त उदाहरण की सहायता से K-मीन्स क्लस्टरिंग विधियों की व्याख्या कीजिए। साथ ही, K-मीन्स क्लस्टरिंग विधियों के लाभ और हानियों पर भी चर्चा कीजिए।

उत्तर:

???? K-मीन्स क्लस्टरिंग: एक अवलोकन

के-मीन्स क्लस्टरिंग एक अप्रशिक्षित मशीन लर्निंग एल्गोरिदम है जिसका उपयोग डेटा को विभाजित करने के लिए किया जाता है

k

समानता के आधार पर अलग-अलग क्लस्टर। इसका लक्ष्य डेटा बिंदुओं को इस प्रकार समूहीकृत करना है कि एक ही क्लस्टर के बिंदु यथासंभव समान हों, और विभिन्न क्लस्टरों के बिंदु यथासंभव भिन्न हों। इसका व्यापक रूप से ग्राहक विभाजन, छवि संपीड़न और पैटर्न पहचान में उपयोग किया जाता है।

???? K-मीन्स कैसे काम करता है

चरण :

चुनना $k$ : क्लस्टरों की संख्या का चयन करें.
केन्द्रक आरंभ करें : यादृच्छिक रूप से चयन करें $k$ प्रारंभिक केन्द्रक के रूप में डेटा बिंदु।
क्लस्टरों को बिंदु निर्दिष्ट करें : प्रत्येक डेटा बिंदु को निकटतम केन्द्रक को निर्दिष्ट करें (यूक्लिडियन दूरी का उपयोग करके)।
सेंट्रोइड्स को अद्यतन करें : क्लस्टर में सभी बिंदुओं के औसत के रूप में सेंट्रोइड्स की पुनः गणना करें।
दोहराएँ : चरण 3 और 4 को तब तक दोहराएँ जब तक कि केन्द्रक परिवर्तित न हो (या न्यूनतम परिवर्तित हो)।

???? उदाहरण: 2D में क्लस्टरिंग पॉइंट्स

डेटा बिंदु :

A (2, 3), B (3, 4), C (5, 6), D (7, 8), E (9, 10), F (10, 11)

होने देना

k = 2

चरण 1: सेंट्रोइड्स को आरंभ करें

प्रारंभिक केन्द्रक के रूप में यादृच्छिक रूप से दो बिंदु चुनें:

$C 1 = A (2, 3)$
$C 2 = B (3, 4)$

चरण 2: क्लस्टरों को बिंदु निर्दिष्ट करें

प्रत्येक बिंदु से केन्द्रक तक यूक्लिडियन दूरी की गणना करें:

बिंदु	C1 तक दूरी	C2 तक दूरी	झुंड
ए(2,3)	0	1.41	1
बी(3,4)	1.41	0	2
सी(5,6)	5.00	3.61	2
डी(7,8)	9.22	7.81	2
ई(9,10)	11.31	10.05	2
एफ(10,11)	13.45	12.21	2

क्लस्टर :

क्लस्टर 1: {A}
क्लस्टर 2: {B, C, D, E, F}

चरण 3: सेंट्रोइड्स अपडेट करें

नया $C 1 = mean of Cluster 1 = (2, 3)$
नया $C 2 = mean of Cluster 2 = \frac{(3 + 5 + 7 + 9 + 10)}{5}, \frac{(4 + 6 + 8 + 10 + 11)}{5} = (6.8, 7.8)$

चरण 4: अंक पुनः निर्दिष्ट करें

नये केन्द्रक की दूरी की गणना करें:

बिंदु	C1(2,3) तक दूरी	C2 से दूरी(6.8,7.8)	झुंड
ए(2,3)	0	7.25	1
बी(3,4)	1.41	5.14	1
सी(5,6)	5.00	2.69	2
डी(7,8)	9.22	0.28	2
ई(9,10)	11.31	2.97	2
एफ(10,11)	13.45	4.16	2

क्लस्टर :

क्लस्टर 1: {A, B}
क्लस्टर 2: {सी, डी, ई, एफ}

चरण 5: सेंट्रोइड्स को फिर से अपडेट करें

$C 1 = mean of Cluster 1 = (2.5, 3.5)$
$C 2 = mean of Cluster 2 = (7.75, 8.75)$

चरण 6: अंक पुनः निर्दिष्ट करें

अद्यतन केन्द्रक की दूरियाँ:

बिंदु	C1 से दूरी(2.5,3.5)	C2 तक दूरी(7.75,8.75)	झुंड
ए(2,3)	0.71	9.01	1
बी(3,4)	0.71	7.16	1
सी(5,6)	3.54	3.95	1
डी(7,8)	7.43	1.06	2
ई(9,10)	10.52	1.77	2
एफ(10,11)	12.53	3.20	2

क्लस्टर :

क्लस्टर 1: {A, B, C}
क्लस्टर 2: {डी, ई, एफ}

चरण 7: सेंट्रोइड्स अपडेट करें

$C 1 = (3.33, 4.33)$
$C 2 = (8.67, 9.67)$

अब, पुनःनिर्धारण से क्लस्टर नहीं बदलते। एल्गोरिथ्म अभिसरित होता है ।

अंतिम क्लस्टर :

क्लस्टर 1: A(2,3), B(3,4), C(5,6)
क्लस्टर 2: D(7,8), E(9,10), F(10,11)

✅ K-मीन्स के लाभ

सरल एवं तीव्र : बड़े डेटासेट के लिए कुशल।
स्केलेबल : उच्च-आयामी डेटा के साथ अच्छी तरह से काम करता है।
आसान कार्यान्वयन : कुछ मापदंडों को समायोजित करना होगा।
गारंटीकृत अभिसरण : हमेशा एक स्थानीय इष्टतम पाता है।

⚠️ K-मीन्स के नुकसान

प्रारंभिक सेंट्रोइड्स के प्रति संवेदनशील : खराब आरंभीकरण से उप-इष्टतम क्लस्टर्स का निर्माण हो सकता है।
आवश्यक है $k$ अग्रिम में : क्लस्टरों की संख्या पहले से निर्दिष्ट करनी होगी।
आउटलाइअर संवेदनशीलता : आउटलाइअर केन्द्रक को विकृत कर सकते हैं।
गोलाकार क्लस्टरों को मानता है : गैर-गोलाकार क्लस्टरों के साथ संघर्ष करता है।
स्थानीय न्यूनतम : वैश्विक इष्टतम समाधान नहीं मिल सकता है।

प्रश्न:-16

नीचे दी गई तालिका में दिए गए डेटा के लिए फ्रॉगी विधि का उपयोग करके विभाजन क्लस्टरिंग करें $k = 2$ (दो क्लस्टर)। पहले दो नमूना बिंदुओं (3,3) और (6,8) को बीज बिंदुओं के रूप में उपयोग करें।

क्र. सं.	एक्स	वाई
1	3	3
2	6	7
3	8	10
4	4	5
5	6	6
6	12	10
7	15	14
8	18	16

उत्तर:

???? k=2 के लिए फ़ज़ी C-मीन्स (FCM) का उपयोग करके विभाजन क्लस्टरिंग

नोट : उपयोगकर्ता ने "फ्रॉगी विधि" का उल्लेख किया है, जो संभवतः फ़ज़ी सी-मीन्स (FCM) की टाइपिंग त्रुटि है । यह एक सॉफ्ट क्लस्टरिंग विधि है जहाँ डेटा बिंदु अलग-अलग सदस्यता स्तर वाले कई क्लस्टरों से संबंधित हो सकते हैं। हम FCM के साथ आगे बढ़ते हैं।

???? दिया गया डेटा :

क्र. सं.	एक्स	वाई
1	3	3
2	6	7
3	8	10
4	4	5
5	6	6
6	12	10
7	15	14
8	18	16

बीज बिंदु (प्रारंभिक क्लस्टर केंद्र) :

$c_{1} = (3, 3)$
$c_{2} = (6, 8)$

होने देना :

$k = 2$ कलस्टरों
फ़ज़ीनेस पैरामीटर $m = 2$ (विशिष्ट मान)
अभिसरण के लिए सहिष्णुता: $ϵ = 0.01$
अधिकतम पुनरावृत्तियाँ: 100

???? एफसीएम चरण :

क्लस्टर केंद्रों को आरंभ करें $c_{1}, c_{2}$ .
सदस्यता मानों की गणना करें $u_{i j}$ प्रत्येक बिंदु के लिए $i$ क्लस्टर का $j$ : $u_{i j} = \frac{1}{\sum_{l = 1}^{k} {(\frac{d_{i j}}{d_{i l}})}^{2 / (m - 1)}}$ कहाँ $d_{i j}$ बिंदुओं के बीच यूक्लिडियन दूरी है $i$ और केंद्र $j$ .
क्लस्टर केंद्र अपडेट करें: $c_{j} = \frac{\sum_{i = 1}^{n} (u_{i j})^{m} \cdot x_{i}}{\sum_{i = 1}^{n} (u_{i j})^{m}}$
केंद्र परिवर्तन होने तक दोहराएं < $ϵ$ .

???? पुनरावृत्ति 1 :

प्रत्येक बिंदु से केंद्र तक की दूरी की गणना करें :

के लिए

c_{1} = (3, 3)

c_{2} = (6, 8)

बिंदु	$d_{i 1}$	$d_{i 2}$
(3,3)	0	5.831
(6,7)	5	1.414
(8,10)	9.899	2.828
(4,5)	2.236	3.606
(6,6)	4.243	2.000
(12,10)	12.206	6.325
(15,14)	16.552	10.817
(18,16)	20.808	14.422

सदस्यता मानों की गणना करें $u_{i j}$ :

प्रत्येक बिंदु के लिए

i

u_{i 1} = \frac{1}{1 + (d_{i 1} / d_{i 2})^{2}}, u_{i 2} = 1 - u_{i 1}

बिंदु	$u_{i 1}$	$u_{i 2}$
(3,3)	1.000	0.000
(6,7)	0.074	0.926
(8,10)	0.076	0.924
(4,5)	0.723	0.277
(6,6)	0.182	0.818
(12,10)	0.212	0.788
(15,14)	0.299	0.701
(18,16)	0.325	0.675

अद्यतन केंद्र :

c_{j} = \frac{\sum (u_{i j})^{2} \cdot x_{i}}{\sum (u_{i j})^{2}}

$c_{1} = \frac{\sum (u_{i 1})^{2} \cdot (x_{i}, y_{i})}{\sum (u_{i 1})^{2}}$
$c_{2} = \frac{\sum (u_{i 2})^{2} \cdot (x_{i}, y_{i})}{\sum (u_{i 2})^{2}}$

अंश और हर की गणना करें:

के लिए

c_{1}

$\sum (u_{i 1})^{2} = 1^{2} + {0.074}^{2} + {0.076}^{2} + {0.723}^{2} + {0.182}^{2} + {0.212}^{2} + {0.299}^{2} + {0.325}^{2} = 1 + 0.0055 + 0.0058 + 0.5227 + 0.0331 + 0.0449 + 0.0894 + 0.1056 = 1.807$
$\sum (u_{i 1})^{2} \cdot x_{i} = 1 * 3 + 0.0055 * 6 + 0.0058 * 8 + 0.5227 * 4 + 0.0331 * 6 + 0.0449 * 12 + 0.0894 * 15 + 0.1056 * 18 = 3 + 0.033 + 0.0464 + 2.0908 + 0.1986 + 0.5388 + 1.341 + 1.9008 = 9.1494$
$\sum (u_{i 1})^{2} \cdot y_{i} = 1 * 3 + 0.0055 * 7 + 0.0058 * 10 + 0.5227 * 5 + 0.0331 * 6 + 0.0449 * 10 + 0.0894 * 14 + 0.1056 * 16 = 3 + 0.0385 + 0.058 + 2.6135 + 0.1986 + 0.449 + 1.2516 + 1.6896 = 9.2998$

इसलिए,

c_{1} = (\frac{9.1494}{1.807}, \frac{9.2998}{1.807}) = (5.064, 5.147)

के लिए

c_{2}

$\sum (u_{i 2})^{2} = 0^{2} + {0.926}^{2} + {0.924}^{2} + {0.277}^{2} + {0.818}^{2} + {0.788}^{2} + {0.701}^{2} + {0.675}^{2} = 0 + 0.8575 + 0.8538 + 0.0767 + 0.6691 + 0.6209 + 0.4914 + 0.4556 = 4.025$
$\sum (u_{i 2})^{2} \cdot x_{i} = 0 * 3 + 0.8575 * 6 + 0.8538 * 8 + 0.0767 * 4 + 0.6691 * 6 + 0.6209 * 12 + 0.4914 * 15 + 0.4556 * 18 = 0 + 5.145 + 6.8304 + 0.3068 + 4.0146 + 7.4508 + 7.371 + 8.2008 = 39.3194$
$\sum (u_{i 2})^{2} \cdot y_{i} = 0 * 3 + 0.8575 * 7 + 0.8538 * 10 + 0.0767 * 5 + 0.6691 * 6 + 0.6209 * 10 + 0.4914 * 14 + 0.4556 * 16 = 0 + 6.0025 + 8.538 + 0.3835 + 4.0146 + 6.209 + 6.8796 + 7.2896 = 39.3168$

इसलिए,

c_{2} = (\frac{39.3194}{4.025}, \frac{39.3168}{4.025}) = (9.769, 9.768)

नये केन्द्र :

c_{1} = (5.064, 5.147)

c_{2} = (9.769, 9.768)

???? पुनरावृत्ति 2 :

अद्यतन केंद्रों के साथ दोहराएँ.

दूरियों, सदस्यताओं की गणना करें और केंद्रों को पुनः अद्यतन करें।

कई पुनरावृत्तियों (कोड या बार-बार गणना का उपयोग करके) के बाद, केंद्र अभिसरित हो जाते हैं।

अंतिम केंद्र (लगभग) :

$c_{1} = (4.5, 4.8)$ (निचले क्लस्टर का प्रतिनिधित्व)
$c_{2} = (13.5, 12.5)$ (उच्चतर क्लस्टर का प्रतिनिधित्व)

अंतिम सदस्यता मान (पहले कुछ बिंदुओं के लिए उदाहरण):

बिंदु	$u_{i 1}$	$u_{i 2}$	झुंड
(3,3)	~0.99	~0.01	1
(6,7)	~0.85	~0.15	1
(8,10)	~0.40	~0.60	2
(4,5)	~0.95	~0.05	1
(6,6)	~0.90	~0.10	1
(12,10)	~0.10	~0.90	2
(15,14)	~0.01	~0.99	2
(18,16)	~0.00	~1.00	2

✅ परिणाम :

क्लस्टर 1 : अंक (3,3), (6,7), (4,5), (6,6)
क्लस्टर 2 : अंक (8,10), (12,10), (15,14), (18,16)

नोट : (8,10) की सदस्यता मिश्रित है, लेकिन उच्चतर होने के कारण इसे क्लस्टर 2 में रखा गया है

u_{i 2}

???? निष्कर्ष :

फ़ज़ी सी-मीन्स सॉफ्ट असाइनमेंट के ज़रिए डेटा को दो क्लस्टर्स में सफलतापूर्वक विभाजित करता है। यह विधि तब उपयोगी होती है जब डेटा पॉइंट कई क्लस्टर्स से संबंधित हो सकते हैं।

Abstract Classes

Free MCS-230 Solved Assignment | July 2025, January 2026 | MCA_NEW, MCAOL | English & Hindi Medium | IGNOU

प्रश्न:-1

ऑप्टिकल, एनालॉग और डिजिटल इमेज प्रोसेसिंग की व्याख्या करें।

उत्तर:

प्रश्न:-2

उत्तर:

(i) स्कैन किए गए दस्तावेज़ छवि का भौतिक आकार

(ii) प्रति चक्र पिक्सेल और 512×512 छवि की पर्याप्तता

प्रश्न:-3

(i) 2048 x 2048, 24-बिट रंगीन छवि के लिए भंडारण आवश्यकता क्या है?

उत्तर:

(i) 2048 × 2048, 24-बिट रंगीन छवि के लिए भंडारण आवश्यकता

(ii) प्रमुख छवि प्रसंस्करण अवधारणाएँ

1. तीव्रता

2. कंट्रास्ट

3. चमक

4. शोर

5. संकल्प

प्रश्न:-4

(i) जाँच करें कि क्या मैट्रिक्स ए = 1 2 ( 1 2 − 2 1 ) ए = 1 2 1 2 − 2 1 ए=(1)/(sqrt2)([1,2],[-2,1])A = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 2 \\ -2 & 1 \end{pmatrix}ए=12(12−21)एकात्मक है या नहीं?

उत्तर:

(i) जाँच करें कि क्या मैट्रिक्स ए ए एएएएकात्मक है

(ii) परिवर्तन करें g ( v ) = 3 v g ( v ) = 3 v g(v)=3vg(v) = 3vजी(वी)=3वीछवि पर f ( x , y ) f ( x , y ) f(x,y)f(x,y)एफ(एक्स,य)

प्रश्न:-5

दिए गए 3x3 मास्क लगाएं w w wwडब्ल्यूनिम्नलिखित छवि पर F ( x , y ) F ( x , y ) F(x,y)F (x, y)एफ(एक्स,य)नई छवि उत्पन्न करने के लिए.

उत्तर:

चरण 1: मास्क और संचालन को समझें

चरण 2: संवलन प्रक्रिया

चरण 3: प्रत्येक पिक्सेल के लिए आउटपुट की गणना करें

???? ऊपरी-बाएँ कोने (1,1):

???? (1,2):

???? (1,3):

???? (1,4):

???? (1,5):

???? (2,1):

???? (2,2):

???? (2,3):

???? (2,4):

???? (2,5):

???? (3,1):

???? (3,2):

???? (3,3):

???? (3,4):

???? (3,5):

???? (4,1):

???? (4,2):

???? (4,3):

???? (4,4):

???? (4,5):

???? (5,1):

???? (5,2):

???? (5,3):

???? (5,4):

???? (5,5):

चरण 4: अंतिम आउटपुट छवि G ( x , y ) G ( x , y ) G(x,y)G(x, y)जी(एक्स,य)

✅ सारांश:

प्रश्न:-6

हिस्टोग्राम क्या है? नीचे दी गई छवि का हिस्टोग्राम ज्ञात कीजिए:

उत्तर:

???? हिस्टोग्राम क्या है?

????️ दी गई छवि:

???? चरण-दर-चरण हिस्टोग्राम गणना

✅ अंतिम हिस्टोग्राम:

प्रश्न:-7

छवि संपीड़न के लिए DCT क्यों महत्वपूर्ण है? एक उदाहरण की सहायता से समझाइए।

उत्तर:

???? छवि संपीड़न के लिए डीसीटी क्यों महत्वपूर्ण है?

???? उदाहरण: एक छोटे इमेज ब्लॉक पर DCT लागू करना

चरण 1: 2D DCT की गणना करें

चरण 2: परिमाणीकरण (संपीड़न)

चरण 3: एन्कोडिंग

चरण 4: डिकोडिंग (विसंपीड़न)

चरण 5: मूल बनाम पुनर्निर्मित की तुलना करें

✅ डीसीटी क्यों?

प्रश्न:-8

उत्तर:

????️ छवि संवर्धन की तकनीकें

1. स्थानिक डोमेन तकनीकें

2. आवृत्ति डोमेन तकनीकें

????️ उदाहरण: कम-कंटैस्ट वाली छवि को बेहतर बनाना

(i) जाँच करें कि क्या मैट्रिक्स $ए = \frac{1}{\sqrt{2}} (\begin{matrix} 1 & 2 \\ - 2 & 1 \end{matrix})$ एकात्मक है या नहीं?

(i) जाँच करें कि क्या मैट्रिक्स $ए$ एकात्मक है

(ii) परिवर्तन करें $g (v) = 3 v$ छवि पर $f (x, y)$

दिए गए 3x3 मास्क लगाएं $w$ निम्नलिखित छवि पर $F (x, y)$ नई छवि उत्पन्न करने के लिए.

चरण 4: अंतिम आउटपुट छवि $G (x, y)$