వాయిస్ గుర్తింపును అర్థం చేసుకోవడం

సమస్యలను తొలగించడానికి మా పరికరాన్ని ప్రయత్నించండి





మీరే సోఫాలో విశ్రాంతిగా కూర్చుని, మీ కంప్యూటర్ లేదా ల్యాప్‌టాప్ లేదా సెల్ ఫోన్‌ను అక్షరాన్ని టైప్ చేయడం లేదా కొన్ని ఆదేశాలను నిర్వహించడం వంటి సాధారణ పనులను చేయమని ఆదేశించండి. ఇది సాధ్యమేనా?

వాస్తవానికి, వాయిస్ గుర్తింపు చిత్రంలోకి వస్తుంది.




నిర్వచనం ప్రకారం వెళితే అది మానవ ప్రసంగాన్ని గుర్తించే ప్రక్రియ మరియు దానిని టెక్స్ట్ రూపంలోకి డీకోడ్ చేస్తుంది.

సూత్రం

యొక్క ప్రాథమిక సూత్రం స్వర గుర్తింపు ఏదైనా మానవుడు మాట్లాడే మాటలు లేదా పదాలు గాలిలో ప్రకంపనలకు కారణమవుతాయి, దీనిని ధ్వని తరంగాలు అంటారు. ఈ నిరంతర లేదా అనలాగ్ తరంగాలు డిజిటలైజ్ చేయబడతాయి మరియు ప్రాసెస్ చేయబడతాయి మరియు తరువాత తగిన పదాలకు డీకోడ్ చేయబడతాయి మరియు తరువాత తగిన వాక్యాలు ఉంటాయి.



స్వర గుర్తింపు

స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క భాగాలు

కాబట్టి ప్రాథమిక ప్రసంగ గుర్తింపు వ్యవస్థలో ఏమి ఉంటుంది?

స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క భాగాలు

  • పరికరాన్ని సంగ్రహించే ప్రసంగం : ఇది మైక్రోఫోన్‌ను కలిగి ఉంటుంది, ఇది సౌండ్ వేవ్ సిగ్నల్‌లను ఎలక్ట్రికల్ సిగ్నల్‌గా మరియు అనలాగ్ టు డిజిటల్ కన్వర్టర్‌గా మారుస్తుంది, ఇది కంప్యూటర్ అర్థం చేసుకోగల వివిక్త డేటాను పొందటానికి అనలాగ్ సిగ్నల్‌లను నమూనాలను మరియు డిజిటలైజ్ చేస్తుంది.
  • డిజిటల్ సిగ్నల్ మాడ్యూల్ లేదా ప్రాసెసర్ : ఇది ఫ్రీక్వెన్సీ డొమైన్ మార్పిడి వంటి ముడి ప్రసంగ సిగ్నల్‌పై ప్రాసెసింగ్ చేస్తుంది, అవసరమైన సమాచారాన్ని మాత్రమే పునరుద్ధరిస్తుంది.
  • ముందే ప్రాసెస్ చేసిన సిగ్నల్ నిల్వ : ప్రసంగ గుర్తింపు యొక్క మరింత పనిని నిర్వహించడానికి ప్రీ-ప్రాసెస్ చేసిన ప్రసంగం మెమరీలో నిల్వ చేయబడుతుంది.
  • సూచన ప్రసంగ నమూనాలు : కంప్యూటర్ లేదా సిస్టమ్ ముందే నిర్వచించిన ప్రసంగ నమూనాలు లేదా మెమరీలో ఇప్పటికే నిల్వ చేసిన టెంప్లేట్‌లను కలిగి ఉంటుంది, వీటిని సరిపోలిక కోసం సూచనగా ఉపయోగించవచ్చు.
  • సరళి సరిపోలిక అల్గోరిథం : తెలియని ప్రసంగ సంకేతాన్ని వాస్తవ పదాలను లేదా పదాల సరళిని నిర్ణయించడానికి సూచన ప్రసంగ నమూనాతో పోల్చారు.
సిస్టమ్ యొక్క పని

ఇప్పుడు మొత్తం వ్యవస్థ వాస్తవంగా ఎలా పనిచేస్తుందో చూద్దాం.


సిస్టమ్ యొక్క పని

  • ప్రసంగాన్ని శబ్ద తరంగ రూపంగా చూడవచ్చు, అనగా సందేశ సమాచారాన్ని మోసే సిగ్నల్. అతని / ఆమె వ్యాఖ్యాతల (ప్రసంగ అవయవాలు) యొక్క పరిమిత చలన రేటు కలిగిన ఒక సాధారణ మానవుడు సెకనుకు సగటున 10 శబ్దాల చొప్పున ప్రసంగాన్ని ఉత్పత్తి చేయగలడు. సగటు సమాచార రేటు సెకనుకు 50-60 బిట్స్. స్పీచ్ సిగ్నల్‌లో వాస్తవానికి 50 బిట్స్ / సెకండ్ సమాచారం మాత్రమే అవసరమని దీని అర్థం. ఈ శబ్ద తరంగ రూపాన్ని మైక్రోఫోన్ అనలాగ్ ఎలక్ట్రికల్ సిగ్నల్‌గా మారుస్తుంది. అనలాగ్ టు డిజిటల్ కన్వర్టర్ ఈ అనలాగ్ సిగ్నల్‌ను వివిక్త వ్యవధిలో తరంగం యొక్క ఖచ్చితమైన కొలతలు తీసుకొని డిజిటల్ నమూనాలకు మారుస్తుంది.
  • డిజిటలైజ్డ్ సిగ్నల్ సెకనుకు 16000 సార్లు మాదిరి ఆవర్తన సంకేతాల ప్రవాహాన్ని కలిగి ఉంటుంది మరియు వాస్తవంగా నిర్వహించడానికి తగినది కాదు మాటలు గుర్తుపట్టుట నమూనా సులభంగా గుర్తించబడనందున ప్రాసెస్ చేయండి. వాస్తవ సమాచారాన్ని సేకరించేందుకు, టైమ్ డొమైన్‌లోని సిగ్నల్ ఫ్రీక్వెన్సీ డొమైన్‌లో సిగ్నల్‌గా మార్చబడుతుంది. ఎఫ్‌ఎఫ్‌టి టెక్నిక్ ఉపయోగించి డిజిటల్ సిగ్నల్ ప్రాసెసర్ దీన్ని చేస్తుంది. డిజిటల్ సిగ్నల్‌లో, ప్రతి 1/100 తర్వాత భాగంసెకనులో విశ్లేషించబడుతుంది మరియు అటువంటి ప్రతి భాగానికి ఫ్రీక్వెన్సీ స్పెక్ట్రం లెక్కించబడుతుంది. మరో మాటలో చెప్పాలంటే, డిజిటలైజ్డ్ సిగ్నల్ ఫ్రీక్వెన్సీ యాంప్లిట్యూడ్స్ యొక్క చిన్న భాగాలుగా విభజించబడింది.
  • ప్రతి విభాగం లేదా ఫ్రీక్వెన్సీ గ్రాఫ్ మానవులు చేసిన విభిన్న శబ్దాలను సూచిస్తుంది. నిర్దిష్ట భాష యొక్క నిల్వ చేసిన ధ్వనితో కంప్యూటర్ తెలియని విభాగాల సరిపోలికను చేస్తుంది. ఈ నమూనా సరిపోలిక 3 విధాలుగా జరుగుతుంది:

ఎకౌస్టిక్ ఫొనెటిక్ విధానాన్ని ఉపయోగించడం : ఎకౌస్టిక్ ఫొనెటిక్ విధానంలో, సాధారణంగా హిడెన్ మార్కోవ్ మోడల్ ఉపయోగించబడుతుంది. ఈ నమూనా ప్రసంగ గుర్తింపు కోసం నిర్ణయింపబడని సంభావ్యత నమూనాను అభివృద్ధి చేస్తుంది. ఈ మోడల్ రెండు వేరియబుల్స్ కలిగి ఉంటుంది - కంప్యూటర్ మెమరీలో నిల్వ చేయబడిన ఫోన్‌మేస్‌ల యొక్క దాచిన స్థితులు మరియు డిజిటల్ సిగ్నల్ యొక్క కనిపించే ఫ్రీక్వెన్సీ విభాగం. ప్రతి ఫోన్‌మేకు దాని స్వంత సంభావ్యత ఉంది మరియు సెగ్మెంట్ సంభావ్యత ప్రకారం ఫోన్‌మేతో సరిపోతుంది మరియు సరిపోలిన ఫోన్‌మేస్‌లు కలిసి సేకరించి భాష యొక్క నిల్వ చేసిన వ్యాకరణ నియమాల ప్రకారం సరైన పదాలను ఏర్పరుస్తాయి.

నమూనా గుర్తింపు విధానాన్ని ఉపయోగించడం : నమూనా గుర్తింపు విధానంలో, సిస్టమ్ ఏ భాషకైనా ఒక నిర్దిష్ట ప్రసంగ నమూనాతో శిక్షణ పొందుతుంది మరియు తెలియని ప్రసంగ నమూనాను టైమ్ వార్పింగ్ టెక్నిక్ ఉపయోగించి సిగ్నల్స్ మధ్య దూరాన్ని నిర్ణయించడం ద్వారా రిఫరెన్స్ స్పీచ్ సరళితో పోల్చబడుతుంది.

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ ఉపయోగించి : ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ విధానం స్పెక్ట్రల్ కొలతల ఆధారంగా మాట్లాడే శబ్దాల జ్ఞానం, సరైన అర్ధవంతమైన మరియు వాక్యనిర్మాణ పదాల పరిజ్ఞానం వంటి ప్రాథమిక జ్ఞాన వనరుల వినియోగం మీద ఆధారపడి ఉంటుంది.

స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఆధారపడి ఉండే అంశాలు

ప్రసంగ గుర్తింపు వ్యవస్థ ఈ క్రింది అంశాలపై ఆధారపడి ఉంటుంది:

  • వివిక్త పదాలు : మాట్లాడే వరుస పదాల మధ్య విరామం అవసరం, ఎందుకంటే నిరంతర పదాలు అతివ్యాప్తి చెందుతాయి, ఒక పదం ప్రారంభమైనప్పుడు లేదా ముగిసినప్పుడు వ్యవస్థను అర్థం చేసుకోవడం కష్టమవుతుంది. అందువలన వరుస పదాల మధ్య నిశ్శబ్దం ఉండాలి.
  • సింగిల్ స్పీకర్ : ఒకేసారి స్పీచ్ ఇన్పుట్ ఇవ్వడానికి ప్రయత్నిస్తున్న చాలా మంది స్పీకర్లు సిగ్నల్స్ అతివ్యాప్తి చెందడానికి మరియు అంతరాయాలకు కారణమవుతాయి. ఉపయోగించిన ప్రసంగ గుర్తింపు వ్యవస్థలు చాలా స్పీకర్ ఆధారిత వ్యవస్థలు.
  • పదజాల పరిమాణం : పెద్ద పదజాలం ఉన్న భాషలు చిన్న పదజాలం ఉన్న వాటి కంటే నమూనా సరిపోలిక కోసం పరిగణించటం కష్టం, ఎందుకంటే అస్పష్టమైన పదాలు వచ్చే అవకాశాలు తరువాతి కాలంలో తక్కువగా ఉంటాయి.
విండోస్ 7 లో స్పీచ్ రికగ్నిషన్ సిస్టమ్

స్పీచ్ రికగ్నిషన్ సిస్టమ్ కోసం విండోస్ 7 ను ఉపయోగించే ఏ వ్యక్తికైనా నేను ఈ క్రింది దశలను సిఫారసు చేయాలనుకుంటున్నాను

  • ప్రారంభ మెను నుండి లేదా చిహ్నంపై క్లిక్ చేయడం ద్వారా నియంత్రణ ప్యానెల్‌ను తెరవండి.
  • యాక్సెస్ యొక్క సౌలభ్యాన్ని ఎంచుకుని, ఆపై స్పీచ్ రికగ్నిషన్ క్లిక్ చేయండి.
  • తదుపరి క్లిక్ మైక్రోఫోన్‌ను సెటప్ చేసి, అందుబాటులో ఉన్న ఎంపికల నుండి డెస్క్‌టాప్ మైక్రోఫోన్‌ను ఎంచుకోండి.
  • తరువాత స్పీచ్ ట్యుటోరియల్ తీసుకొని ఇచ్చిన సూచనలను అనుసరించండి.
  • ఆ తరువాత, మెరుగైన ఎంపికల కోసం మీ కంప్యూటర్‌కు శిక్షణ ఇవ్వండి, తద్వారా కంప్యూటర్ మీ స్పీచ్ సిగ్నల్ యొక్క ఖచ్చితమైన నమూనాను నిల్వ చేస్తుంది. ‘మిమ్మల్ని బాగా అర్థం చేసుకోవడానికి మీ కంప్యూటర్‌కు శిక్షణ ఇవ్వండి’ ఎంపికపై క్లిక్ చేసి, ఆపై సూచనలను అనుసరిస్తుంది.
  • ఇప్పుడు ప్రసంగ గుర్తింపు చిహ్నాన్ని ప్రారంభించి, మీ ప్రసంగాన్ని కంప్యూటర్‌కు నిర్దేశించడం ప్రారంభించండి. మీరు కంప్యూటర్ డిక్షనరీకి మీ స్వంత పదాలను కూడా జోడించవచ్చు.
ప్రాక్టికల్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్: HM2007 ఉపయోగించి

స్పీచ్ రికగ్నిషన్ ఐసిని ఉపయోగించి ప్రాక్టికల్ స్పీచ్ రికగ్నిషన్ సిస్టమ్‌ను నిర్మించవచ్చు HM2007 . HM2007 అనేది 48 పిన్ IC, ఇది స్పీచ్ రికగ్నిషన్ ఫంక్షన్‌ను అందిస్తుంది. ఇది రెండు మోడ్లలో పనిచేస్తుంది: మాన్యువల్ మోడ్ లేదా CPU మోడ్. రెండు మోడ్‌లలో, కీపై నొక్కిన సంబంధిత సంఖ్య కోసం ప్రతి పదాన్ని వినియోగదారు చెప్పే పదాలను గుర్తించడానికి IC మొదట శిక్షణ పొందుతుంది. ప్రతి పద సిగ్నల్‌ను ఐసి పదానికి అనుగుణమైన మెమరీ స్థానంలో నిల్వ చేస్తుంది. ఐసి నుండి డేటా అవుట్పుట్ మైక్రోకంట్రోలర్‌కు ఇంటర్‌ఫేస్ చేయబడి, ఎల్‌సిడిలో ప్రదర్శించబడుతుంది.

ప్రాక్టికల్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్

సాధారణంగా మేము HM2007 ఆపరేషన్ కోసం మాన్యువల్ మోడ్‌ను ఉపయోగిస్తాము.

  • HM2007 ఒక RDY పిన్ను కలిగి ఉంటుంది, ఇది క్రియాశీల తక్కువ పిన్, ఇది IC శిక్షణా ప్రయోజనం కోసం సిద్ధంగా ఉందని సూచిస్తుంది.
  • IC యొక్క MICIN పిన్‌కు కనెక్ట్ చేయబడిన మైక్రోఫోన్ ద్వారా వాయిస్ ఇన్‌పుట్ ఇవ్వబడుతుంది.
  • ప్రతి పదానికి అనుగుణమైన సంఖ్య ఇన్‌పుట్‌ను అందించడానికి ఉపయోగించే కీప్యాడ్‌తో IC ఇంటర్‌ఫేస్ చేయబడింది. క్లియర్ మరియు ట్రైన్ అనే రెండు ఫంక్షన్లలో ఐసి పనిచేస్తుంది. కీబోర్డుపై రైలు కీని నొక్కినప్పుడు, ఐసి తన శిక్షణా విధానాన్ని ప్రారంభిస్తుంది.
  • వినియోగదారుడు ‘రైలు’ ఫంక్షన్ కీని నొక్కే ముందు నంబర్ కీని నొక్కి, అవసరమైన పదాన్ని మైక్రోఫోన్‌కు చెబుతాడు.
  • IC ME (మెమరీ ఎనేబుల్) పిన్‌కు అధిక సిగ్నల్‌ను పంపుతుంది, ఇది SRAM యొక్క సంబంధిత ME పిన్‌తో అనుసంధానించబడి ఉంటుంది. నొక్కిన సంఖ్యకు అనుగుణమైన 8 బిట్ డేటా సిగ్నల్ బాహ్య బస్సు ద్వారా SRAM (బాహ్య RAM) లో నిల్వ చేయబడుతుంది.
  • వాయిస్ ఇన్పుట్ కనుగొనబడిన తరువాత, RDY పిన్ తర్కం అధికంగా ఉంటుంది మరియు IC గుర్తింపు స్థితికి వస్తుంది, ఇక్కడ ఇది గుర్తింపు ప్రక్రియను ప్రారంభిస్తుంది.
  • ఈ ప్రక్రియ యొక్క ఫలితం డేటా బస్సు ద్వారా DEN (డేటా ఎనేబుల్) పిన్ హైతో ఇవ్వబడుతుంది.
  • 8 బిట్ డేటాను మైక్రోకంట్రోలర్‌కు సిరీస్ ఇంటర్ఫేస్ ప్రాసెసర్ ద్వారా ఇవ్వవచ్చు లేదా మొదట గొళ్ళెం IC 74HC573 ఉపయోగించి లాచ్ చేయవచ్చు.
  • మైక్రోకంట్రోలర్ ఒక ఎల్‌సిడితో ఇంటర్‌ఫేస్ చేయబడింది మరియు ప్రోగ్రామ్ చేయబడి సంబంధిత పదం ప్రదర్శనలో ప్రదర్శించబడుతుంది.

హోమోనిమ్స్ (సారూప్య ధ్వనితో కూడిన పదాలు) ఉపయోగించకూడదని మరియు స్వరంలో ఉత్సాహాన్ని జాగ్రత్తగా చూసుకోవడమే ముందు జాగ్రత్త.

కాబట్టి, ఇదంతా ఎలా ఉంది ప్రాథమిక ప్రసంగ గుర్తింపు వ్యవస్థ పనిచేస్తుంది. ఇంకేమైనా ఇన్పుట్లను చేర్చడానికి స్వాగతం.

చిత్ర క్రెడిట్

స్పీచ్ మరియు స్పీకర్ రికగ్నిషన్ పరిచయం ద్వారా స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క భాగాలు - రిచర్డ్ డి. పీకాక్ మరియు డారిల్ హెచ్. గ్రాఫ్