DATA SCIENCE IN TAMIL – டிஜிட்டல் உலகின் தரவுகள் அனைத்தையும் தகவல்களாக மாற்றும் தொழில்நுட்பம் DATA SCIENCE

DATA SCIENCE IN TAMIL – டிஜிட்டல் உலகின் தரவுகள் அனைத்தையும் தகவல்களாக மாற்றும் தொழில்நுட்பம் DATA SCIENCE

DATA SCIENCE IN TAMIL:

தாங்கள் ஒரு இடத்தில் ஒரு கம்பெனியை ஆரம்பிக்கிறீர்கள் என்றால் அது எதிர்காலத்தில் எவ்வாறு செயல்படும் அந்த நிறுவனத்திற்கு தோராயமாக எத்தனை வாடிக்கையாளர்கள் வருவார்கள் அந்த நிறுவனத்தின் பொருள் அந்த இடத்தில் எவ்வாறு விற்பனையாகும் அந்த நிறுவனத்தில் மாத லாபம் மற்றும் வருட லாபம் தோராயமாக எவ்வாறு இருக்கும் போன்றவற்றை முன்கூட்டியே ஆராய்ந்து அந்த நிறுவனம் வெற்றி பெறுமா தோல்வி பெறுமா என்று கணிப்பதே DATA SCIENCE ஆகும்.

இந்த DATA SCIENCE பற்றி நாம் விளக்காக அறிந்து கொள்வதற்கு முன்பு நாம் DATA MINING என்றால் என்னவென்று தெளிவாக அறிந்து கொள்ள வேண்டியது அவசியமாகிறது. தற்காலத்தில் சமூக வலைத்தளங்களின் ஆதிக்கம் அதிகமாக இணையத்தில் உள்ளது. SOCIAL NETWORKING என்று சொல்லப்படும் சமூக வலைத்தளங்கள் ஏராளமான தகவல்களை தன்னகத்தே கொண்டுள்ளன. முக்கியமான சமூக வலைத்தளங்களான YOUTUBE, FACEBOOK, TWITTER, INSTAGRAM மற்றும் இணையத்தின் பல வலைத்தளங்களில் உள்ள தகவல்களை ஒரு பயனுள்ள தகவல்களாக மாற்றுவதே DATA MINING ஆகும்.  

DATA SCIENCE IN TAMIL INTRODUCTION:

2001ம் ஆண்டு வில்லியம் கிளீவ்லாண்ட் எனப்படும் கணினி அறிவியல் அறிஞர் ஒருவர் DATA MINING மற்றும் COMPUTER SCIENCE என்ற இரண்டையும் இணைத்து DATA SCIENCE என்ற புதிய தொழில்நுட்பத்தை உருவாக்கினார். அதாவது நிலையாக இருக்கும் தகவலையும், தொழில்நுட்ப ரீதியாக இருக்கும் தொழில்நுட்பத் தகவல்களையும் இணைத்து உருவாக்கிய தொழில்நுட்பமாகும்.

DATA SCIENCE IN TAMIL
DATASCIENCE IN TAMIL

2001ம் ஆண்டு உருவான DATA SCIENCE தொழில்நுட்பத்தைத் தொடர்ந்து 2003ம் ஆண்டு MYSPACE உருவானது பின்பு 2004ம் ஆண்டு FACEBOOK உருவானது பிறகு 2005ம் ஆண்டு YOUTUBE உருவானது. இவ்வாறாக பலவிதமான சமூக வலைத்தளங்கள் ஒன்றன்பின் ஒன்றாக உருவானது. இந்த சமூக வலைத்தளங்கள் அனைத்தும் இணையம் வாயிலாக தகவலைத் திரட்டத் தொடங்கியதால் BIO-DATA எனும் தொழில்நுட்பம் உருவானது.

இணையத்தின் வளர்ச்சி மற்றும் சமூக வலைத்தளங்களின் ஆதிக்கம் இவற்றுடன் DATA SCIENCEன் அபரிவிதமான வளர்ச்சி போன்ற அனைத்தும் இணைந்து செயல்பட்டதால் கோடிக்கணக்கான தகவல்கள் இணையத்தில் ஒருநாளில் வெளிவரத் தொடங்கின. இவ்வாறாக உலகம் முழுக்க வரும் தகவல்கள் அனைத்தையும் நிர்வகிக்க நமக்கு HADOOP மற்றும் SPARK என்ற BIG DATAவை நிர்வகிக்கும் புதிய தொழில்நுட்பங்கள் தேவைப்பட்டன.

2010ம் ஆண்டு காலகட்டத்தில் குறிப்பிடத்தக்க மாற்றம் இணைய உலகில் ஏற்படத் தொடங்கியது. அதாவது ARTIFICIAL INTELLIGENCE எனப்படும் செயற்கை அறிவு மற்றும் MACHINE LEARNING என்று சொல்லப்படும் எந்திரப் புரிதல் போன்ற தொழில்நுட்பங்களின் ALGORITHMSகள் பிரபலமடையத் தொடங்கின. இந்த ALGORITHMSகளின் வளர்ச்சி DATA SCIENCEற்கு கூடுதல் பலம் அளித்தது.

DATA SCIENCEன் முக்கியமான பணி என்னவென்றால் ஒரு தகவலைச் சேமிப்பது அதனை ஆராய்வது மற்றும் அதை வடிவத்திற்கு கொண்டு வருவது. DATA SCIENCEல் கீழ்க்கண்ட பல படிநிலைகள் உள்ளன.

STEPS IN DATASCIENCE:

  • BUSINESS PROBLEM
  • DATA ACQUISITION
  • DATA PREPARATION
  • DATA TRANSFORMATION
  • EXPLORING DATA ANALYSIS
  • DATA MODELING
  • VISUALIZATION & COMMUNICATION
  • DEPLOY & MONITORING

BUSINESS PROBLEM:

தாங்கள் ஒருவேளை ஒரு DATA SCIENCE நிபுணராக இருந்தால் தங்களின் வேலை என்னவென்றால் அருகில் இருக்கும் தொழில் அதிபரை அணுகி தங்களின் தொழிலில் என்ன பிரச்சனை எவ்வளவு உற்பத்தி மற்றும் எவ்வளவு விநியோகமாகிறது போன்றவற்றைக் கண்டறிந்து அவற்றை சரிசெய்வதற்கு உரிய வழியைக் கண்டறிவது DATA SCIENTISTன் வேலையாகும்.

DATA ACQUISITION:

தாங்கள் இவ்வாறு தொழில் அதிபரிடம் கண்டறிந்த சிக்கலுக்கான தீர்வை இணையத்தின் மூலமாக பலவிதமான தகவல்களைத் திரட்டுவதன் மூலம் சிக்கலுக்கான தீர்வைக் கண்டறிவது

DATA PREPARATION:

இதனை நாம் இரண்டு வகையாகப் பிரிக்கலாம்

  1. DATA CLEANING
  2. DATA TRANSFORMATION

DATA CLEANING:

தாங்கள் இணையத்தில் இருந்து எடுக்கும் தகவல்களில் தேவையில்லாத போலி தகவல்கள் அனைத்தையும் நீக்குவது இதன் வேலையாகும். இதன் மூலமாக DATA REDUNDANCY எனப்படும் போலியான தகவல்கள் அழிக்கப்படுகின்றன.

DATA TRANSFORMATION:

இங்கே நாம் UNSTRUCTURED DATAவை நாம் STRUCTURED DATA ஆக மாற்றுகிறோம். இங்கே நாம் ஒரு குறிப்பிட்ட ஒழுங்கான வடிவமைப்பில் இல்லாத தகவல்களை ஒரு வடிவத்திற்கு மாற்றுகிறோம்.

EXPLORING DATA ANALYSIS:

நாம் இதற்கு முன்பு கூறப்பட்ட நான்கு நிலைகளில் செய்த செயல்கள் அனைத்தையுமே சரியாகத்தான் செய்துள்ளோமா அல்லது ஏதும் சிக்கல்கள் ஏற்படுகின்றனவா என்று என்பதைப் பற்றி மீண்டும் சரிபார்ப்பது இந்த EXPLORING DATA ANALYSIS ஆகும்.

DATA MODELING:

நாம் அனைவரும் MACHINE LEARNING என்று சொல்லப்படும் தொழில்நுட்பத்தை அறிந்திருப்போம். மனிதன் செய்யும் அனைத்து செயல்களையும் எந்திரப் புரிதல் மூலமாக எந்திரன் மூலமாக செய்ய வைப்பதே MACHINE LEARNING ஆகும். இதற்கு பலவிதமான ALGORITHMSகள் உள்ளன. இந்த ALGORITHMSகள் பல விதமான செயல்களைச் செய்கிறது. இந்த ALGORITHMS அனைத்தைமே பல விதமான தகவல்களை பயனர்களிடம் இருந்தி உள்ளீடாக வாங்கி பின்பு கொடுக்கப்படும் உள்ளீடின் அடிப்படையில் நமக்கு ஒரு தீர்வைத் தருவது இந்த DATA MODELING ஆகும்.

VISUALIZATION & COMMUNICATION:

நாம் மேற்கூறிய அனைத்து விதமான 6 படிநிலைகளிலும் செய்த செயல்களின் புள்ளி விவரங்களை ஒரு ஆவண புள்ளி விவரமாக எடுத்து அந்த நிறுவனத்தின் தொழில் அதிபரிடம் எடுத்து விளக்குவது இந்த VISUALIZTION & COMMUNICATION ஆகும். இங்கே நாம் அனைத்து தகவல்களையும் புள்ளிவிவரமாக சம்பந்தப்பட்ட நிறுவனத்தின் அதிபரிடம் ஒப்படைக்கிறோம்.

DEPLOY & MONITORING:

நாம் மேற்சொன்ன அனைத்து படிநிலைகளையும் இங்கே சோதிக்கிறோம் கிட்டத்தட்ட இது ஒரு TESTING STAGE ஆகும். பின்பு REAL TIME என்று சொல்லப்பட்டும் நிகழ்காலத்தில் அதனை செயல்படுத்துகிறோம். இதுவே DEPLOY & MONITORING ஆகும்.

Share the knowledge