DATA SCIENCE IN TAMIL EXPLAINED – டிஜிட்டல் உலகின் தரவுகள் அனைத்தையும் தகவல்களாக மாற்றும் தொழில்நுட்பம் DATA SCIENCE

DATA SCIENCE IN TAMIL EXPLAINED – டிஜிட்டல் உலகின் தரவுகள் அனைத்தையும் தகவல்களாக மாற்றும் தொழில்நுட்பம் DATA SCIENCE

தாங்கள் ஒரு இடத்தில் ஒரு கம்பெனியை ஆரம்பிக்கிறீர்கள் என்றால் அது எதிர்காலத்தில் எவ்வாறு செயல்படும் அந்த நிறுவனத்திற்கு தோராயமாக எத்தனை வாடிக்கையாளர்கள் வருவார்கள் அந்த நிறுவனத்தின் பொருள் அந்த இடத்தில் எவ்வாறு விற்பனையாகும் அந்த நிறுவனத்தில் மாத லாபம் மற்றும் வருட லாபம் தோராயமாக எவ்வாறு இருக்கும் போன்றவற்றை முன்கூட்டியே ஆராய்ந்து அந்த நிறுவனம் வெற்றி பெறுமா தோல்வி பெறுமா என்று கணிப்பதே DATA SCIENCE ஆகும்.

இந்த DATA SCIENCE பற்றி நாம் விளக்காக அறிந்து கொள்வதற்கு முன்பு நாம் DATA MINING என்றால் என்னவென்று தெளிவாக அறிந்து கொள்ள வேண்டியது அவசியமாகிறது. தற்காலத்தில் சமூக வலைத்தளங்களின் ஆதிக்கம் அதிகமாக இணையத்தில் உள்ளது. SOCIAL NETWORKING என்று சொல்லப்படும் சமூக வலைத்தளங்கள் ஏராளமான தகவல்களை தன்னகத்தே கொண்டுள்ளன. முக்கியமான சமூக வலைத்தளங்களான YOUTUBE, FACEBOOK, TWITTER, INSTAGRAM மற்றும் இணையத்தின் பல வலைத்தளங்களில் உள்ள தகவல்களை ஒரு பயனுள்ள தகவல்களாக மாற்றுவதே DATA MINING ஆகும்.  

DATA SCIENCE அறிமுகம்:

2001ம் ஆண்டு வில்லியம் கிளீவ்லாண்ட் எனப்படும் கணினி அறிவியல் அறிஞர் ஒருவர் DATA MINING மற்றும் COMPUTER SCIENCE என்ற இரண்டையும் இணைத்து DATA SCIENCE என்ற புதிய தொழில்நுட்பத்தை உருவாக்கினார். அதாவது நிலையாக இருக்கும் தகவலையும், தொழில்நுட்ப ரீதியாக இருக்கும் தொழில்நுட்பத் தகவல்களையும் இணைத்து உருவாக்கிய தொழில்நுட்பமாகும்.

2001ம் ஆண்டு உருவான DATA SCIENCE தொழில்நுட்பத்தைத் தொடர்ந்து 2003ம் ஆண்டு MYSPACE உருவானது பின்பு 2004ம் ஆண்டு FACEBOOK உருவானது பிறகு 2005ம் ஆண்டு YOUTUBE உருவானது. இவ்வாறாக பலவிதமான சமூக வலைத்தளங்கள் ஒன்றன்பின் ஒன்றாக உருவானது. இந்த சமூக வலைத்தளங்கள் அனைத்தும் இணையம் வாயிலாக தகவலைத் திரட்டத் தொடங்கியதால் BIO-DATA எனும் தொழில்நுட்பம் உருவானது.

இணையத்தின் வளர்ச்சி மற்றும் சமூக வலைத்தளங்களின் ஆதிக்கம் இவற்றுடன் DATA SCIENCEன் அபரிவிதமான வளர்ச்சி போன்ற அனைத்தும் இணைந்து செயல்பட்டதால் கோடிக்கணக்கான தகவல்கள் இணையத்தில் ஒருநாளில் வெளிவரத் தொடங்கின. இவ்வாறாக உலகம் முழுக்க வரும் தகவல்கள் அனைத்தையும் நிர்வகிக்க நமக்கு HADOOP மற்றும் SPARK என்ற BIG DATAவை நிர்வகிக்கும் புதிய தொழில்நுட்பங்கள் தேவைப்பட்டன.

2010ம் ஆண்டு காலகட்டத்தில் குறிப்பிடத்தக்க மாற்றம் இணைய உலகில் ஏற்படத் தொடங்கியது. அதாவது ARTIFICIAL INTELLIGENCE எனப்படும் செயற்கை அறிவு மற்றும் MACHINE LEARNING என்று சொல்லப்படும் எந்திரப் புரிதல் போன்ற தொழில்நுட்பங்களின் ALGORITHMSகள் பிரபலமடையத் தொடங்கின. இந்த ALGORITHMSகளின் வளர்ச்சி DATA SCIENCEற்கு கூடுதல் பலம் அளித்தது.

DATA SCIENCEன் முக்கியமான பணி என்னவென்றால் ஒரு தகவலைச் சேமிப்பது அதனை ஆராய்வது மற்றும் அதை வடிவத்திற்கு கொண்டு வருவது. DATA SCIENCEல் கீழ்க்கண்ட பல படிநிலைகள் உள்ளன.

STEPS IN DATASCIENCE:

  • BUSINESS PROBLEM
  • DATA ACQUISITION
  • DATA PREPARATION
  • DATA TRANSFORMATION
  • EXPLORING DATA ANALYSIS
  • DATA MODELING
  • VISUALIZATION & COMMUNICATION
  • DEPLOY & MONITORING

BUSINESS PROBLEM:

தாங்கள் ஒருவேளை ஒரு DATA SCIENCE நிபுணராக இருந்தால் தங்களின் வேலை என்னவென்றால் அருகில் இருக்கும் தொழில் அதிபரை அணுகி தங்களின் தொழிலில் என்ன பிரச்சனை எவ்வளவு உற்பத்தி மற்றும் எவ்வளவு விநியோகமாகிறது போன்றவற்றைக் கண்டறிந்து அவற்றை சரிசெய்வதற்கு உரிய வழியைக் கண்டறிவது DATA SCIENTISTன் வேலையாகும்.

DATA ACQUISITION:

தாங்கள் இவ்வாறு தொழில் அதிபரிடம் கண்டறிந்த சிக்கலுக்கான தீர்வை இணையத்தின் மூலமாக பலவிதமான தகவல்களைத் திரட்டுவதன் மூலம் சிக்கலுக்கான தீர்வைக் கண்டறிவது

DATA PREPARATION:

இதனை நாம் இரண்டு வகையாகப் பிரிக்கலாம்

  1. DATA CLEANING
  2. DATA TRANSFORMATION

DATA CLEANING:

தாங்கள் இணையத்தில் இருந்து எடுக்கும் தகவல்களில் தேவையில்லாத போலி தகவல்கள் அனைத்தையும் நீக்குவது இதன் வேலையாகும். இதன் மூலமாக DATA REDUNDANCY எனப்படும் போலியான தகவல்கள் அழிக்கப்படுகின்றன.

DATA TRANSFORMATION:

இங்கே நாம் UNSTRUCTURED DATAவை நாம் STRUCTURED DATA ஆக மாற்றுகிறோம். இங்கே நாம் ஒரு குறிப்பிட்ட ஒழுங்கான வடிவமைப்பில் இல்லாத தகவல்களை ஒரு வடிவத்திற்கு மாற்றுகிறோம்.

EXPLORING DATA ANALYSIS:

நாம் இதற்கு முன்பு கூறப்பட்ட நான்கு நிலைகளில் செய்த செயல்கள் அனைத்தையுமே சரியாகத்தான் செய்துள்ளோமா அல்லது ஏதும் சிக்கல்கள் ஏற்படுகின்றனவா என்று என்பதைப் பற்றி மீண்டும் சரிபார்ப்பது இந்த EXPLORING DATA ANALYSIS ஆகும்.

DATA MODELING:

நாம் அனைவரும் MACHINE LEARNING என்று சொல்லப்படும் தொழில்நுட்பத்தை அறிந்திருப்போம். மனிதன் செய்யும் அனைத்து செயல்களையும் எந்திரப் புரிதல் மூலமாக எந்திரன் மூலமாக செய்ய வைப்பதே MACHINE LEARNING ஆகும். இதற்கு பலவிதமான ALGORITHMSகள் உள்ளன. இந்த ALGORITHMSகள் பல விதமான செயல்களைச் செய்கிறது. இந்த ALGORITHMS அனைத்தைமே பல விதமான தகவல்களை பயனர்களிடம் இருந்தி உள்ளீடாக வாங்கி பின்பு கொடுக்கப்படும் உள்ளீடின் அடிப்படையில் நமக்கு ஒரு தீர்வைத் தருவது இந்த DATA MODELING ஆகும்.

VISUALIZATION & COMMUNICATION:

நாம் மேற்கூறிய அனைத்து விதமான 6 படிநிலைகளிலும் செய்த செயல்களின் புள்ளி விவரங்களை ஒரு ஆவண புள்ளி விவரமாக எடுத்து அந்த நிறுவனத்தின் தொழில் அதிபரிடம் எடுத்து விளக்குவது இந்த VISUALIZTION & COMMUNICATION ஆகும். இங்கே நாம் அனைத்து தகவல்களையும் புள்ளிவிவரமாக சம்பந்தப்பட்ட நிறுவனத்தின் அதிபரிடம் ஒப்படைக்கிறோம்.

DEPLOY & MONITORING:

நாம் மேற்சொன்ன அனைத்து படிநிலைகளையும் இங்கே சோதிக்கிறோம் கிட்டத்தட்ட இது ஒரு TESTING STAGE ஆகும். பின்பு REAL TIME என்று சொல்லப்பட்டும் நிகழ்காலத்தில் அதனை செயல்படுத்துகிறோம். இதுவே DEPLOY & MONITORING ஆகும்.

Share the knowledge

2 thoughts on “DATA SCIENCE IN TAMIL EXPLAINED – டிஜிட்டல் உலகின் தரவுகள் அனைத்தையும் தகவல்களாக மாற்றும் தொழில்நுட்பம் DATA SCIENCE”

Leave a Reply

Your email address will not be published. Required fields are marked *