انواع داده

علم داده چیست؟

مقدمه

یکی از اساسی‌ترین بینش در مورد انواع داده‌ها این است که آیا داده ها ساختارمند هستند یا خیر.

این امر در علم داده امری ضرووی و مهم است زیرا بیشتر تکنیک هایی که یاد می گیریم به یک یا چند ویژگی ذاتی بستگی دارد.

معمولاً، داده‌های ساختاریافته به اطلاعات بسیار سازمان‌ یافته‌ای اشاره دارند که می‌توانند به‌طور یکپارچه در یک پایگاه داده گنجانده شوند. در حالی که داده های بدون ساختار اساساً برعکس هستند و فاقد هرگونه ساختار اساسی هستند.

در داده‌های ساختار یافته، مقادیر مختلف چه اعداد و یا انواع دیگر داده ها برچسب‌گذاری می‌شوند، که این موضوع در مورد داده‌های بدون ساختار صدق نمی‌کند. اجازه دهید این دو نوع را با جزئیات بیشتری بررسی کنیم.

انواع داده

داده ساختار یافته

داده های ساختاریافته مهم ترین نوع داده برای ما هستند زیرا این داده ها دارای فیلدها یا برچسب های تعریف شده هستند.

آنچه برای ما مهم است این که هر داده ای که داریم چه عدد، یک دسته یا یک متن برچسب گذاری شوند.

مثلا عدد “60” به عنوان قد لحاظ شود و عدد “120” به عنوان وزن برای یک رکورد معین لحاظ شود که در این مورد این اطلاعات برای یک فرد است. به عبارت دیگر، ما می دانیم که آن عدد، دسته یا متن به چه معناست.

جدول زیر حاوی داده هایی در مورد برخی از مشتریان یک شرکت است. اگر یک بخش از جدول را انتخاب کنیم مثلاً ردیف سوم و ستون هشتم که “22” است.

از ساختار جدول می دانیم که آن داده یک عدد است و به طور خاص بیانگر سن یک مشتری است. کدام مشتری؟ کسی که شناسه 2848 دارد و در گرجستان زندگی می کند.

می بینید که چگونه به راحتی می توانیم داده ها را تفسیر و استفاده کنیم، زیرا آنها در یک قالب و ساختار یافته هستند. البته شخصی باید داده‌ها را در چنین قالبی جمع‌آوری، ذخیره و ارائه کند.

انواع-داده

داده های بدون ساختار

داده های بدون ساختار داده های بدون برچسب هستند.

بهتر است این مورد را با یک مثال بیان کنیم:

فرض کنیم مشخصاتی از یک زن را بر حسب قد و میزان ضریب هوشی وی داریم و مشخص شده است که یک زن با قد بین 65 اینچ تا 67 اینچ دارای ضریب هوشی 125-130 است.

حال می دانیم با نگاه کردن به فردی کوتاه‌تر یا بلندتر از وی این نمی توان دریافت که آیا نمره IQ او می‌تواند متفاوت باشد، و حتی اگر هم متفاوت است، احتمالاً نمی‌توان نتیجه گرفت که این تغییر صرفاً به دلیل تفاوت در قد آنها است.

فرض کنید داده های بسیاری از این دست داریم یعنی ارتفاع قد و IQ چندین خانم. با این حال، آنها به وضوح برچسب گذاری نشده اند.

اگر بخواهیم پردازش هایی را انجام دهیم، و بخواهیم قد و ضریب هوشی را مرتبط کنیم، نمی توانیم به راحتی این کار را انجام دهیم.

و مطمئناً، اگر بخواهیم یک فرآیند سیستماتیک (الگوریتم یا برنامه) برای عبور از چنین داده‌ها یا مشاهداتی ایجاد کنیم، دچار مشکل می‌شویم زیرا این فرآیند قادر به تشخیص اینکه کدام یک از این اعداد با کدام یک از کمیت‌ها مطابقت دارد، نخواهد بود.

البته، انسان ها در درک پاراگرافی مانند این که حاوی داده های بدون ساختار است، مشکلی ندارند. اما اگر بخواهیم یک فرآیند سیستماتیک برای تجزیه و تحلیل حجم زیادی از داده ها و ایجاد بینش از آن انجام دهیم، داده یمان هر چه ساختارمندتر باشند، بهتر است.

در مواقعی که چنین داده‌هایی در دسترس نیستند، به دنبال راه‌های دیگری برای تبدیل داده‌های بدون ساختار به داده‌های ساخت‌یافته یا پردازش مستقیم داده‌های بدون ساختار هستیم.

از مهمترین داده های ساختار نیافته می توان به متن اشاره نمود.

چالش داده های بدون ساختار

فقدان ساختار، گردآوری و سازماندهی داده های بدون ساختار را به یک کار وقت گیر و انرژی بر تبدیل می کند. بدست آوردن بینش از داده های بدون ساختار آسان خواهد بود در صورتیکه اگر بتوان آن را فوراً به داده های ساختاریافته تبدیل کرد.
با این حال، داده های ساختار یافته شبیه به زبان ماشین هستند، زیرا تجزیه اطلاعات توسط رایانه ها را بسیار آسان تر می کند.
از سوی دیگر، داده‌های بدون ساختار اغلب مربوط به نحوه ارتباط انسان‌ها هستند (“زبان طبیعی”). اما مردم به طور طبیعی با اطلاعات در قالب یک پایگاه داده دقیق تعامل ندارند.


به عنوان مثال، ایمیل ها از جنس داده های بدون ساختار هستند. یک فرد ممکن است صندوق ورودی خود را به گونه‌ای تنظیم کند که با اولویت‌های سازمانی‌اش هماهنگ باشد، اما این بدان معنا نیست که داده‌های وی کاملا ساختار یافته هستند.
اگر واقعاً کاملاً ساختار یافته می بودند، بر اساس موضوع و محتوای دقیق، بدون انحراف یا تغییر مرتب می شدند. در عمل، این اتفاق نمی افتد، زیرا حتی ایمیل‌های متمرکز نیز موضوعات متعددی را پوشش می‌دهند.

با توجه به گفته Brightplanet :

«مشکلی که داده‌های بدون ساختار ایجاد می‌کنند مربوط به حجم است. بیشتر تعاملات تجاری از این نوع هستند و مانند یک موتور جستجوی مبتنی بر وب، نیازمند سرمایه گذاری عظیمی از منابع برای غربال کردن و استخراج عناصر ضروری هستند»

و البته اینجاست که علم داده می تواند بسیار مفید عمل نماید .

از آنجایی که این مجموعه اطلاعات بسیار عظیم است، تکنیک های داده کاوی کنونی اغلب مقدار قابل توجهی از محتوای موجود را از دست می دهند، که در صورت تجزیه و تحلیل کارآمد، بسیاری از آنها می توانند بازی را تغییر دهند.

ارتباط علم داده با سایر علوم

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

-- بارگیری کد امنیتی --