مقدمه
یکی از اساسیترین بینش در مورد انواع دادهها این است که آیا داده ها ساختارمند هستند یا خیر.
این امر در علم داده امری ضرووی و مهم است زیرا بیشتر تکنیک هایی که یاد می گیریم به یک یا چند ویژگی ذاتی بستگی دارد.
معمولاً، دادههای ساختاریافته به اطلاعات بسیار سازمان یافتهای اشاره دارند که میتوانند بهطور یکپارچه در یک پایگاه داده گنجانده شوند. در حالی که داده های بدون ساختار اساساً برعکس هستند و فاقد هرگونه ساختار اساسی هستند.
در دادههای ساختار یافته، مقادیر مختلف چه اعداد و یا انواع دیگر داده ها برچسبگذاری میشوند، که این موضوع در مورد دادههای بدون ساختار صدق نمیکند. اجازه دهید این دو نوع را با جزئیات بیشتری بررسی کنیم.
انواع داده
داده ساختار یافته
داده های ساختاریافته مهم ترین نوع داده برای ما هستند زیرا این داده ها دارای فیلدها یا برچسب های تعریف شده هستند.
آنچه برای ما مهم است این که هر داده ای که داریم چه عدد، یک دسته یا یک متن برچسب گذاری شوند.
مثلا عدد “60” به عنوان قد لحاظ شود و عدد “120” به عنوان وزن برای یک رکورد معین لحاظ شود که در این مورد این اطلاعات برای یک فرد است. به عبارت دیگر، ما می دانیم که آن عدد، دسته یا متن به چه معناست.
جدول زیر حاوی داده هایی در مورد برخی از مشتریان یک شرکت است. اگر یک بخش از جدول را انتخاب کنیم مثلاً ردیف سوم و ستون هشتم که “22” است.
از ساختار جدول می دانیم که آن داده یک عدد است و به طور خاص بیانگر سن یک مشتری است. کدام مشتری؟ کسی که شناسه 2848 دارد و در گرجستان زندگی می کند.
می بینید که چگونه به راحتی می توانیم داده ها را تفسیر و استفاده کنیم، زیرا آنها در یک قالب و ساختار یافته هستند. البته شخصی باید دادهها را در چنین قالبی جمعآوری، ذخیره و ارائه کند.
داده های بدون ساختار
داده های بدون ساختار داده های بدون برچسب هستند.
بهتر است این مورد را با یک مثال بیان کنیم:
فرض کنیم مشخصاتی از یک زن را بر حسب قد و میزان ضریب هوشی وی داریم و مشخص شده است که یک زن با قد بین 65 اینچ تا 67 اینچ دارای ضریب هوشی 125-130 است.
حال می دانیم با نگاه کردن به فردی کوتاهتر یا بلندتر از وی این نمی توان دریافت که آیا نمره IQ او میتواند متفاوت باشد، و حتی اگر هم متفاوت است، احتمالاً نمیتوان نتیجه گرفت که این تغییر صرفاً به دلیل تفاوت در قد آنها است.
فرض کنید داده های بسیاری از این دست داریم یعنی ارتفاع قد و IQ چندین خانم. با این حال، آنها به وضوح برچسب گذاری نشده اند.
اگر بخواهیم پردازش هایی را انجام دهیم، و بخواهیم قد و ضریب هوشی را مرتبط کنیم، نمی توانیم به راحتی این کار را انجام دهیم.
و مطمئناً، اگر بخواهیم یک فرآیند سیستماتیک (الگوریتم یا برنامه) برای عبور از چنین دادهها یا مشاهداتی ایجاد کنیم، دچار مشکل میشویم زیرا این فرآیند قادر به تشخیص اینکه کدام یک از این اعداد با کدام یک از کمیتها مطابقت دارد، نخواهد بود.
البته، انسان ها در درک پاراگرافی مانند این که حاوی داده های بدون ساختار است، مشکلی ندارند. اما اگر بخواهیم یک فرآیند سیستماتیک برای تجزیه و تحلیل حجم زیادی از داده ها و ایجاد بینش از آن انجام دهیم، داده یمان هر چه ساختارمندتر باشند، بهتر است.
در مواقعی که چنین دادههایی در دسترس نیستند، به دنبال راههای دیگری برای تبدیل دادههای بدون ساختار به دادههای ساختیافته یا پردازش مستقیم دادههای بدون ساختار هستیم.
از مهمترین داده های ساختار نیافته می توان به متن اشاره نمود.
چالش داده های بدون ساختار
فقدان ساختار، گردآوری و سازماندهی داده های بدون ساختار را به یک کار وقت گیر و انرژی بر تبدیل می کند. بدست آوردن بینش از داده های بدون ساختار آسان خواهد بود در صورتیکه اگر بتوان آن را فوراً به داده های ساختاریافته تبدیل کرد.
با این حال، داده های ساختار یافته شبیه به زبان ماشین هستند، زیرا تجزیه اطلاعات توسط رایانه ها را بسیار آسان تر می کند.
از سوی دیگر، دادههای بدون ساختار اغلب مربوط به نحوه ارتباط انسانها هستند (“زبان طبیعی”). اما مردم به طور طبیعی با اطلاعات در قالب یک پایگاه داده دقیق تعامل ندارند.
به عنوان مثال، ایمیل ها از جنس داده های بدون ساختار هستند. یک فرد ممکن است صندوق ورودی خود را به گونهای تنظیم کند که با اولویتهای سازمانیاش هماهنگ باشد، اما این بدان معنا نیست که دادههای وی کاملا ساختار یافته هستند.
اگر واقعاً کاملاً ساختار یافته می بودند، بر اساس موضوع و محتوای دقیق، بدون انحراف یا تغییر مرتب می شدند. در عمل، این اتفاق نمی افتد، زیرا حتی ایمیلهای متمرکز نیز موضوعات متعددی را پوشش میدهند.
با توجه به گفته Brightplanet :
«مشکلی که دادههای بدون ساختار ایجاد میکنند مربوط به حجم است. بیشتر تعاملات تجاری از این نوع هستند و مانند یک موتور جستجوی مبتنی بر وب، نیازمند سرمایه گذاری عظیمی از منابع برای غربال کردن و استخراج عناصر ضروری هستند»
و البته اینجاست که علم داده می تواند بسیار مفید عمل نماید .
از آنجایی که این مجموعه اطلاعات بسیار عظیم است، تکنیک های داده کاوی کنونی اغلب مقدار قابل توجهی از محتوای موجود را از دست می دهند، که در صورت تجزیه و تحلیل کارآمد، بسیاری از آنها می توانند بازی را تغییر دهند.