مقدمه
برای اینکه به این موضوع بهتر بپردازیم باید سوال را این گونه مطرح نماییم:
آیا رشته و زمنیه ای هست که این روزها به علم داده نیازی نداشته باشد؟
نکته مهم در مورد علم داده این است که به یک جنبه از جامعه، یک حوزه یا یک بخش از یک دانشگاه محدود نمی شود. تقریبا همه جا هست بهتر است با هم به چند نمونه از آن بپردازیم.
کاربرد علم داده در پردازش صدا و تصویر
صدا و تصویر یکی از زمینه هایی است که علم داده می تواند نقشی اساسی را در پردازش داده های آن ایفا نماید.
امروزه با رشد بسیار سریع حجم داده های صدا و تصویر در همه زمینه ها لذا دیتا بانک های بسیار زیادی در زمینه صوت و تصویر بوجو آمده است.
از طرفی علم داده بر اساس موجودیت دیتا بانک ها میتواند ما در تحلیل داده ها کمک نماید و همان طور که گفتیم چون صدا و تصویر دو زمینه ای هستند که دارای دیتا بانک های بسیار زیاد و گسترده ای هستند از این رو علم داده می تواند در نقش مهمی در تحلیل داده های صوت و تصویر ایفا نماید.
به عنوان مثال می توان به حجم داده های تصویر مربوط به دوربین های ترافیکی در معابر مختلف در سطح شهری مثل تهران تنها در طول یک روز اشاره نمود، توجه کنید که چه حجم وسیعی از داده را در بر می گیرد.
برای تحلیل این حجم وسیع از داده های تصویر قطعا لازم است که یک متخصص پردازش تصویر مسلط بر علم داده باشد.
فعالیتهایی که نیاز به تجزیه و تحلیل صدا دارند شامل تجزیه و تحلیل صوتی و تصویری برای مدیریت محیطی، مراقبتهای بهداشتی و امنیتی، تجزیه و تحلیل گفتار، بازیابی اطلاعات موسیقی، اجرای موسیقی، شناسایی صدا و تجزیه و تحلیل رفتاری است.
تجزیه و تحلیل داده های صدا به دنبال درک و تجزیه و تحلیل سیگنال های صوتی جمع آوری شده توسط دستگاه های دیجیتال است.
حوزه تحلیل صدا در حال حاضر به شدت تحت تأثیر علم داده است.
از طریق استفاده از نمودارها و نمودارها، علم داده می تواند صدا را تجزیه و تحلیل کند. در زمینه تجزیه و تحلیل صدا، چندین برنامه کاربردی علم داده وجود دارد.
به عنوان مثالی دیگر در تشخیص گفتار علم داده بر مبنای بیگ دیتا ابزاری بسیار قدرتمند است.
تشخیص گفتار با استفاده از علم داده و هوش مصنوعی سیگنال های گفتار را به متن یا قالب قابل خواندن توسط ماشین تبدیل می کند.
این یک فناوری است که رایانه ها را قادر می سازد تا گفتار انسان را درک کنند. در بسیاری از برنامهها، مانند جستجوی صوتی و فناوری کمکی با قابلیت گفتار استفاده
کاربرد علم داده در امور مالی
در سال های اخیر انفجاری در سرعت، تنوع و حجم ( مدل 3V ) داده های مالی رخ داده است. همانطور که در پست علم داده چیست شرح داده شده است تقریباً در بیشتر زمینه ها رشد تصاعدی داده ها وجود داشته است.
فعالیت رسانههای اجتماعی، تعاملات تلفن همراه، گزارشهای سرورها، فیدهای بازار های آنلاین، سوابق خدمات مشتری، جزئیات تراکنشها و اطلاعات پایگاههای داده موجود در مراکز مالی و سرمایه گذاری از بانک ها گرفته تا سایر مراکز همچون بازهای سرمایه گزاری. اما سوال اینجاست که دانشمندان داده های مالی چه می کنند؟
آنها از طریق جمع آوری و تجزیه و تحلیل منابع جدید داده ها، ساخت مدل های پیش بینی و اجرای شبیه سازی بلادرنگ رویدادهای بازار، به صنعت مالی کمک می کنند تا اطلاعات لازم برای پیش بینی های دقیق را به دست آورند. دانشمندان داده در بخش مالی همچنین ممکن است در کشف تقلب و کاهش ریسک نیز مشارکت داشته باشند.
اساساً، بانک ها و سایر مؤسسات مالی، داده های زیادی را در مورد وام گیرنده در فرآیند اولیه یا همان کاغذ بازی های بانک ها جمع آوری می کنند. روشهای علم داده میتوانند احتمال عدم پرداخت وام را از طریق اطلاعاتی مانند مشخصات مشتری، هزینههای گذشته و سایر متغیرهای ضروری که میتوانند برای تحلیل احتمالات ریسک مورد استفاده قرار دهند، به حداقل برسانند.
ابتکارات علم داده حتی به بانکداران کمک می کند تا قدرت خرید مشتری را تجزیه و تحلیل کنند تا به طور مؤثرتری سعی کنند محصولات بانکی بیشتری را بفروشند.
اگر هنوز در مورد اهمیت علم داده در امور مالی متقاعد نشده اید می توانید به سابقه اعتباری خود نگاه کنید، یکی از محبوب ترین انواع خدمات مدیریت ریسک که توسط بانک ها و سایر موسسات مالی برای شناسایی اعتبار مشتریان بالقوه استفاده می شود.
شرکت ها از الگوریتم های یادگیری ماشین در تجزیه و تحلیل رفتار هزینه های گذشته استفاده می کنند. الگوهایی برای تصمیم گیری در مورد اعتبار مشتریان یا همان امتیاز اعتباری، همراه با عوامل دیگر، از جمله طول سابقه اعتباری و سن مشتری، به نوبه خود برای پیشبینی مبلغ تقریبی وام که میتواند با خیال راحت به مشتری هنگام درخواست کارت اعتباری جدید یا وام بانکی ارسال شود، استفاده میشود.
اجازه دهید به یک مثال قطعی تر نگاه کنیم. Lending Club یکی از بزرگترین بازارهای آنلاین جهان است که وام گیرندگان را با سرمایه گذاران مرتبط می کند. یک نتیجه اجتناب ناپذیر از وام دادن که هر وام دهنده ای دوست ندارد با آن مواجه شود، عدم بازپرداخت و کوتاهی توسط وام گیرندگان است.
یک راهحل بالقوه برای این مشکل، ساختن یک مدل پیشبینیکننده از مجموعه دادههای وام قبلی است که میتواند برای شناسایی متقاضیانی پرخطر استفاده شود. به عنوان مثال Lending Club مجموعه داده وام خود را در مخزن داده خود میزبانی می کند.
الگوریتم ها و رویکردهای مختلفی وجود دارد که می توان برای ایجاد چنین مدل های پیش بینی کننده ای استفاده کرد.
برنامه ریزی و سیاست گذاری های عمومی
به بیان ساده، برنامه ریزی عمومی عبارت است از اعمال سیاست ها، مقررات و قوانین برای مشکلات جامعه از طریق اقدامات دولت ها و سازمان ها به نفع یک شهروند.
بسیاری از شاخه های علوم اجتماعی (اقتصاد، علوم سیاسی، جامعه شناسی، و غیره) برای ایجاد یک خط مشی عمومی بنیادی هستند.
علم داده به دولت ها و سازمان ها کمک می کند تا بینشی در مورد رفتارهای شهروندان که بر کیفیت زندگی عمومی تأثیر می گذارد، از جمله ترافیک، حمل و نقل عمومی، رفاه اجتماعی، رفاه جامعه و غیره به دست آورند.
خوشبختانه در این زمینه دیتا بانک های اوپن سورس یا به عبارتی مخازن داده های باز جهت مطالعه و تحقیق وجود دارد که در زیر دو نمونه از آنها آورده شده است:
(1) شهر شیکاگو (https://data.cityofchicago.org)
(2) شهر نیویورک (https://nycopendata.socrata.com)
تا زمان نگارش این مطلب، سایت data.gov بیش از 200000 مخزن داده در موضوعات مختلف داشت که هر کسی میتواند آنها را مرور کند، از کشاورزی گرفته تا دولت محلی، علم و تحقیق.
پورتال شهر شیکاگو یک کاتالوگ داده با موضوعات به همان اندازه متنوع ارائه می دهد که در 16 دسته سازماندهی شده است، از جمله مدیریت و امور مالی، حفاظت از تاریخی، و بهداشت.
NYC OpenData شامل مجموعه داده های سازماندهی شده در 10 دسته است. به عنوان مثال، با کلیک بر روی دسته دولت شهر، 495 نتیجه فردی ظاهر می شود. NYC OpenData همچنین دادههای خود را بر اساس سازمان شهری سازماندهی میکند، که 94 مورد از آن فهرست شدهاند، از اداره خدمات کودکان گرفته تا سیستم بازنشستگی معلمان. داده ها در دسترس همه علاقه مندان است.
یک مثال خوب از استفاده از داده ها برای تجزیه و تحلیل و بهبود تصمیمات سیاست عمومی، پروژه علم داده برای امور خیریه است، که در آن موسسات مختلف از جمله Nova SBE، شهرداری کاسکایس و دانشگاه شیکاگو به مدت سه ماه در این برنامه شرکت کرده اند.
در این برنامه 25 متخصص تجزیه و تحلیل داده از چندین کشور را گرد هم آورده اند که روی استفاده از مجموعه داده های سیاست عمومی باز کار کنند تا سرنخ هایی برای حل مشکلات مرتبط با آن و تأثیرش بر جامعه پیدا کنند.
علم داده در و بهداشت و پزشکی
مراقبتهای بهداشتی حوزه دیگری است که در آن دانشمندان داده رویکرد و شیوههای تحقیقاتی خود را تغییر میدهند. اگرچه صنعت پزشکی همیشه دادهها (مانند مطالعات بالینی، اطلاعات بیمه، سوابق بیمارستانی) را ذخیره میکند، صنعت مراقبتهای بهداشتی اکنون در حجم بیسابقهای از اطلاعات غرق شده است.
این شامل دادههای بیولوژیکی مانند بیان ژن، دادههای توالی DNA نسل بعدی، پروتئومیکس (مطالعه پروتئینها) و متابولومیک (اثرانگشت شیمیایی فرآیندهای سلولی) است.
در حالی که مطالعات تشخیصی و پیشگیری از بیماری ممکن است محدود به نظر برسند، ممکن است دادههایی را در مورد یک جمعیت بسیار بزرگتر با توجه به دادههای بالینی و نتایج سلامت موجود در پروندههای الکترونیک سلامت (EHR) مشاهده کنیم.
دانشمندان داده میتوانند به طور موثر بر روی مجموعه دادههای عظیم کار کنند و دادههای آزمایشهای بالینی را با مشاهدات مستقیم توسط پزشکان مجرب ترکیب کنند.
ترکیبی از دادههای خام با منابع لازم، راه را برای متخصصان مراقبتهای بهداشتی باز میکند تا بر مشکلات پزشکی مهم و بیمار محور تمرکز کنند.
نقش علم داده در مراقبت های بهداشتی به ارائه دهندگان بزرگ خدمات بهداشتی محدود نمی شود. همچنین علم داده مدیریت سلامت شخصی را در دهه گذشته متحول کرده است. ردیابهای سلامت مانند Fitbit، نمونههای بارز کاربرد علم داده در فضای سلامت شخصی هستند.
با توجه به پیشرفتها در فناوری کوچکسازی، اکنون میتوانیم بیشتر دادههای تولید شده توسط بدن انسان را از طریق چنین ردیابهایی جمعآوری کنیم، از جمله اطلاعاتی در مورد ضربان قلب، قند خون، الگوهای خواب، سطح استرس و حتی فعالیت مغز.
پزشکان و دانشمندان با تجهیز به انبوهی از داده های بهداشتی، مرزها را در نظارت بر سلامت پیش می برند.
از زمان ظهور دستگاههای پوشیدنی شخصی، تحقیقات زیادی انجام شده است که از چنین دستگاههایی برای مطالعه فضای مدیریت سلامت شخصی استفاده میکند.
ردیابهای سلامت و سایر دستگاههای پوشیدنی این فرصت را برای محققین فراهم میکنند تا پایبندی به اهداف فعالیت بدنی را با دقت معقول در طول هفتهها یا حتی ماهها ردیابی کنند، که با تکیه بر تعداد انگشت شماری از خود گزارشها یا تعداد کمی از دورههای پوشیدن تقریبا غیرممکن بود.
یک مثال خوب از چنین مطالعه ای استفاده از حسگرهای پوشیدنی برای اندازه گیری پایبندی به مداخله فعالیت بدنی در بین زنان دارای اضافه وزن یا چاق یائسه است که در یک دوره 16 هفته ای انجام شد.
این مطالعه نشان داد که با استفاده از ردیابهای اندازهگیری فعالیت، مانند ردیابهای Fitbit، سطوح بالایی از نظارت بر خود در یک دوره طولانی حفظ میشود. اغلب، حتی آگاهی از سطح فعالیت بدنی خود می تواند در حمایت یا حفظ رفتارهای خوب مؤثر باشد.
اپل با Stanford Medicine16 برای جمعآوری و تجزیه و تحلیل دادههای اپل واچ برای شناسایی ریتمهای نامنظم قلب، از جمله مواردی که ناشی از بیماریهای بالقوه جدی قلبی مانند فیبریلاسیون دهلیزی است، که یکی از دلایل اصلی سکته است، همکاری کرده است.
بسیاری از شرکتهای بیمه شروع به ارائه دستگاههای اپل واچ رایگان یا تخفیفدار به مشتریان خود کردهاند، یا برنامههای پاداش برای کسانی که از چنین دستگاههایی در زندگی روزمره خود استفاده میکنند، دارند.
دادههای جمعآوریشده از طریق چنین دستگاههایی به مشتریان، بیماران و ارائهدهندگان مراقبتهای بهداشتی کمک میکند تا نظارت بهتری داشته باشند. ، تشخیص و درمان شرایط بهداشتی که قبلاً ممکن نبود.
کاربرد علم داده در برنامه ریزی شهری
بسیاری از دانشمندان و مهندسان به این باور رسیدهاند که در نتیجه روشهای جدید علم داده، حوزه برنامهریزی شهری برای تغییر رویکرد قابل توجه آماده است.
مرکز شهری برای محاسبات و داده ها (Urban CCD)، در دانشگاه شیکاگو، از چنین طرح هایی استفاده می کند. این مرکز تحقیقاتی از روش های محاسباتی پیشرفته برای درک رشد سریع شهرها استفاده می کند.
این مرکز دانشمندان و دانشمندان دانشگاه شیکاگو و آزمایشگاه ملی آرگون را با معماران، برنامه ریزان شهری و بسیاری دیگر گرد هم می آورد.
مدیر وقت Urban CCD، چارلی کتلت، جمله جالبی را در این سایت آورده است که می گوید شهرهای جهانی به اندازهای سریع در حال رشد هستند که می توانند از ابزارها و روشهای سنتی طراحی و عملیات شهری پیشی بگیرند.
به طور مشابه، دفتر مکانیک شهری جدید بوستون یک برنامه Snow COP ایجاد کرد تا به مدیران شهری کمک کند در هنگام طوفان های برفی به درخواست کمک پاسخ دهند. این آفیس بیش از 20 برنامه دارد که برای بهبود خدمات عمومی طراحی شده اند، مانند برنامه هایی که داده ها را از تلفن همراه ساکنان استخراج می کنند تا پروژه های زیرساختی را بررسی کنند.
اما فقط شهرهای بزرگ نیستند. جکسون، میشیگان، با جمعیتی حدود 32000 نفر، مصرف آب را برای شناسایی خانههای رها شده و بدون سکنه دنبال میکند. کاربردهای علم داده در این زمنیه بسیار گسترده است.
کاربرد علم داده در آموزش
به گفته جوئل کلاین، رئیس سابق مدارس دولتی نیویورک، «وقتی صحبت از تلاقی آموزش و فناوری به میان میآید، قرار دادن رایانه در مقابل یک دانشآموز یا یک کودک، زندگی آنها را آسانتر یا تحصیل آنها را بهتر نمیکند.»
فناوری قطعا نقش بزرگی در آینده آموزش ایفا خواهد کرد، اما اینکه دقیقاً چگونه این اتفاق می افتد هنوز یک سؤال باز است.
درک روزافزونی در میان مربیان و مبشران فناوری وجود دارد که ما به سمت استفاده بیشتر مبتنی بر داده و شخصی سازی از فناوری در آموزش پیش می رویم.
دارل ام وست، مؤسسه بروکینگز، گزارش سال 2012 خود را درباره کلان داده ها و آموزش با مقایسه «محیط های یادگیری» حال و آینده آغاز کرد.
به گفته وست، دانشآموزان امروزی مهارتهای خواندن خود را با خواندن داستانهای کوتاه، شرکت در آزمون یک هفته در میان و دریافت مقالات درجهبندی شده از معلمان بهبود میبخشند.
اما در آینده، وست فرض میکند که دانشآموزان خواندن را از طریق «یک برنامه نرمافزاری رایانهای» یاد خواهند گرفت، رایانه دائماً دادهها را اندازهگیری و جمعآوری میکند، به وبسایتهایی که کمک بیشتری میکنند پیوند میدهد و بازخورد فوری به دانشآموز میدهد.
وست میگوید: «در پایان جلسه، معلمش یک بازخوانی خودکار در مورد [دانشآموزان در کلاس] دریافت میکند که خلاصهای از زمان خواندن، دانش واژگان، درک مطلب و استفاده از منابع الکترونیکی تکمیلی است.»
بنابراین، در اصل، معلمان آینده دانشمندان داده خواهند بود! کلان داده ممکن است بتواند منابع بسیار مورد نیاز را برای ساختارهای آموزشی مختلف فراهم کند.
جمع آوری و تجزیه و تحلیل داده ها پتانسیل بهبود وضعیت کلی آموزش را دارد.
وست میگوید:
به اصطلاح «دادههای بزرگ» امکان استخراج اطلاعات یادگیری را برای بینشهایی در مورد عملکرد دانشآموز و رویکردهای یادگیری فراهم میکند.
به جای تکیه بر عملکرد آزمون دوره ای، مربیان می توانند آنچه را که دانش آموزان می دانند و چه تکنیک هایی برای هر دانش آموز مؤثرتر است تجزیه و تحلیل کنند.
با تمرکز بر تجزیه و تحلیل داده ها، معلمان می توانند یادگیری را به روش های بسیار دقیق تری مطالعه کنند.
ابزارهای آنلاین امکان ارزیابی طیف وسیعتری از اقدامات دانشآموز را فراهم میکنند، مانند مدت زمانی که آنها به خواندن اختصاص میدهند، منابع الکترونیکی را از کجا دریافت میکنند و چقدر سریع بر مفاهیم کلیدی تسلط پیدا میکنند.
- مطالب پیشنهادی
- علم داده چیست؟