Skip to main content
SearchLoginLogin or Signup

۶. اعداد خود صحبت نمی‌کنند

ترجمه توسط امیرحسین پی‌براه

Published onMar 07, 2024
۶. اعداد خود صحبت نمی‌کنند
·

اصل: زمینه محیطی را در نظر بگیرید

فمینیسم داده ادعا می‌کند که داده‌ها خنثی یا بی‌طرف نیستند. آن‌ها محصول روابط اجتماعی نابرابر هستند و در نظرگرفتن زمینه محیطی برای انجام تحلیلِ دقیق و اخلاقی ضروری است.

در آوریل ۲۰۱۴، ۲۷۶ زن جوان از دبیرستان خود در شهر چیبوک1 در شمال نیجریه ربوده شدند. گروه تروریستی بوکوحرام مسئولیت این حملات را بر عهده گرفت. این واقعه خیلی سریع توسط مطبوعات در نیجریه و در سراسر جهان پوشش داده شد. SaharaReporters.com توانایی دولت در حفظ امنیت دانش‌آموزان را زیر سوال برد. سی‌ان‌ان درد و رنج والدین را پوشش داد. «ژاپن‌تایمز» این آدم‌ربایی‌ها را به افزایش ناآرامی‌ها در ایالت‌های شمالی نیجریه مرتبط کرد. و بی‌بی‌سی داستان دختری را که توانسته بود از دست آدم‌ربایان فرار کند، روایت کرد. چند هفته بعد از گزارش‌های اولیه، وبلاگ پرطرفدار «FiveThirtyEight» داستانی داده‌محور با عنوان «ربودن دختران در نیجریه بخشی از یک مشکل بزرگ‌تر است» در مورد این واقعه منتشر کرد2. این داستان از میزان سرسام‌آور آدم‌ربایی‌ها خبر می‌داد. این گزارش مدعی بود که تنها در سال ۲۰۱۳ بیشتر از ۳۶۰۸ مورد دزدیده‌شدن زنان جوان گزارش شده است. در این گزارش نمودارها و نقشه‌هایی آمده بود تا به‌صورت تصویری نشان دهد که آدم‌ربایی‌ها در سطح بی‌سابقه‌ای قرار دارند (شکل ۶.۱).

مدت کوتاهی بعد از انتشار آن گزارش، این وب‌سایتِ خبری مجبور شد تا با یک پیغام عذرخواهی حرف خود را پس بگیرد، چرا که آن اعداد کاملا اشتباه بودند. این سایت از «پایگاه‌داده جهانی رویدادها، زبان و لحن»3 (GDELT) به‌عنوان منبع داده خود استفاده می‌کرد. GDELT یک پروژه بزرگ داده است که توسط کالو لیتارو4 دانشمند علوم اجتماعیِ محاسباتی رهبری می‌شود. این پروژه، گزارش‌های خبری درباره رویدادها را از سراسر جهان جمع‌آوری و آن‌ها را بر اساس نقش‌آفرینان، رویدادها، و موقعیت جغرافیایی تحلیل می‌کند تا مجموعه‌ای جامع از داده‌ها را برای پژوهش‌گران، دولت‌ها و جامعه مدنی فراهم کند. تلاش GDELT تمرکز روی تحلیلِ گزارش‌های رسانه‌ای در مورد مناقشات و درگیری‌ها است؛ مانند این‌که آیا احتمال وقوع درگیری بین دو کشور وجود دارد، یا آیا ناامنی باعث شروع یک جنگ داخلی می‌شود. ارین سیمپسون5، دانشمند علوم‌سیاسی در یک رشته توئیت که بسیار مورد توجه قرار گرفت، با اشاره به «FiveThirtyEight» اذعان کرد که منبع اولیه داده‌های GDELT گزارش‌های رسانه‌ای است6 (شکل ۶.۲). در حال حاضر، پروژه در مرحله‌ای نیست که بتوان از داده‌های آن برای ادعاهای قابل اعتماد در موارد مستقل آدم‌ربایی استفاده کرد. ربودن دختران دانش‌آموز در نیجریه یک رویداد منفرد بود، اما هزاران گزارش در رسانه‌های جهان در مورد آن وجود داشت. اگر چه GDELT با حذف تکرار برخی از این گزارش‌ها به یک رویداد منفرد پرداخت، اما به اشتباه گزارش داد که صدها رویداد آدم‌ربایی در آن روز اتفاق افتاده است. گزارش «FiveThirtyEight» هر یک از آن شبه‌رویدادهای GDELT را به‌عنوان یک رویداد جداگانه آدم‌ربایی شمرده بود.

شکل ۶.۱

در سال ۲۰۱۴، FiveThirtyEight به اشتباه، نمودار تعداد «آدم‌ربایی‌های روزانه» در نیجریه را ترسیم کرد. این سایت خبری متوجه نشد که منبع داده‌ای که از آن استفاده کرده است رویدادها را شمارش نمی‌کند، بلکه گزارش‌های رسانه‌ای در مورد رویدادها را می‌شمارد. یا بعضی از رویدادها و گزارش‌ها را. یا چیز دیگری را حساب می‌کند که ما هنوز مطمئن نیستیم چه چیزی است. تصویر توسط FiveThirtyEight.

این اشتباه برای «FiveThirtyEight» و همچنین برای گزارش‌گر آن مقاله خجالت‌آور بود، اما این اشتباه بعضی از مسائل بزرگ‌تر مرتبط با داده‌هایی که در «فضای آزاد و وحشی» یافت می‌شوند را نمایان کرد. اول از همه، موج و تبلیغاتی که در مورد «کلان‌داده‌ها» وجود دارد باعث شده که پروژه‌هایی مانند GDELT در مورد کامل و دقیق‌بودن داده‌ها و الگوریتم‌های خود اغراق کنند. در وب‌سایت و نشریات، مدیران پروژه گفتند که GDELT «طرحی برای ساختن فهرستی از رفتارها و باورهای اجتماعی مردم در تمام کشورهای جهان است. این طرح همه افراد، سازمان‌ها، مکان‌ها، حساب‌ها، موضوعات، منابع خبری و رویدادهایی که در سراسر جهان رخ می‌دهند را به یک شبکه عظیم متصل می‌کند. این شبکه هر روز آن‌چه که در سراسر جهان اتفاق می‌افتد، زمینه محیطی آن، این‌که چه کسی درگیر آن است، و احساس جهانی در مورد آن را ثبت می‌کند»7. این توصیف بلندبالا، در مورد یک ابزار کلان‌داده‌ایِ کوچک یا ضعیف نیست. به وضوح در مورد «داده‌های گولاخ»8 است.

شکل ۶.۲

دو توییت توسط ارین سیمپسون در پاسخ به تفسیر اشتباه FiveThirtyEight از مجموعه‌داده GDELT. توییت‌های ارین سیمپسون در ۱۳ مه ۲۰۱۴.

«داده‌های گولاخ» یک اصطلاح رسمی و دانشگاهی است که ما، نویسندگان کتاب، آن را برای اشاره به پروژه‌های کلان‌داده‌ای ابداع کردیم که توسط خیالات مردانه درباره فرمانروایی بر جهان از طریق جمع‌آوری و تحلیل داده‌ها اجرا می‌شوند. پروژه‌های داده‌های گولاخ، زمینه محیطی را نادیده می‌گیرند، به اندازه‌های بزرگ علاقه‌مند هستند، و قابلیت‌های فنی و علمی خود را بیش از حد بزرگ‌نمایی می‌کنند9. در مورد GDELT، سوال این است که آیا ما باید ادعای آن را در مورد ارزش کلان‌داده‌ها، به آن شکلی که بیان می‌کنند، بپذیریم یا این‌که داده‌های گولاخ تلاشی است برای فریب سازمان‌های تامین مالی تا مقادیر هنگفتی بودجه تحقیقاتی برای پروژه بگیرند (ما قبلا بارها شاهد کارکرد این ترفند بوده‌ایم).

مستندات فنی GDELT توضیح بیشتری نمی‌دهند که آیا گزارش‌های رسانه‌ای را می‌شمارد (همان‌طور که سیمپسون ادعا کرده است) یا رویدادهای منفرد را. نام پایگاه‌داده مورد استفاده «FiveThirtyEight»، «پایگاه‌داده رویداد GDELT» است، که به نظر می‌رسد رویدادها را می‌شمارد. مستندات GDELT می‌گویند که «اگر رویدادی قبلا دیده شده باشد، دوباره در نظر گرفته نخواهد شد»، که مجددا به نظر می‌رسد که رویدادها شمارش می‌شوند. و یک مقاله تحقیقاتی مرتبط با این پروژه در سال ۲۰۱۳ تایید می‌کند که GDELT رویدادها را می‌شمارد، اما فقط رویدادهایی را که منحصر به نشریات خاص هستند. بنابراین، رویدادها را می‌شمرد، اما با اشاره به آن‌ها. اضافه کنیم که این مستندات هیچ راهنمایی نمی‌کنند که چه نوع سوالات تحقیقاتی برای پرسش از پایگاه‌داده مناسب هستند یا محدودیت‌های ممکن کدام‌ها هستند. اشخاصی مانند سیمپسون که با حوزه تحقیقاتی «تشخیص رویداد» آشنا هستند، یا اعضای گروه GDELT، احتمالا می‌دانند که نباید به (۱) عنوان پایگاه‌داده، (۲) مستندات، و (۳) تبلیغاتی بازاریابی اعتماد کنند. اما چگونه افراد خارجی، به‌خصوص کسانی که تازه وارد این پلتفرم شده‌اند، این موضوع را بدانند؟

ما به GDELT پرداختیم، اما حقیقت این است که این پلتفرم تفاوت چندانی با سایر مخازن داده موجود در وب ندارد. پورتال‌ها، صفحات نظارتی، و وب‌سایت‌های زیادی وجود دارند که امکان دانلود انواع داده‌های دولتی، اداری، و علمی را فراهم می‌کنند. APIهایی وجود دارند که امکان نوشتن برنامه‌های کوچک برای جستجو در مجموعه‌داده‌های عظیم (مثلا همه توییتر) و دانلود آن‌ها را به روشی ساختارمند فراهم می‌کنند10. مجموعه‌داده‌های آزمایشی برای تحلیل شبکه، یادگیری‌ماشین، رسانه‌های اجتماعی، و تشخیص تصویر وجود دارد. همچنین مجموعه‌داده‌های جالب و خلاقانه و خبرنامه‌هایی وجود دارد که خوانندگان را از مجموعه‌داده‌هایی که برای روزنامه‌نگاری یا تحلیل مناسب هستند مطلع می‌کنند11. در این زمان، ما معمولا دسترسی نامحدود به اطلاعات را یک قابلیت ذاتا خوب تصور می‌کنیم. و از بسیاری جهات، واقعا شگفت‌انگیز است که می‌توان به سادگی در گوگل جستجو کرد و اطلاعاتی را در مورد موضوعاتی مانند مسابقات کبوترپرانی، طول دندان خوکچه‌های هندی، یا افرادی که بین سال‌های ۱۵۶۲ تا ۱۷۳۶ در اسکاتلند متهم به جادوگری شده‌اند - و همچنین خروار خروار توئیت، دانلود کرد12.

و اگرچه درسی که «FiveThirtyEight» درباره تایید اطلاعات گرفت به‌جا بود، اما یک مساله بسیار بزرگ‌تر وجود دارد که هنوز به آن پرداخته نشده است: مساله زمینه محیطی. همان‌طور که در طول این کتاب بحث کردیم، یکی از اصول اساسی دیدگاه فمینیستی، «موقعیت‌یافتگی» تمام دانش‌ها می‌باشد. یک روش کمتر علمی برای بیان این مساله، «توجه به اهمیت زمینه محیطی است». هنگام نزدیک‌شدن به هر منبع جدیدی از دانش، پرسیدن سوالاتی در مورد شرایط اجتماعی، فرهنگی، تاریخی، نهادی و مادی که تحتِ آن، دانش تولید شده است، و همچنین در مورد هویت افرادی که آن را ایجاد کرده‌اند، ضروری است، حال چه این منبع یک مجموعه‌داده باشد یا منوی شام (یا مجموعه‌داده از منوهای شام)13. به جای دیدن مصنوعات دانش، مانند مجموعه‌داده‌ها که می‌توانند به‌عنوان ورودی خام به مدل‌های تحلیل آماری داده شوند یا تصویرسازی شوند، رویکرد فمینیستی بر ارتباط داده‌ها با زمینه‌ محیطی که در آن تولید شده‌اند تاکید می‌کند. زمینه محیطی به ما، به عنوان دانشمندان داده، امکان می‌دهد که محدودیت‌های کارکردی داده‌ها و تعهدات اخلاقی مرتبط با آن را بهتر درک کنیم، و همچنین متوجه باشیم که چگونه قدرت و امتیازی که به تولید آن‌ها کمک کرده‌اند، ممکن است حقیقت را پنهان کنند.

قراردادن داده‌ها در فضای وحشی و بی‌قانون وب

مشکل اصلی بسیاری از داده‌هایی که از پورتال‌های وب یا از طریق APIها دانلود می‌شوند این است که بدون زمینه محیطی یا فراداده هستند. اگر خوش‌شانس باشید، ممکن است یک پاراگراف در مورد این‌که داده‌ها از کجا آمده‌اند یا یک فرهنگ‌لغت داده در توضیحِ معنی هر ستون جدول‌داده دریافت کنید. اما بیشتر مواقع، چیزی شبیه شکل ۶.۳ می‌گیرید.

داده‌های نشان داده‌شده در این شکل - که داده‌های باز در مورد بودجه تدارکات دولتی در سائوپائولوی برزیل است - از نظر فنی چندان پیچیده به نظر نمی‌رسند. پیچیدگی کار، فهمیدنِ چگونگی فرآیند کسب‌وکار پشت آن‌ها است. دولت چگونه فرایند مناقصه را اجرا می‌کند؟ چگونه تصمیم می‌گیرد که قرارداد به چه کسی واگذار شود؟ آیا همه مناقصه‌ها در این‌جا منتشر شده‌اند یا فقط آن‌هایی که به قرارداد رسیده‌اند؟ اصطلاحاتی مانند «رقابت»، «قرارداد همکاری»، و «شرایط همکاری» برای ناشر داده چه معنایی دارند؟ چرا چنین تنوعی در طرح شماره‌گذاری نشریات وجود دارد؟ این‌ها تنها بعضی از سوالاتی هستند که ممکن است یک نفر در برخورد اول با این مجموعه‌داده بپرسد. اما، بدون پاسخ‌دادن به حتی برخی از این سوالات - و البته دانش محلی برای درک چگونگی عمل قدرت در این اکوسیستم خاص - شروع یک پروژه کاوشی یا تحلیل داده مشکل خواهد بود.

این سناریو غیرمعمول نیست. بیشتر داده‌ها بدون در نظر گرفتن زمینه محیطی به درگاه محاسباتی ما می‌رسند. وقتی‌که این فقدان زمینه محیطی با نوعی بازارگرمی، مانند آن‌چه که در GDELT و دیگر پروژه‌های داده‌های گولاخ دیدیم، همراه شود، مسئولیت بیشتری ایجاد می‌کند. در واقع، نسخه دهه ۱۹۸۰ از این ادعاها، دونا هاراوی14 را ترغیب کرد تا مفهوم «دانش موقعیت‌یافته»15 را مطرح کند16. کارهای فمینیستی بعدی از مفهوم دانش موقعیت‌یافته بهره گرفتند تا ایده‌هایی درباره اخلاق و مسئولیت در ارتباط با ساخت دانش را به تفصیل بیان کنند17. با توجه به این خط فکری، افرادی که دانش را ارزیابی می‌کنند یا بر آن می‌افزایند موظف هستند که از در نظر گرفته‌شدن «موقعیت‌یافتگی» اطمینان حاصل کنند. برای مثال، کریستین بورگمن18، محقق مطالعات اطلاعات، بر توجه به ارتباط داده‌ها با «زیرساخت‌های دانش» که از آن نشات می‌گیرند، تأکید می‌کند. بورگمن زیرساخت دانش را به‌عنوان یک «جمعیت‌شناسی از افراد، شیوه‌ها، فناوری‌ها، نهادها، اشیاء مادی و روابط» تعریف می‌کند19. به‌طور خلاصه، این زمینه محیطی است که به داده‌ها معنی می‌دهند.

شکل ۶.۳

داده‌های باز در مورد بودجه تدارکات و هزینه‌های استان سائوپائولو در برزیل. اگرچه برزیل دارای برخی از مترقی‌ترین قوانین شفافیت است، اما داده‌هایی که منتشر می‌شوند لزوما همیشه در دسترس یا قابل استفاده برای شهروندان و ساکنان نیستند. در سال ۲۰۱۳، گسیل کراویرو، پژوهش‌گر، با سازمان‌های جامعه مدنی همکاری کرد تا زمینه محیطی مربوط به این داده‌های باز بودجه را کامل‌تر کند. تصاویر از SIGRC برای استان سائوپائولو، برزیل.

عجیب‌تر این‌که برخی از اهداف و اقدامات تحسین‌برانگیز جنبش داده‌های باز، ناخواسته، در جهت عکس ملزومات اخلاقی ارائه زمینه محیطی عمل کرده‌اند. «داده‌های باز»20 این ایده را مطرح می‌کنند که هر کسی می‌تواند آزادانه به داده‌ها دسترسی داشته باشد، از آن‌ها استفاده کند، آن‌ها را تغییر دهد، و برای هر هدفی به اشتراک بگذارد. جنبش داده‌های باز شبکه‌ای غیرمتراکم از سازمان‌ها، دولت‌ها و افراد است. این جنبش به شکلی از اواسط دهه ۲۰۰۰ فعالیت خود را شروع کرد، از زمانی که گروه‌هایی مانند مؤسسه دانش باز21 تأسیس شدند و کمپین‌هایی مانند «آزادسازی داده‌های ما»22 توسط «گاردین» شروع به کار کردند تا از دولت‌ها بخواهند دسترسی آزاد به اسناد عمومی را فراهم کنند23. این اهداف در تئوری خوب هستند: توسعه اقتصادی با ساخت برنامه‌ها و خدمات مبتنی بر داده‌های باز، پیشرفت علمی سریع‌تر با اشتراک‌گذاری دانش توسط پژوهش‌گران، و شفافیت بیشتر برای خبرنگاران، شهروندان، و ساکنان تا بتوانند از اطلاعات عمومی برای پاسخگو نگه‌داشتن دولت‌ها استفاده کنند. این هدف نهایی، بخش اصلی از چارچوب یادداشت معروف اوباما، رئیس‌جمهور پیشین ایالات‌متحده، در مورد شفافیت و دولت باز بود24. در اولین روز کاری خود در دفتر ریاست‌جمهوری، اوباما یادداشتی را امضا کرد که سازمان‌های دولتی را ملزم می‌کرد تا به‌طور پیش‌فرض تمام داده‌ها را به‌صورت باز ارائه کنند25. بسیاری از کشورها، ایالت‌ها، و شهرها این روند را دنبال کردند و با توسعه پورتال‌های داده‌های باز و درج داده‌های باز در سیاست‌های خود، اقداماتی انجام دادند. از سال ۲۰۱۹، ۱۷ کشور و بیش از ۵۰ شهر و ایالت، منشور بین‌المللی داده‌های باز که شش اصل را برای انتشار و دسترسی به داده‌های دولتی مشخص می‌کرد، پذیرفته‌اند26.

با این حال، در عمل، کمبود منابع مالی برای زیرساخت‌های فناوری باعث شده تا دولت‌ها فقط به «بازکردن» اطلاعات - مانند انتشار جدول‌های داده، مثل درخواست‌های مجوز، سوابق بازداشت‌ها، و مناطق سیل‌زده - اولویت دهند، اما قادر به ارائه هیچ زمینه محیطی در مورد منابع داده‌ها نیستند، چه برسد به مستنداتی که امکان دسترسی و استفاده عموم مردم از داده‌ها را فراهم کنند. همان‌طور که تیم دیویس27، محقق، توضیح می‌دهد، داده‌های خام ممکن است برای آغاز یک گفتگو مناسب باشند، اما نمی‌توانند مشارکت و پاسخگویی را تضمین کنند28. واقعیت این است که بسیاری از مجموعه‌های‌داده‌ منتشر شده در پورتال‌ها، بدون‌استفاده مانده‌اند و منتظر کاربرانی هستند تا با انجام کارهای فشرده و دشوار پیچیدگی‌هایی که معنای واقعیِ آن‌ها را پنهان کرده‌اند، رمزگشایی کنند. به این پدیده، «داده‌های زامبی»29 گفته می‌شود: مجموعه‌های‌داده که بدون هدف یا کاربرد واضحی منتشر شده‌اند30.

زامبی‌ها ممکن است برای مغز مضر باشند، اما آیا داده‌های زامبی واقعا مشکل‌ساز هستند؟ کریس اندرسون31، سردبیر مجله «وایرد»32، با قطعیت می‌گوید: «نه». اندرسون در مقاله‌ای با عنوان «پایان تئوری»33 در وایرد در سال ۲۰۰۸ این ادعای نامحبوب را مطرح کرد که «اعداد خود، صحبت می‌کنند»34. ادعای اصلی او این بود که ظهور کلان‌داده‌ها به زودی به دانشمندان داده اجازه می‌دهد تا بدون این‌که نیازی باشد تا تحلیل‌های خود را روی نمونه‌های کوچک محدود کنند، آن‌ها را در مقیاس کل جمعیت انسانی انجام دهند. برای درک ادعای او، باید یکی از مقدمات اساسی آمار را بشناسید.

استنتاج آماری، بر پایه ایده نمونه‌برداری بنا شده است: این‌که شما با مطالعه نمونه‌ای تصادفی و/یا به نمایندگی از کل، بتوانید در مورد یک جمعیت (یا پدیده‌ای دیگری در مقیاس بزرگ‌) نتیجه‌هایی استنباط کنید و سپس آن یافته‌ها را به کل جمعیت (یا پدیده) بسط دهید. فرض کنید می‌خواهید بدانید تمام ۳۲۳ میلیون نفر جمعیت ایالات‌متحده در انتخابات ریاست‌جمهوری آینده به چه کسانی رای می‌دهند. البته نمی‌توانید با همه آن‌ها تماس بگیرید، اما می‌توانید با سه‌هزار نفر از آن‌ها تلفنی تماس بگیرید و سپس با استفاده از این نتایج، پیش‌بینی کنید که دیگران به چه شکل رای خواهند داد. همچنین برای اطمینان از صحت نتایج، به مدل‌سازی آماری و نظریه آماری نیاز است،‌ وگرنه چگونه می‌توانید مطمئن باشید که این سه‌هزار نفر نماینده دقیقی از کل جمعیت هستند؟ این‌جاست که اندرسون دخالت می‌کند: جایی که داده‌های کل جمعیت را جمع‌آوری کرده باشیم، دیگر نیازی به مدل‌سازی یا هر «تئوری» دیگری برای آزمایش و سپس اثبات نداریم. ما می توانیم مستقیما به خود داده‌ها نگاه کنیم.

اکنون، زمان آن گذشته است که مقاله‌ای بنویسید و ادعا کنید که ساختار پایه تحقیقات علمی منسوخ شده است و انتظار داشته باشید که هیچ مخالفتی با آن نمی‌شود. آندرسون این مقاله را به شکل تحریک‌آمیزی نوشت و پاسخ‌ها و بحث‌های متعددی را برانگیخت، از جمله، این ایده که این یک شیوه‌ای «جدید» از تفکر است، به چالش کشیده شد (در حالی‌که برای مثال، در اوایل قرن هفدهم، فرانسیس بیکن35 شکلی از استدلال استتناجی را مطرح کرد، که بر اساس آن دانشمند، داده‌ها را جمع‌آوری و تحلیل می‌کرد و بعد از آن فرضیه‌ای را ارائه می‌داد)36. یکی از مثال‌های مهم مورد نظر اندرسون الگوریتم جستجوی گوگل است. الگوریتم‌های جستجوی گوگل نیاز به فرضیه ندارند که «چرا» برخی از وب‌سایت‌ها تعداد بیشتری پیوند ورودی (صفحاتی که به آن سایت پیوند دارند) نسبت به دیگران دارند؛ آن‌ها فقط نیاز دارند روشی برای تعیین تعداد پیوندها داشته باشند تا از آن عدد برای تعیین محبوبیت و ارتباط سایت‌ها در نتایج جستجو استفاده کنند. اندرسون تاکید می‌کند که ما نیازی به علت‌ومعلول نداریم: «هم‌وابستگی کافی است»37. اما چه اتفاقی می‌افتد وقتی تعداد پیوندها، هم‌وابستگی قوی با نتایجی با محتواهای جنسیتی، نژادپرستانه، و مستهجن داشته باشند؟

تاثیر تبعیض‌نژادی، تبعیض‌جنسی و استعمارگرایی دقیقا همان چیزی است که در کتاب «الگوریتم‌های سلطه» توصیف شده است. در این کتاب، سوفیا یوموجا نوبل38، محقق علوم‌اطلاعاتی، به کلیشه‌های آزاردهنده‌ در مورد زنان سیاه و لاتین‌تبار پرداخته است که توسط الگوریتم‌های جستجو، مانند گوگل، تداوم یافته. همان‌طور که در فصل ۱ بحث شد، نوبل نشان داد که نتایج جستجوی گوگل صریحا با تبعیض‌نژادی، تبعیض‌جنسی، و استعمارگرایی موجود در جامعه هماهنگ نیست؛ این‌که خودِ جامعه «باعث» بروز نتایجی با تبعیض‌‌های نژادی و جنسی می‌شود. علاوه بر این، جستجوی گوگل با مرتبط کردن رتبه‌بندی نتایج با تعداد وب‌سایت‌هایی که به آن‌ها پیوند داده‌اند، این دیدگاه‌های سلطه‌گرایانه را تقویت می‌کند. ترتیب رتبه‌بندی، به نوبه خود، کاربران را تشویق می‌کند تا به کلیک‌کردن روی همان وب‌سایت‌ها ادامه دهند. در این‌جا، توجه به هم‌وابستگی بدون درنظر گرفتن زمینه محیطی، به وضوح ناکافی است، زیرا تبعیض‌نژادی و تبعیض‌جنسی را دوباره به چرخه می‌اندازد و نابرابری را تداوم می‌بخشد39.

دلیل دیگری که لزوم در نظرگرفتن زمینه محیطی را برای درک هم‌وابستگی نشان می‌دهد، نحوه نفوذ تبعیض‌نژادی، تبعیض‌جنسی و سایر نیروهای سلطه‌گر به محیط‌هایی است که در آن‌ها داده‌ها جمع‌آوری می‌شوند. مثالی که در ادامه می‌آید مربوط به تجاوز جنسی و خشونت است. اگر نمی‌خواهید درباره این موضوعات بخوانید، می‌توانید از ادامه خواندن این بخش صرفنظر کنید و به بخش بعدی بروید.


در آوریل ۱۹۸۶، جین کلری40، دانشجوی دانشگاه لیهای41، در اتاقش در خوابگاه مورد تجاوز جنسی قرار گرفت و به قتل رسید. والدین او بعدها متوجه شدند که در سه سال گذشته ۳۸ جنایت خشونت‌آمیز در لیهای رخ داده، اما هیچ‌کسی به آن‌ها، به‌عنوان داده‌های مهمی که باید در اختیار والدین یا عموم قرار گیرد، توجه نکرده بود. خانواده کلریز کمپینی را برای بهبود جمع‌آوری داده‌ها و اطلاع‌رسانی درباره جرایم در محیط دانشگاه‌ها راه‌اندازی کرد که عمل‌کرد موفقی داشت: قانون ژان کلری42 که در سال ۱۹۹۰ تصویب شد، همه کالج‌ها و دانشگاه‌های ایالات‌متحده را ملزم می‌کرد تا آمار جرایم در محیط دانشگاه را در دسترس عموم قرار دهند43.

پس ما یک مجموعه‌داده ملی به‌ظاهر جامع در مورد یک موضوع عمومی داریم. در سال ۲۰۱۶، سه دانشجوی روزنامه‌نگاری داده کلاس کاترین در کالج امرسون44 - پاتریک تورفی45، مایکلا هالنون46 و جیلیان میهان47 - داده‌های قانون کلری را دانلود کردند و به امید این‌که درک بهتری از فرهنگ تجاوز جنسی گسترش‌یافته در دانشگاه‌های ایالات‌متحده داشته باشند، به پردازش آن پرداختند48. اما بلافاصله سردرگم شدند. به نظر می‌رسید که تجاوز جنسی در دانشگاه ویلیامز (دانشگاه هنرهای آزادِ کوچک و ثروتمند در منطقه روستایی ماساچوست) فراگیر بود، در حالی‌که در دانشگاه بوستون (BU) (یک مؤسسه تحقیقاتی بزرگ در مرکز شهر) موارد روی‌داده به نسبت اندازه و جمعیت دانشگاه، بسیار کمتر بود (ناگفته نماند که چندین مورد تجاوز جنسی معروف در BU در سال‌های اخیر خبرساز شده بود49). دانشجویان به این اعداد مشکوک شدند و بررسی بیشتری کردند. با مقایسه داده‌های قانون کلری با نظرسنجی‌های ناشناس درباره محیط دانشگاه (شکل ۶.۴)، مشورت با کارشناسان، و مصاحبه با افرادی که تجربه تجاوز داشته‌اند، متوجه شدند که واقعیت «برعکس» تصویری است که داده‌های قانون کلری نشان می‌دهد. بسیاری از دانشگاه‌هایی که تعداد بیشتری از تجاوز جنسی برای آن‌ها گزارش شده بود، در واقع مکان‌هایی بودند که منابع سازمانی بیشتری برای حمایت از بازماندگان به آن‌ها تخصیص داده بودند50.

این مساله را درباره دانشگاه‌هایی که تعداد موارد تجاوز جنسی کمتری دارند، نیز می‌توان با توجه به زمینه محیطی موجود توضیح داد. قانون کلری، کالج‌ها و دانشگاه‌ها را ملزم می‌کند که گزارش‌های سالانه تجاوز جنسی و سایر جرایم دانشگاهی را ارائه کنند و جریمه‌های مالی سختی برای گزارش نکردن آن‌ها در نظر گرفته شده است. اما این اعداد از سوی خود دانشگاه‌ها گزارش می‌شوند. علاوه بر این، دانشگاه‌ها انگیزه‌های مالی قوی دارند که این موارد را «گزارش نکنند»51. هیچ دانشگاهی نمی‌خواهد به دولت - چه برسد به والدین دانشجویان آینده‌اش - بگوید که نرخ تجاوز جنسی در محیط دانشگاه بالاست. این مساله توسط این حقیقت تشدید می‌شود که بازماندگان تجربه تجاوز جنسی، به دلیل سوگیری‌های اجتماعی، درد و رنج تجربه مجدد آن‌ها، و کمبود حمایت اجتماعی و روان‌شناختی،‌ اغلب نمی‌خواهند صریحا به آن اتفاق اشاره کنند. فرهنگ عمومی به افرادی که تجربه تجاوز جنسی داشته‌اند نشان داده که به تجربیات آن‌ها با مراقبت برخورد نمی‌شود و در واقعیت اگر تصمیم به افشای تجربیات خود بگیرند ممکن است با صدمه، سرزنش، و آسیب روانی بیشتری مواجه شوند52.

شکل ۶.۴

دانشجویان رشته روزنامه‌نگاری داده در دانشگاه امرسون نسبت به داده‌های گزارش‌شده قانون کلری شک کردند و تصمیم گرفتند نتایج قانون کلری را با نتایج نظرسنجی ناشناس محیط دانشگاه درباره تماس جنسی بدون‌رضایت مقایسه کنند. اگرچه هر دو مجموعه‌داده از کیفیت داده مسائلی داشتند، اما دانشجویان ادعا می‌کنند که اگر مؤسسات، از افرادی که تجربه تجاوز جنسی داشتند، پشتیبانی کافی کنند، اختلاف بین داده‌های گزارش‌شده قانون کلری و نسبت دانشجویانی که تماس جنسی بدون رضایت را گزارش می‌کنند، کمتر خواهد بود. با تشکر از پاتریک تورفی، مایکلا هالنون، و جیلیان میهان، سال ۲۰۱۶.

زمانی که نژاد و هویت‌های جنسی در نظر گرفته شوند، ناهمسانی‌های قدرت بیشتری در داده‌ها نمود پیدا می‌کنند. برای مثال، در سال ۲۰۱۴، ۲۳ دانشجو شکایتی علیه دانشگاه کلمبیا ثبت کردند و مدعی شدند که دانشگاه کلمبیا به شکلی نظام‌مند در رسیدگی به موارد تجاوز و خشونت جنسی گزارش‌شده توسط دانشجویان LGBTQ کوتاهی کرده است. زوئی ریدولفی استار53، دانشجوی سرشناسی که در این شکایت از او نام برده شده، به «دیلی بیست»54 گفت: «ما نا‌آگاهی زیادی در مورد دینامیک خشونت جنسی در جامعه کوئیر می‌بینیم، حتی از سوی افرادی که واقعا باید در این مسائل آموزش دیده باشند»55.

به بیان ساده، در «تنظیمات داده»56 عدم‌توازن قدرت وجود دارد - اشاره به اصطلاح ابداعی یانی لوکیساس که در فصل ۵ در مورد آن بحث کردیم - بنابراین نمی‌توانیم اعداد موجود در مجموعه‌داده را به‌صورت سطحی و بدون بررسی بپذیریم. فقدان این درک از قدرت در فضای مجموعه‌های‌داده و اجازه به این‌که اعداد «خود صحبت کنند» داستانی را روایت می‌کند که نه تنها غلط است، بلکه ممکن است از آن داستان برای پاداش‌دادن به دانشگاه‌هایی که به‌شکل نظام‌مندی اطلاع‌رسانی کمتری انجام می‌دهند و محیط‌های دشواری را برای بازماندگان ایجاد می‌کنند، استفاده شود. کم‌شمردن تعمدی موارد تجاوز جنسی منجربه دریافت پاداش برای گزارش‌های نادرست می‌شود. و سکوت در مورد تجاوز جنسی ادامه دارد: مدیریت ساکت است، فرهنگ دانشگاه ساکت است، مجموعه‌داده‌ها ساکت است57.

داده‌های خام، داده‌های پخته‌شده، پختن

همان‌طور که توسط دانشجویان دانشگاه امرسون نشان داده شد، یکی از اشتباهات مهم تحلیل که اجازه می‌دهد تا «اعداد خود صحبت کنند» این فرضیه است که داده‌ها ورودیِ «خام» در نظر گرفته می‌شوند. اما همان‌طور که لیزا گیتلمن58 و ویرجینیا جکسون59 به‌شکلی به‌یادماندنی توضیح داده‌اند، داده‌هایی که وارد پروژه‌های تحقیقاتی می‌شوند، از قبل کاملا پخته شده‌اند و ماحصل مجموعه پیچیده‌ای از شرایط اجتماعی، سیاسی و تاریخی هستند. آن‌ها ادعا می‌کنند که اصطلاح «داده‌های خام» یک مغلطه است، درست مانند اصطلاح «میگوی غول‌آسا»60 که تناقضی در معنی است61. اما دسته‌ای از «خلاقان داده»62 در حال ظهور هستند که وجودشان به توانایی آن‌ها در «تغییر زمینه محیطی» استوار است، یا به عبارتی، توانایی خلاقانه آن‌ها در استخراج و ترکیب داده‌ها برای تولید بینش‌های جدید و همچنین کار در حوزه‌های گوناگون. این گروه شامل دانشمندان داده، روزنامه‌نگاران داده، هنرمندان و طراحان داده، پژوهش‌گران و کارآفرینان می‌باشد - به‌طور خلاصه، تقریبا همه کسانی که در حال حاضر با داده‌ها کار می‌کنند. آن‌ها غریبه‌هایی در مجموعه‌داده‌ها هستند که در فصل ۵ از آن‌ها صحبت کردیم.

این دسته جدید خلاقان داده برای تولید کاری که ارزش و بینش جدیدی از استخراج و ترکیب مجموعه‌‌های‌داده مفهومی نامرتبط می‌سازد، پاداش خوبی دریافت می‌کنند. برای مثال، می‌توان به پروژه Flu Trends گوگل که اکنون متوقف شده است، اشاره کرد، که سعی می‌کرد نتایج جستجوی مردم در مورد نشانه‌های آنفلوآنزا را به وقوع واقعی آنفلوآنزا در مناطق جغرافیایی مرتبط کند63. یا پروژه‌ای از روزنامه «سان سنتیل»64، در فورت لادردیل65، فلوریدا، که داده‌های پلاک خودروهای پلیس را با سوابق الکترونیکی عوارض ترکیب می‌کرد تا ثابت کند که پلیس‌ها به شکل نظام‌مند و خطرناکی در بزرگراه‌های فلوریدا با سرعت بالا رانندگی می‌کنند66. گاهی‌اوقات انجام این ترکیب‌های خلاقانه نتایج خوبی دارند. «سان سنتیل» برای گزارش‌های خود برنده جایزه پولیتزر67 شد و تعدادی از پلیس‌هایی که با سرعت بالا رانندگی می‌کردند اخراج شدند. اما گاهی اوقات نتایج کاملا سرراست نیستند. پروژه Flu Trends گوگل خوب کار می‌کرد، تا این‌که عملکردش خراب شد، و تحقیقات بعدی نشان داد که جستجوهای گوگل نمی‌توانند به‌عنوان یک ارتباط یک‌به‌یک برای پدیده‌های واقعی آنفولانزا استفاده شوند، زیرا آن‌ها به عوامل خارجی، مانند گزارش رسانه‌ها در مورد آنفولانزا، حساس هستند68.

دانشمندان داده به‌جای این‌که داده‌ها را به‌صورت سطحی بررسی کنند تا به بینشی در آینده برسند، می‌توانند ابتدا زمینه محیطی، محدودیت‌ها، و صحت داده‌های مورد استفاده را بررسی کنند. به عبارت دیگر، یک استراتژی فمینیستی برای در نظر گرفتن زمینه محیطی، توجه به فرآیند «پخته‌شدن» است که داده‌های «خام» را تولید می‌کند. به‌عنوان مثال، دِرِک روث69 و یورگن فافر70، دانشمندان علوم اجتماعی محاسباتی، در مورد محدودیت‌های استفاده از داده‌های رسانه‌های اجتماعی برای دریافت بینش رفتاری نوشته‌اند: داده‌های اینستاگرام بیشتر در مورد جوانان است، زیرا اکثر کاربران آن جوانان هستند. در داده‌های ردیت71، تعداد نظرات مردان بیشتر از زنان است، زیرا اکثر اعضای ردیت مردان هستند. آن‌ها به‌وضوح نشان دادند که داده‌های تحقیقاتی حاصل از این منابع توسط نمونه‌گیری شکل می‌گیرند، زیرا شرکت‌هایی مانند ردیت و اینستاگرام از روش‌های خاص خود برای ارائه داده‌های‌شان به پژوهش‌گران استفاده می‌کنند و این روش‌ها هرگز افشا نمی‌شوند72. در تحقیق مرتبط دیگری، دوین گافنی73 و جی. ناتان ماتیاس74 مجموعه شناخته‌شده‌ای را که ادعا می‌کرد «همه نظرات دردسترس عموم ردیت» را شامل می‌شود، بررسی کردند75. کار آن‌ها نشان داد که این مجموعه اطلاعاتِ به‌ظاهر کامل در واقع حداقل ۳۶ میلیون نظر و ۲۸میلیون ارسال را دربرنمی‌گیرد.

بررسی و تحلیل آن چیزی که از یک مجموعه‌داده مغفول مانده، روشی قدرتمند است برای رسیدن به بینشی در مورد فرآیند پختن (آماده‌سازی) داده‌ها و پدیده‌ای که ادعای نمایندگی آن را دارد. در برخی از کارهای تاریخی لورن، او آشپزانی را بررسی کرده که در مجموعه‌ای شامل ۳۰هزار نامه توماس جفرسون76 ثبت شده‌اند (یا نشده‌اند)،77 شکل ۶.۵. احتمالا برخی می‌دانند که جفرسون به‌عنوان «آشپز-بنیان‌گذار عاشق غذا» کشور شناخته می‌شود78. اما کمتر کسی می‌داند که او برای تهیه غذاهای مشهور خود از یک کادر اجیرشده در آشپزخانه استفاده می‌کرد79. در «تصویر غیبت»80، لورن از «شناسایی موجودیت نام‌گذاری‌شده»81، که یک تکنیک پردازش زبان طبیعی است، استفاده کرد تا مکان‌هایی که جفرسون در مکاتبات شخصی خود از این افراد نام برده بود را شناسایی کند. او سپس با استفاده از تحلیل شبکه اجتماعی، میزان روابط بین آن‌ها را تخمین زد. نتیجه این کار، تصویری از تمام کارهایی است که کادر اجیر‌شده جفرسون برای آماده‌کردن غذاهای او انجام داده‌اند، اما او این کار را به‌طور مستقیم - حداقل در متن نامه‌ها - تایید نکرده است.

شکل ۶.۵

در «تصویر غیبت» (۲۰۱۳)، لورن از روش‌های یادگیری‌ماشین برای شناسایی نام افرادی که توماس جفرسون در مکاتبات شخصی خود از آن‌ها نام برده استفاده کرده و سپس روابط بین آن‌ها را به تصویر کشیده است. نتیجه به دست آمده تمام کارهایی را که کادر اجیرشده برای تهیه غذاهای جفرسون انجام داده‌اند، نشان می‌دهد، اما خود جفرسون مستقیما آن را تأیید نکرد. تصویرسازی توسط لورن کلین.

در یک مقیاس بزرگ‌تر، دانشمندان کامپیوتر و مورخان دانشگاه استنفورد از «جاسازی‌ کلمه»82 - که یکی دیگر از تکنیک‌های یادگیری‌ماشین است - استفاده کردند تا کلیشه‌های جنسیتی و قومیتی را در طول قرن بیستم پیدا کنند83. این تیم با بررسی چند مجموعه‌داده بزرگ که از منابعی مانند گوگل بوکز84 و «نیویورک‌تایمز»85 گرفته شده بودند، نشان دادند که تا دهه ۱۹۶۰ کلماتی مانند «باهوش، منطقی، و متفکر» به شدت با مردان مرتبط بودند. با این‌حال، از آن زمان به بعد، استفاده از این کلمات به‌طور پیوسته برای زنان افزایش یافته است. کار این تیم که به نمونه‌ای قابل‌توجه از تلاش برای اندازه‌گیری میزان تاثیرات جنبش‌های اجتماعی تبدیل شده، این تغییرات را به «جنبش زنان در دهه‌های ۱۹۶۰ و ۱۹۷۰» نسبت داده است. این مقاله از منظری دیگر نیز قابل‌توجه است چرا که صریحا اذعان می‌کند که دامنه تحلیل آن‌ها به جنسیت دودویی محدود شده، زیرا فقط صفات مربوط به واژه‌های «مرد» و «زن» را بررسی کرده است. علاوه بر این، پژوهش‌گران سعی نکردند ادعا کنند که داده‌ها نمایان‌گر نحوه وجود زنان و مردان «هستند»، و همچنین تلاش نکردند «سوگیری‌ها» را حذف کنند تا بتوانند برنامه‌های «بی‌طرفانه» را در حوزه‌های دیگر توسعه دهند. آن‌ها داده‌ها را همان‌طور که بودند - به‌عنوان نشانگرهای فرهنگی از تغییرات در چهره مردسالاری و تبعیض‌نژادی - در نظر گرفتند و مورد بررسی قرار دادند.

چگونه می‌توانیم کارهای بیشتری از این دست انجام دهیم - کاری که داده‌ها را به‌عنوان چیزی که قبلا «پخته‌شده» در نظر می‌گیرد و سپس از آن داده‌ها برای فاش‌ساختن سوگیری‌های ساختاری استفاده می‌کند؟ متاسفانه پاسخ ما به کریس اندرسون این است که ما به تئوری بیشتر نیاز داریم، نه کمتر. بدون تئوری، طراحان نظرسنجی و تحلیل‌گران داده درباره چیزهایی که در حال اندازه‌گیری و مدل‌سازی هستند، باید بر ادراک خود مبتنی بر «عقل سلیم» اتکا کنند. این وابستگی به «عقل سلیم» مستقیما به سوگیری منجر می‌شود. مورد GDELT را در نظر بگیرید. دهه‌ها تحقیق نشان داده که رویدادهای پوشش‌داده‌شده توسط رسانه‌ها، بر اساس آن‌چه که «ارزش‌های خبری» نامیده می‌شود، انتخاب و قالب‌بندی می‌شوند و شکل می‌گیرند: ارزش‌هایی که تصاویر و ایدئولوژی‌های موجود را تایید می‌کنند86. پس GDELT واقعا چه چیزی را اندازه‌گیری می‌کند؟ چه وقایع‌ای در جهان رخ می‌دهد یا سازمان‌های خبری بین‌المللی بزرگ توجه خود را به چه چیزی معطوف می‌کنند؟ مورد دوم ممکن است مهمترین داستانی باشد که در پایگاه داده GDELT درونی‌سازی شده باشد. اما برای بیرون کشیدن آن، به زمینه محیطی و قالب‌بندی عمیقی نیاز است.

عدم اعتراف به زمینه محیطی، بازی قدرت است برای اجتناب از تشخیص قدرت. این راهی است برای تاکید بر اقتدار و تسلط بدون نیاز به برخورد با پیچیدگی‌های واقعیت داده‌ها: اقتصاد سیاسی اخبار در نمونه‌های GDELT، سلسله‌مراتب‌های جنسیتی تثبیت‌شده، و محیط‌های گزارش‌دهی ناقص داده‌های کلری، و موارد دیگر. اما زمینه محیطی عمیق و محاسبات با هم ناسازگار نیستند. برای مثال، SAFElab یک آزمایشگاه تحقیقاتی در کلمبیا است که توسط دزموند پاتون87، محقق و مددکار اجتماعی، اداره می‌شود و از هوش‌مصنوعی استفاده می‌کند تا روش‌های مورد استفاده جوانان رنگین‌پوست برای مقابله با خشونت در فضای آنلاین و آفلاین را بررسی کند. او و تیمی از دانشجویان مددکاری اجتماعی از داده‌های توییتر استفاده کردند تا خشونت‌گروهی در شیکاگو را بشناسند و از رخ دادن آن‌ها پیشگیری کنند. داده‌های آن‌ها بزرگ و از نظر فنی و اجتماعی پیچیده‌ هستند. این تیم کاملا از تاریخچه استفاده از فناوری توسط نهادهای مجری قانون برای نظارت بر افراد سیاه آگاه است و اعتراف می‌کند که نهادهای مجری قانون همچنان از توییتر برای این منظور استفاده می‌کنند. علاوه بر این، زمانی که پاتون تحقیقاتش را آغاز کرد، با مشکل اساسی‌تری مواجه شد: «وقتی جوانان حرف می‌زدند نمی‌فهمیدم چه می‌گویند، تمام!»88 این در حالی است که پاتون خود سیاه است، در شیکاگو بزرگ شده و سال‌ها در بسیاری از همین محله‌ها کار کرده است. او همچنین توضیح می‌دهد که «برای من روشن شد که ما باید با رویکرد عمیق‌تری به داده‌های رسانه‌های اجتماعی نگاه کنیم تا بتوانیم واقعیت‌های فرهنگ، زمینه محیطی، و ظرافت‌ها را به درستی درک کنیم، و دلیل اصلی این کار جلوگیری از تفسیر اشتباه مطالب مطرح شده است»89.

روش پاتون برای درنظر گرفتن فرهنگ، زمینه محیطی، و جزئیات، مبتنی بر تماس مستقیم و تمرکز بر دیدگاه جوانانی بود که رفتارهای آن‌ها در گروه او مورد مطالعه بود. پاتون و ویلیام فری90، دانشجوی دکترا، چند جوان را که پیش‌تر با گروه‌های تبهکار در ارتباط بودند، استخدام کردند تا به‌عنوان متخصص حوزه، روی این پروژه کار کنند. این کارشناسان زیرمجموعه‌ای از میلیون‌ها توییت را کدگذاری و دسته‌بندی کردند، و سپس تیمی از دانشجویان مددکاری اجتماعی را آموزش دادند تا کدنویسی را به‌عهده بگیرند. این فرایند طولانی بود و چالش‌هایی همراه داشت. این امر باعث شد که پاتون و فری روش جدیدی برای «گوش‌دادن عمیق»91 بسازند که آن را «تحلیل زمینه‌ای رسانه‌های اجتماعی» نامیدند، تا به دانش‌آموزان برنامه‌نویس کمک کنند سوءگیری‌های خود را کاهش دهند و به مفهوم مورد اشاره هر توییت نزدیک‌تر شوند92. مرحله بعد، آموزش یک مدل یادگیری‌ماشین دسته‌بندی برای برچسب‌گذاری خودکار توئیت‌ها بود، تا به این ترتیب پروژه بتواند همه چندمیلیون توئیت مجموعه‌داده را دسته‌بندی کند. پاتون می‌گوید: «ما این الگوریتم را به شکلی آموزش دادیم که همانند یک مرد جوان آفریقایی-آمریکایی در جنوب شیکاگو فکر کند»93.

این رویکرد نشان می‌دهد که چگونه می‌توان زمینه محیطی را در یک پروژه هوش‌مصنوعی ادغام کرد و این کار می‌تواند با توجه به «دانش تحت‌سلطه»94 صورت گیرد. اصطلاح (دانش تحت‌سلطه) اشکالی از دانش را توصیف می‌کند که از موسسات جریان اصلی و گفتگوهایی که آن‌ها ترویج می‌کنند، بیرون رانده شده باشند. برای توضیح این پدیده، پاتریشیا هیل‌کالینز مثالی می‌زند از این‌که چگونه زنان سیاه در طول تاریخ به دلیل طرد شدن از «نهادهای اجتماعی تحت کنترل مردان سفید» به «موسیقی، ادبیات، مکالمات روزانه، و رفتار روزمره» روی آوردند95. این موسسات شامل دانشگاه‌ها یا - یک مثال اخیر مطرح‌شده توسط ترسی مک‌میلان کاتوم96، جامعه‌شناس - بخش نوشته‌های تحلیلی روزنامه «نیویورک تایمز» هستند97. و از آن‌جایی که آن‌ها دانش خود را در مکان‌هایی خارج از موسسات جریان اصلی به گردش در می‌آورند، آن دانش توسط آن موسسات دیده یا شناسایی نمی‌شود: «تحت‌سلطه» قرار می‌گیرد.

ایده دانش تحت‌سلطه در مورد سایر گروه‌های اقلیت‌شده نیز صدق می‌کند، از جمله سیاهان شیکاگو که پاتون دنبال فهم آن‌ها بود. رویکردی که به زمینه محیطی توجه نکند، منجر به خطاهای قابل‌توجهی می‌شود. برای مثال، توییتی مانند «نه دوستتو کشتم و نه دوستتو می‌شناسم رفیق»98 احتمالا به‌علت استفاده از کلمه «کشتن»، به‌عنوان پستی پرخاش‌گرانه یا خشن دسته‌بندی می‌شود. اما فری و پاتون، با تکیه به دانش مردان جوان سیاهی که در پروژه استخدام شده بودند، توانستند نشان دهند که بسیاری از توئیت‌هایی مانند این به اشعار آهنگی اشاره دارند؛ در این مثال به لیل دورک99، خواننده رپ اهل شیکاگو. به عبارت دیگر، این توئیت‌ها، فرهنگی را به اشتراک می‌گذارند، نه این‌که بیان‌کننده تهدیدی باشند100.

در مورد SAFElab، مانند تمام پروژه‌های تحقیقاتی که به دنبال استفاده از دانش تحت‌سلطه هستند، زیرساخت‌های انسانی و ارتباطی قابل‌توجهی نیز مورد نیاز بود. فری و پاتون با افراد و سازمان‌های موجود در جامعه مورد مطالعه خود ارتباطات بلندمدتی ساختند. در واقع، فری در آن اجتماع زندگی و کار می‌کرد. علاوه بر این، فری و پاتون هر دو به‌عنوان مددکار اجتماعی آموزش دیده بودند. این مساله را می‌توان در کارهای محاسباتی آن‌ها دید که بر منشور اخلاقی مددکاران اجتماعی استوار بود101. آن‌ها به جای آن‌که محاسبات را جایگزین روابط انسانی کنند، از هوش‌مصنوعی به‌عنوان واسطه‌ای برای ایجاد شکل جدیدی از درک انسانی در میان ناهمسانی‌های قدرت استفاده کردند. این نوع نوآوری‌های اجتماعی اغلب در مدل تک‌شاخ-جادوگر-نابغه علم داده مورد توجه قرار نمی‌گیرد. (برای اطلاعات بیشتر در مورد تک‌شاخ‌ها، به فصل ۵ مراجعه کنید.) همان‌طور که پاتون می گوید، «ما برای انتشار مقاله در مورد این کار در انجمن‌های علم داده با چالش‌های زیادی روبرو بودیم، زیرا برای من بسیار واضح است که آن‌ها خیلی دیر به زمینه محیطی توجه می‌کنند. نه این‌که اهمیتی نمی‌دهند، اما نوآوری یا تاثیر عدالت‌اجتماعی که این کار می‌تواند داشته باشد را نمی‌بینند»102. امیدواریم که این رویکرد در آینده تغییر کند، زیرا کار SAFElab و دیگران، توانایی فوق‌العاده ترکیب کار اجتماعی و علم داده را نشان می‌دهند.

انتقال و بیان زمینه محیطی

در نظرگرفتن زمینه محیطی فقط در مراحل دریافت یا تحلیل داده‌ها نیست که اهمیت دارد. زمینه محیطی در قاب‌بندی و انتقال و بیان نتایج نیز نقش دارد. سناریویی را در نظر بگیرید. در این سناریو، شما یک روزنامه‌نگار داده هستید و سردبیر از شما خواسته است تا داستانی کوتاه و مصور درباره یک مطالعه تحقیقاتی که اخیرا صورت گرفته است آماده کنید: «نابرابری در ارجاع و تشخیص سلامتِ روان در خدماتِ درمانِ روانِ زندانِ نیویورک»103. این مطالعه با بررسی سوابق پزشکی بیش از ۴۵هزار نفری که برای اولین بار زندانی شده‌اند نشان می‌دهد که برخی از گروه‌ها با احتمال بیشتری خدمات درمانی دریافت می‌کنند، در حالی‌که برخی دیگر از گروه‌ها با احتمال بیشتری مجازات شوند. به‌طور مشخص‌تر، افراد سفید با احتمال بیشتری خدمات درمان روان دریافت می‌کنند، در حالی که سیاهان و لاتین‌تبارها با احتمال بیشتری به سلول انفرادی فرستاده می‌شوند. پژوهش‌گران برخی از این اختلاف‌ها را به میزان تشخیص متفاوتی که این گروه‌ها قبل از وارد شدن به زندان تجربه کرده‌اند، نسبت می‌دهند، اما برخی نیز این اختلاف‌ها را با تبعیض درون سیستم زندان مرتبط می‌دانند. در هر دو صورت، نابرابری‌های نژادی و قومی محصول تبعیض‌نژادی ساختاری هستند.

تفاوت بین دو نمودار نشان داده‌شده در شکل ۶.۶ را در نظر بگیرید. تنها تفاوت این دو در عنوان و قاب‌بندی نمودارها است. شما کدام یک از این نمودارها را تهیه می‌کنید؟ کدام یک را باید تهیه کنید؟ نمودار اول - سلامت روان در زندان - روش رایجی را برای بیان و انتقال نتایج تحلیل داده‌ها نشان می‌دهد. عنوان نمودار «به‌ظاهر» خنثی و بدون سوءگیری است. این یک نمودار درباره میزان تشخیص بیماری روان افراد زندانی است که بر اساس نژاد و اقوام تقسیم شده‌اند. در این نمودار از مردم به‌عنوان «زندانی» یاد شده است، زبانی که این مطالعه از آن استفاده کرده است. عنوان نمودار، به نژاد یا قومیت، تبعیض‌نژادی، یا نابرابری‌های سلامت اشاره نمی‌کند، و همچنین اشاره‌ای به معنای داده‌ها ندارد. اما اینجا سوال‌های دیگری در مورد زمینه محیطی مطرح می‌شود. آیا شما فقط همین چهار عددی را که در نمودار می‌بینیم نشان می‌دهید؟ یا شما زمینه محیطی را که این اعداد از آن بیرون آمده‌اند، نمایش می‌دهید؟

شکل ۶.۶

دو تصویر از یک تحلیل داده‌. داده‌های این نمودار مربوط به یک مطالعه درباره افرادی است که برای اولین بار در زندان‌های نیویورک در دوره ۲۰۱۱ تا ۲۰۱۳ زندانی شدند. نمودارها توسط کاترین دیگنازیو. داده‌های فاتوس کابا و همکاران، «نابرابری در ارجاع و تشخیص سلامت روان در خدماتِ درمانِ روانِ زندانِ نیویورک».

مطالعه‌ای که این اعداد را تولید کرده‌اند، شواهد قانع‌کننده‌ای ارائه می‌کند مبنی بر این‌که به تعداد تشخیص بیماری‌ها، به دلیل تبعیض‌نژادی و قومیتی، باید شک کنیم. نمودار اول نه تنها در انتقال این موضوع ناتوان است بلکه فعالانه از یافته اصلی تحقیق خود دوری می‌کند. علاوه بر این، استفاده از اصطلاح «زندانی» برای اشاره به کسانی که در زندان هستند، غیرانسانی است، به ویژه در فضای حبس‌های گروهی ایالات‌متحده104. حال، نمودار دوم را در نظر بگیرید: تبعیض‌نژادی در زندان: افراد رنگین‌پوست احتمال کمتری برای دریافت خدمات درمان روان دارند. این عنوان چارچوبی را برای تفسیر اعداد، براساس مطالعه‌ای که از آنها نشات گرفته، ارائه می‌دهد. این مطالعه، تحقیقاتی در مورد نابرابری‌های نژادی بود، بنابراین عنوان و محتوای این نمودار نیز در مورد نابرابری‌های نژادی است. افرادِ پشت این اعداد «مردم» هستند، نه «زندانی». علاوه بر این، و مهمتر از همه، نمودار دوم از نیروهای سلطه و ستم فعال نام می‌برد: تبعیض‌نژادی در زندان.

اگرچه ممکن است برای بعضی از خوانندگان این کتاب نام‌بردن از تبعیض‌نژادی آسان و بدیهی به نظر رسد، اما باید به این نکته اذعان کنیم که رشته‌هایی مانند روزنامه‌نگاری هنوز به قوانینی پایبند هستند که در برابر چنین نام‌گذاری‌هایی که دلیل آن را «سوءگیری» یا «نظر شخصی» بداند، مقاومت می‌کنند. جان دانیشفسکی105، سردبیر آسوشیتدپرس، بر این دیدگاه تاکید می‌کند: «به‌طور کلی، سیاست ما این است که سعی کنیم در هر موقعیت، بی‌طرف و دقیق باشیم و در حد امکان بدون‌خطا و صحیح عمل کنیم. ما بسیار محتاط هستیم تا اتهاماتی با توصیف تبعیض‌نژادی را بدون دقت ارائه ندهیم. ما سعی می‌کنیم بگوییم چه اتفاقی رخ داده و قضاوت را به خواننده واگذار می‌کنیم»106.

این اظهارات دانیشفسکی ممکن است آزاداندیشانه به نظر بیاید («دادن قدرت به خواننده!»)، اما مهم است که به این نکته فکر کنیم که منافع چه کسانی با تبدیل تبعیض‌نژادی به عقیده شخصی تامین می‌شود. همان‌طور که در طول این کتاب بحث کردیم، تبعیض‌نژادی برای بسیاری از مردم به‌عنوان یک واقعیت وجود دارد. وجود آن توسط شواهد تجربی فراوانی که نمونه‌هایی از تبعیض ساختاری را ثبت کرده‌اند، تایید می‌شود، از جمله شکافِ ثروت، شکافِ دستمزد، تبعیض و جداسازی مدارس، . همچنین نابرابری‌های سلامت که درباره آن بحث کردیم. نام‌بردن از این نیروهای ساختاری ممکن است روش مؤثرتری برای انتقال و بیان گسترده زمینه محیطی باشد. علاوه بر این، به‌عنوان روزنامه‌نگار داده در این سناریو، این مسئولیت شماست که سوال تحقیقی را به نتایج و تفسیرِ مخاطبان از آن نتایج ازتباط دهید. اجازه‌دادن به اعداد که خود صحبت کنند، قطعا نه اخلاقی است و نه آزاداندیشانه، زیرا اغلب منجربه سوء‌تعبیر از آن اعداد یا از بین‌رفتن نتایج مطالعه می‌شود. قرار دادن اعداد در زمینه محیطی و نام بردن از تبعیض‌نژادی یا تبعیض‌جنسی هنگام حضور آن‌ها در این اعداد باید یک الزام باشد، نه تنها برای ارتبط داده فمینیستی، بلکه برای ارتباط داده به‌طور کلی.

این توصیه - نام‌بردن از تبعیض‌نژادی، تبعیض‌جنسی، یا دیگر اشکال نیروهای سلطه و ستم، زمانی که به‌وضوح در اعداد حضور دارند - به‌خصوص الزامی برای طراحان و دانشمندان داده از گروه غالب در ارتباط با مسئله موردنظر است. سفیدان، از جمله ما نویسندگان این کتاب، در نام‌بردن و صحبت از تبعیض‌نژادی مشکل دارند. مردان برای نام‌بردن و صحبت از تبعیض‌جنسی و مردسالاری مشکل دارند. افراد دگرجنس‌گرا به سختی می‌توانند همجنس‌گراهراسی و دگرجنس‌گراهنجاری را ببینند و درباره آن صحبت کنند. اگر به عدالت در ارتباط داده‌ یا به طور کلی‌تر علم داده اهمیت می‌دهید، پیشنهاد می‌کنیم که شناختن، نام‌‌بردن، و صحبت‌کردن در مورد این نیروهای ساختاری سلطه و ستم را تمرین کنید107.

اما کار ما به‌عنوان طراحان تصویرسازی فرضی مبارزه با سلطه هنوز به پایان نرسیده است. ما ممکن است از تبعیض‌نژادی به‌عنوان یک نیروی ساختاری در تصویر خود نام ببریم، اما هنوز دو مشکل برای داشتن یک تصویر «خوب» وجود دارد که مربوط به متن زیرنویس هستند: افراد رنگین‌پوست احتمال کمتری برای دریافت خدمات درمان روان دارند. اولین مشکل این است که این روایت تقلیل‌گرایانه است که در فصل ۲ درباره آن بحث کردیم - روایتی که یک گروه اجتماعی را به کلیشه‌های منفی تقلیل می‌دهد و آن‌ها را فاقد خلاقیت و عاملیت معرفی می‌کند. مشکل دوم این است که با نام‌بردن از تبعیض‌نژادی و سپس صحبت در مورد رنگین‌پوستان در عنوان تصویر، این ایده تقویت می‌شود که گویی نژاد فقط مساله رنگین‌پوستان است. اگر به اصلاح توازن قدرت‌ها اهمیت می‌دهیم، انتخاب کلمات به اندازه داده‌های مورد بررسی اهمیت پیدا می‌کنند. کیمبرلی سیل آلرز108، روزنامه‌نگار سلامت، در مقاله‌ای درباره زبان مورد استفاده برای توصیف گروه‌های کم‌درآمد، این نکته را تایید می‌کند: «ما تقریبا همیشه از زبان کمبود استفاده می‌کنیم و آن‌ها را محروم، با منابع کم، و کمبود هر چیز دیگری توصیف می‌کنیم. ... این شیوه ثروتی را که آن جوامع و جوانان‌شان دارند نادیده می‌گیرد: ثروتِ مقاومت، سرسختی وعزمی که اگر به درستی توسعه یابد، به عظمت تبدیل می‌شود»109.

پس بیایید برای بار سوم تصویر ۶.۷ را امتحان کنیم.

در این نسخه سوم، ما همان عنوان نمودار قبلی را حفظ کرده‌ایم. اما به جای تمرکز زیرنویس روی چیزهایی که گروه‌های اقلیت‌شده فاقد آن هستند، بر مزایای ناعادلانه‌ای که به گروه غالب داده شده است تمرکز می‌کنیم. اکنون زیرنویس بدین شکل می‌شود: سفیدان خدمات درمان روانی بیشتری دریافت می‌کنند. این زیرنویس از انتشار روایت تقلیل‌گرایانه‌ای که تداعی‌ها و کلیشه‌های منفی را تقویت می‌کند، اجتناب می‌کند. این همچنین ادعا می‌کند که سفیدان هم دارای نژاد هستند و در این مورد از آن نژاد بهره‌ای ناعادلانه می‌برند110. در نهایت، عنوان نمودار، تفسیری از اعداد را پیشنهاد می‌کند که بر مبنای نتیجه‌گیری‌های پژوهشگران درباره نابرابری‌های سلامتی در زمینه محیطی مورد بحث است.

شکل ۶.۷

تصویر سوم از همان داده‌ها، تنها با تغییر عنوان و زیرنویس. منبع: داده‌های کابا و همکاران، «نابرابری در ارجاع و تشخیص سلامت روان در خدمات درمان روانی زندان نیویورک». گرافیک اثر کاترین دیگنازیو. داده‌های فاتوس کابا و همکاران، «اختلافات در سلامت روان».

بازیابی زمینه محیطی

سه بار تلاش برای تغییر عنوان یک نمودار به نظر زیاد می‌آید، اما این کار به مساله بزرگتری تاکید می‌کند و آن این است که در نظر گرفتن زمینه محیطی همیشه ترکیبی از علاقه و زمان را می‌طلبد. خوشبختانه، در حال‌حاضر افراد بسیاری به زمینه محیطی اهمیت می‌دهند، مربیان، روزنامه‌نگاران، کتاب‌داران، دانشمندان کامپیوتر، و ناشران داده‌های شهری شروع به توسعه ابزارها و روش‌های قوی‌تری برای پیوند زمینه محیطی به داده‌ها کرده‌اند تا آسان‌تر بتوان آن را در نتیجه نهایی اضافه کرد.

به‌عنوان مثال، شکل ۶.۳ را به یاد بیاورید؛ آن نمودار گیج‌کننده تدارکات دولتی سائوپائولو که در ابتدای این فصل درباره‌اش صحبت کردیم. گیسل کراویرو111، استاد دانشگاه سائوپائولو، ابزاری به نام «مراقبت از همسایگی من»112 ساخته است تا با اضافه‌کردن زمینه محیطی به اطلاعات، داده‌های هزینه‌ها را برای شهروندان قابل دسترس‌تر کند113. در کلاس درس، هدر کراوز114، دانشمند داده و آموزگار، مفهوم «بیوگرافی داده»115 را ساخته است116. پیش از شروع فرايند تحلیل، کراوز از افرادی که با داده‌ها کار می‌کردند، به‌ویژه روزنامه‌نگاران، تقاضا کرد که تاریخچه کوتاهی در مورد مجموعه‌داده مورد نظر بنویسند و به پنج سوال اساسی پاسخ دهند: از کجا آمده است؟ چه کسی آن را جمع‌آوری کرده است؟ در چه زمانی؟ چگونه جمع‌آوری شده است؟ چرا جمع‌آوری شده است؟ یک پیشنهاد مرتبط، اما کمی فنی‌تر ،که توسط پژوهش‌گران مایکروسافت پشتیبانی می‌شود، «برگه‌های‌داده برای مجموعه‌داده»117 نام دارد118. تیمنیت گبرو119، دانشمند کامپیوتر، و همکارانش، با الهام از برگه‌های داده که همراه با اجزای سخت‌افزاری ارائه می‌شود، به انتشاردهندگان داده پیشنهاد کرده‌اند تا سند کوتاه سه تا پنج صفحه‌ای همراه با مجموعه‌های‌داده ارائه کنند و در آن توضیح دهند که نحوه ایجاد و جمع‌آوری داده‌ها چگونه بوده است، چه داده‌هایی ممکن است مغفول مانده باشند، آیا پیش‌پردازشی انجام شده است، نحوه نگهداری مجموعه‌داده چگونه بوده است، و همچنین درباره مسائل حقوقی و اخلاقی توضیح دهند، از جمله این‌که آیا فرآیند جمع‌آوری داده با قوانین حفظ حریم خصوصی در اتحادیه اروپا سازگار است یا خیر120.

ایجاد «راهنمای کاربری داده»121 یکی دیگر از روش‌های نوظهور برای قرار دادن بهتر داده‌ها در زمینه محیطی است122. باب گریدک123، مدیر مرکز داده منطقه پنسیلوانیای غربی، از آن‌جا که دائما با سوال‌هایی تکراری در مورد مجموعه‌داده‌های شناخته‌شده‌ای که مدیریت می‌کرد، مواجه می‌شد، مانند داده‌های دارایی و گزارش «۳۱۱ گزارش ساکن در پیتسبورگ»، شروع به نوشتن راهنمای کاربری داده برای آن مجموعه‌داده‌ها کرد. گریدک می‌گوید: «کمی زمان برد تا نکات و ترفندها را یاد بگیریم. ... می‌خواستم چیزهایی که در ذهن داشتم را همراه با زمینه محیطی ارائه کنم تا سایر کاربران داده مجبور نباشند تا این کار را از ابتدا انجام دهند»124. راهنماهای کاربری داده، اسناد ساده و مکتوبی هستند که هر کدام شامل توصیفی از یک مجموعه‌داده است. از جمله مواردی که دربر‌می‌گیرند عبارتند از توصیف هدف و کاربرد داده‌ها، تاریخچه، قالب و استانداردها، زمینه محیطی سازمانی، سایر تحلیل‌ها و داستان‌هایی که از این مجموعه‌داده استفاده کرده‌اند، و محدودیت‌ها و پیامدهای اخلاقی مجموعه‌داده. این مشابه کاری است که خبرنگاران داده برای تهیه مجموعه‌داده‌ها انجام می‌دهند و سپس آن‌ها را برای استفاده مجدد در دسترس قرار می‌دهند. به‌عنوان مثال، آسوشیتدپرس آمارهای جامع ملی در مورد تبعیض و جداسازی مدارس در ایالات‌متحده را آماده کرده و برای خرید در دسترس قرار داده است125. جداول داده با توضیح ۲۰ صفحه‌ای در مورد داده‌ها همراه هستند که شامل محدودیت‌ها و ایده‌های داستانی نمونه می‌باشند.

این تحولات هیجان‌انگیز هستند، اما در مورد مسائل مرتبط با قدرت و نابرابری که بر محیط‌های جمع‌آوری داده تاثیر می‌گذارند، باید همچنان کارهای بیشتری انجام شود. برای مثال، والری هادسون126، استاد علوم سیاسی، سال‌ها به بررسی ارتباط بین امنیت دولتی و وضعیت زنان پرداخته است. او توضیح می‌دهد: «من کنجکاور بودم که آیا ارتباطی بین اشکالی از سلطه، تبعیت یا خشونت علیه زنان و ناپایداری و تنازعات ملی و چه‌بسا بین‌المللی وجود دارد یا خیر». او و چاد امت127، جغرافی‌دان، پروژه WomanStats را با یک جدول ساده اکسل در سال ۲۰۰۱ آغاز کردند. با گذشت زمان، آن پروژه به یک پایگاه‌داده وب عظیم تبدیل شده که بیش از یک چهارم میلیون رکورد و بیشتر از ۳۵۰ متغیر دارد، از دسترسی به مراقبت‌های بهداشتی گرفته تا شیوع تجاوز جنسی تا تقسیم کار خانگی128.

قابل ذکر است که منابع آن‌ها هم کیفی و هم کمی هستند. هادسون می‌گوید: «اگر می‌خواهید درباره زنان تحقیق کنید، باید از داده‌های کیفی استفاده کنید. در این مورد راه دومی وجود ندارد، زیرا واقعیت زندگی زنان به‌طور کامل در آمارهای کمی ثبت نمی‌شود. به هیچ وجه»129. در حال حاضر، WomanStats شامل دو نوع متغیر کیفی است: متغیرهای عملی که از گزارش‌های زنان از تجربیات زندگی‌شان تشکیل شده‌اند، و متغیرهای حقوقی که بر اساس چارچوب‌های قانونی هر کشور کدگذاری شده است. در واقع، کتاب راهنمای کدگذاری WomanStats، رویای یک فرد علاقه‌مند به زمینه محیطی است که مسائل مربوط به اندازه‌گیری را مشخص می‌کند و در مورد ناقص بودن داده‌های خود، به ویژه در مورد موضوعات دشوار، هشدار می‌دهد130. برای مثال، درباره داده‌هایی که گزارش‌های تجاوز جنسی را ثبت می‌کنند - موضوعی که حتی فکر کردن به آن هم بسیار ناراحت‌کننده است، چه برسد به این‌که به وسعت و دامنه آن در کل کشور فکر کنیم - کتاب راهنمای کدگذاری می‌گوید: «هشدار به کاربران! توجه داشته باشید که این اعداد تنها نرخ تجاوز جنسی گزارش‌شده را نمایش می‌دهند و برای بسیاری از کشورها، اگر نه اکثر آن‌ها، این به‌هیچ‌وجه نشانه قابل‌اعتمادی در مورد میزان واقعی تجاوز جنسی در جامعه نیست!»131. به جای تمرکز بر یک متغیر، کاربران به مقیاس‌های ترکیبی WomanStats هدایت می‌شوند، مانند «مقیاس تجاوز جنسی جامع» که فراوانی گزارش‌شده را در زمینه قوانین، اجرای قوانین، گزارش‌هایی از تجربه‌های زندگی، و قدرت تابوها در آن محیط و غیره، مورد بررسی قرار می‌دهد.

بنابراین، ابزارها و روش‌های ارائه زمینه محیطی در حال توسعه و آزمایش هستند. و WomanStats نشان می‌دهد که چگونه زمینه محیطی می‌تواند شامل تحلیلی از قدرت اجتماعی نابرابر باشد. اما اگر به آزمایش‌های پروژه از دور نگاه کنیم، آن‌چیزی که هنوز مبهم است این است: کدام عوامل در اکوسیستم داده مسئول ارائه زمینه محیطی هستند؟

آیا کاربران نهایی مسئول این کار هستند؟ در مورد نظرات مغفول‌مانده ردیت، می‌بینیم که حتی متخصصانی در میان ما که در بالاترین سطوح آموزش دیده‌اند نمی‌توانند ادعاهای پایه‌ای منبع‌داده خود را تایید کنند. و برگه‌های‌داده برای مجموعه‌داده‌ها و راهنمای کاربر داده‌ها عالی هستند، اما آیا می‌توان از افراد و تیم‌های کوچک انتظار داشت که با زمان و بودجه محدود، یک پروژه تحقیقاتی عمیق در رابطه با زمینه محیطی انجام دهند؟ این مساله، انتظارات نامعقول و مسئولیت‌های غیرقابل‌قبولی بر دوش تازه‌واردان می‌اندازد که احتمالا باعث بروز خطاها و نقض‌های اخلاقی شناخته‌شده بیشتری می‌شود.

پس آیا انتشاردهندگان داده‌ها مسئول ارائه زمینه محیطی هستند؟ در مورد GDELT، دیدیم که انتشاردهندگان داده، در تلاش برای جذب منابع تحقیقاتی، توانایی‌های خود را بزرگ‌نمایی کردند و محدودیت‌های داده‌های خود را به درستی مستند نکردند. نظرات ردیت کمی متفاوت بود: این مجموعه‌داده توسط فردی خوش‌نیت ارائه شده بود، اما او ادعای کامل‌بودن آن را تایید نکرد - و احتمالا منابع کافی برای این تایید را نداشت. در مورد داده‌های تجاوز جنسی در محیط دانشگاه، این دانشگاه‌ها هستند که مسئول گزارش‌دهی خود هستند، و البته آن‌ها دنبال منافع خود می‌باشند132. دولت منابع کافی برای تایید و مستندسازی تمام محدودیت‌های داده را ندارد.

آیا واسطه‌های داده مسئول هستند؟ واسطه‌ها، که به آن‌ها «واسطه اطلاعات»133 نیز گفته می‌شود، می‌تواند شامل کتابداران، روزنامه‌نگاران، سازمان‌های غیرانتفاعی، مربیان و سایر متخصصان اطلاعات‌عمومی باشند134. در علم کتابداری، رویه‌های قوی‌ای برای نگهداری و مدیریت داده‌ها وجود دارد، و کتابداران اغلب صورت انسانی پایگاه‌های‌داده برای شهروندان و ساکنان هستند. اما همان‌طور که شانون ماترن135، محقق رسانه، اشاره می‌کند، کتابداران اغلب از گفتگو درباره شهرهای هوشمند و فناوری‌های شهری کنار گذاشته می‌شوند136. نمونه‌هایی از داده‌های روزنامه‌نگاری که به خوبی تنظیم، تایید، و زمینه‌مند شده باشند نیز امیدبخش است، مانند پایگاه‌داده آسوشیتدپرس در مورد تبعیض و جداسازی مدارس یا سایر مجموعه‌های‌داده موجود در فروشگاه داده پروپابلیکا137. موسسه غیرانتفاعی «میزانی برای عدالت»138، داده‌های جامع و زمینه‌مندشده‌ای در مورد عدالت کیفری و طول مدت زندان در ایالات‌متحده ارائه می‌کند139. برخی از واسطه‌های داده، مانند Civic Switchboard در پیتسبورگ، به‌عنوان کاری در جهت پایداری و مقاومت، مشغول ساختن اکوسیستم‌های داده محلی خود هستند140. این واسطه‌ها که داده‌ها را برای استفاده عمومی تمیز و زمینه‌مند می‌کنند، ظرفیت و توان بیشتری (و همین‌طور تعارض منافع کمتری) دارند، اما برای انجام این کار در مقیاس بزرگ، به تامین‌مالی پایدار، ایجاد ظرفیت‌های قابل‌توجه، و تعیین استانداردهای حرفه‌ای نیاز دارند.

هیوستون، ما مشکل اطلاعات عمومی داریم. تا زمانی که در ارائه (و حفظ) زمینه محیطی به اندازه انتشار داده‌ها سرمایه‌گذاری نکنیم، منابع اطلاعاتی عمومی که در نهایت خواهیم داشت در بهترین حالت ضعیف، و در بدترین حالت خطرناک هستند. این مساله با افزایش حجم عظیم داده‌های دیجیتال دشوارتر می‌شود، زیرا کار احراز اصالت، منشایابی، و زمینه‌مندی داده‌ها که به‌طور سنتی توسط بایگانی‌ها انجام می‌شد، پیچیده‌تر می‌شود. در آینده، زمینه محیطی و زیرساخت اطلاعاتی مورد نیاز آن، باید بخش اعظم تمرکز خود را روی حامیان داده‌های باز، بنیادهای بشردوستانه، کتابداران، پژوهش‌گران، سازمان‌های خبری و نظارتی گذارد. زندگی داده‌محور ما به آن بستگی دارد.

اصل: زمینه محیطی را در نظر بگیرید

ششمین اصل فمینیسم داده، در نظر گرفتن زمینه محیطی است. نتیجه نهایی در مورد اعداد این است که آن‌ها نمی‌توانند به تنهایی صحبت کنند. در واقع، کسانی از ما که با داده‌ها کار می‌کنیم باید فعالانه از اینکه اعداد خود صحبت کنند جلوگیری کنیم، زیرا زمانی که این اعداد با تنظیمات داده‌ای به دست آمده باشند که تحت تاثیر فضای ناهمسان قدرت یا انگیزه‌های نامناسب جمع‌آوریِ داده باشند (بخوانید: تقریبا همه تنظیمات داده)، و به ویژه وقتی این اعداد مربوط به انسان‌ها یا رفتار آن‌ها باشد، نه تنها این خطر را دارند که توهم بزرگی و اهمیت ایجاد کنند و از نظر تجربی اشتباه باشند، بلکه با تقویت وضعیت ناعادلانه باعث ایجاد آسیب واقعی می‌شوند.

راه عبور از این مخمصه در نظر گرفتن زمینه محیطی است، فرایندی که شامل درک منشا و محیطی است که داده‌ها از آن جمع‌آوری شده‌اند، و همچنین تلاش فراوانی که باید برای قراردادن زمینه محیطی در ارتباط داده‌ها صورت گیرد (اعداد نباید در نمودارها همانند جداول داده به تنهایی صحبت کنند). این همچنین شامل تحلیل قدرت اجتماعی در رابطه با تنظیمات داده می‌شود. کدام عدم توازن‌های قدرت منجربه سکوت در مجموعه‌داده یا داده‌هایی شده است که به‌کلی از دست رفته‌اند؟ با منافع چه کسانی در تضاد است که جلوی شفافیت کامل در مورد داده‌های خود را می‌گیرند؟ دانش چه کسی در مورد یک موضوع تحت‌سلطه قرار گرفته است، و چگونه می‌توانیم آن را بازیابی کنیم؟ انگیزه‌ای که برای ایجاد زمینه محیطی، فراداده و منشا داده به وجود آمده، تحسین‌برانگیز است، اما تا زمانی که زمینه محیطی را پشتیبانی نکنیم، کارهای برجسته زمینه‌مندی، به جای این‌که تبدل به قاعده شوند به شکل استثنا باقی خواهد ماند.

Connections
1 of 1
Comments
13