فمینیسم داده ادعا میکند که دادهها خنثی یا بیطرف نیستند. آنها محصول روابط اجتماعی نابرابر هستند و در نظرگرفتن زمینه محیطی برای انجام تحلیلِ دقیق و اخلاقی ضروری است.
در آوریل ۲۰۱۴، ۲۷۶ زن جوان از دبیرستان خود در شهر چیبوک1 در شمال نیجریه ربوده شدند. گروه تروریستی بوکوحرام مسئولیت این حملات را بر عهده گرفت. این واقعه خیلی سریع توسط مطبوعات در نیجریه و در سراسر جهان پوشش داده شد. SaharaReporters.com توانایی دولت در حفظ امنیت دانشآموزان را زیر سوال برد. سیانان درد و رنج والدین را پوشش داد. «ژاپنتایمز» این آدمرباییها را به افزایش ناآرامیها در ایالتهای شمالی نیجریه مرتبط کرد. و بیبیسی داستان دختری را که توانسته بود از دست آدمربایان فرار کند، روایت کرد. چند هفته بعد از گزارشهای اولیه، وبلاگ پرطرفدار «FiveThirtyEight» داستانی دادهمحور با عنوان «ربودن دختران در نیجریه بخشی از یک مشکل بزرگتر است» در مورد این واقعه منتشر کرد2. این داستان از میزان سرسامآور آدمرباییها خبر میداد. این گزارش مدعی بود که تنها در سال ۲۰۱۳ بیشتر از ۳۶۰۸ مورد دزدیدهشدن زنان جوان گزارش شده است. در این گزارش نمودارها و نقشههایی آمده بود تا بهصورت تصویری نشان دهد که آدمرباییها در سطح بیسابقهای قرار دارند (شکل ۶.۱).
مدت کوتاهی بعد از انتشار آن گزارش، این وبسایتِ خبری مجبور شد تا با یک پیغام عذرخواهی حرف خود را پس بگیرد، چرا که آن اعداد کاملا اشتباه بودند. این سایت از «پایگاهداده جهانی رویدادها، زبان و لحن»3 (GDELT) بهعنوان منبع داده خود استفاده میکرد. GDELT یک پروژه بزرگ داده است که توسط کالو لیتارو4 دانشمند علوم اجتماعیِ محاسباتی رهبری میشود. این پروژه، گزارشهای خبری درباره رویدادها را از سراسر جهان جمعآوری و آنها را بر اساس نقشآفرینان، رویدادها، و موقعیت جغرافیایی تحلیل میکند تا مجموعهای جامع از دادهها را برای پژوهشگران، دولتها و جامعه مدنی فراهم کند. تلاش GDELT تمرکز روی تحلیلِ گزارشهای رسانهای در مورد مناقشات و درگیریها است؛ مانند اینکه آیا احتمال وقوع درگیری بین دو کشور وجود دارد، یا آیا ناامنی باعث شروع یک جنگ داخلی میشود. ارین سیمپسون5، دانشمند علومسیاسی در یک رشته توئیت که بسیار مورد توجه قرار گرفت، با اشاره به «FiveThirtyEight» اذعان کرد که منبع اولیه دادههای GDELT گزارشهای رسانهای است6 (شکل ۶.۲). در حال حاضر، پروژه در مرحلهای نیست که بتوان از دادههای آن برای ادعاهای قابل اعتماد در موارد مستقل آدمربایی استفاده کرد. ربودن دختران دانشآموز در نیجریه یک رویداد منفرد بود، اما هزاران گزارش در رسانههای جهان در مورد آن وجود داشت. اگر چه GDELT با حذف تکرار برخی از این گزارشها به یک رویداد منفرد پرداخت، اما به اشتباه گزارش داد که صدها رویداد آدمربایی در آن روز اتفاق افتاده است. گزارش «FiveThirtyEight» هر یک از آن شبهرویدادهای GDELT را بهعنوان یک رویداد جداگانه آدمربایی شمرده بود.
این اشتباه برای «FiveThirtyEight» و همچنین برای گزارشگر آن مقاله خجالتآور بود، اما این اشتباه بعضی از مسائل بزرگتر مرتبط با دادههایی که در «فضای آزاد و وحشی» یافت میشوند را نمایان کرد. اول از همه، موج و تبلیغاتی که در مورد «کلاندادهها» وجود دارد باعث شده که پروژههایی مانند GDELT در مورد کامل و دقیقبودن دادهها و الگوریتمهای خود اغراق کنند. در وبسایت و نشریات، مدیران پروژه گفتند که GDELT «طرحی برای ساختن فهرستی از رفتارها و باورهای اجتماعی مردم در تمام کشورهای جهان است. این طرح همه افراد، سازمانها، مکانها، حسابها، موضوعات، منابع خبری و رویدادهایی که در سراسر جهان رخ میدهند را به یک شبکه عظیم متصل میکند. این شبکه هر روز آنچه که در سراسر جهان اتفاق میافتد، زمینه محیطی آن، اینکه چه کسی درگیر آن است، و احساس جهانی در مورد آن را ثبت میکند»7. این توصیف بلندبالا، در مورد یک ابزار کلاندادهایِ کوچک یا ضعیف نیست. به وضوح در مورد «دادههای گولاخ»8 است.
«دادههای گولاخ» یک اصطلاح رسمی و دانشگاهی است که ما، نویسندگان کتاب، آن را برای اشاره به پروژههای کلاندادهای ابداع کردیم که توسط خیالات مردانه درباره فرمانروایی بر جهان از طریق جمعآوری و تحلیل دادهها اجرا میشوند. پروژههای دادههای گولاخ، زمینه محیطی را نادیده میگیرند، به اندازههای بزرگ علاقهمند هستند، و قابلیتهای فنی و علمی خود را بیش از حد بزرگنمایی میکنند9. در مورد GDELT، سوال این است که آیا ما باید ادعای آن را در مورد ارزش کلاندادهها، به آن شکلی که بیان میکنند، بپذیریم یا اینکه دادههای گولاخ تلاشی است برای فریب سازمانهای تامین مالی تا مقادیر هنگفتی بودجه تحقیقاتی برای پروژه بگیرند (ما قبلا بارها شاهد کارکرد این ترفند بودهایم).
مستندات فنی GDELT توضیح بیشتری نمیدهند که آیا گزارشهای رسانهای را میشمارد (همانطور که سیمپسون ادعا کرده است) یا رویدادهای منفرد را. نام پایگاهداده مورد استفاده «FiveThirtyEight»، «پایگاهداده رویداد GDELT» است، که به نظر میرسد رویدادها را میشمارد. مستندات GDELT میگویند که «اگر رویدادی قبلا دیده شده باشد، دوباره در نظر گرفته نخواهد شد»، که مجددا به نظر میرسد که رویدادها شمارش میشوند. و یک مقاله تحقیقاتی مرتبط با این پروژه در سال ۲۰۱۳ تایید میکند که GDELT رویدادها را میشمارد، اما فقط رویدادهایی را که منحصر به نشریات خاص هستند. بنابراین، رویدادها را میشمرد، اما با اشاره به آنها. اضافه کنیم که این مستندات هیچ راهنمایی نمیکنند که چه نوع سوالات تحقیقاتی برای پرسش از پایگاهداده مناسب هستند یا محدودیتهای ممکن کدامها هستند. اشخاصی مانند سیمپسون که با حوزه تحقیقاتی «تشخیص رویداد» آشنا هستند، یا اعضای گروه GDELT، احتمالا میدانند که نباید به (۱) عنوان پایگاهداده، (۲) مستندات، و (۳) تبلیغاتی بازاریابی اعتماد کنند. اما چگونه افراد خارجی، بهخصوص کسانی که تازه وارد این پلتفرم شدهاند، این موضوع را بدانند؟
ما به GDELT پرداختیم، اما حقیقت این است که این پلتفرم تفاوت چندانی با سایر مخازن داده موجود در وب ندارد. پورتالها، صفحات نظارتی، و وبسایتهای زیادی وجود دارند که امکان دانلود انواع دادههای دولتی، اداری، و علمی را فراهم میکنند. APIهایی وجود دارند که امکان نوشتن برنامههای کوچک برای جستجو در مجموعهدادههای عظیم (مثلا همه توییتر) و دانلود آنها را به روشی ساختارمند فراهم میکنند10. مجموعهدادههای آزمایشی برای تحلیل شبکه، یادگیریماشین، رسانههای اجتماعی، و تشخیص تصویر وجود دارد. همچنین مجموعهدادههای جالب و خلاقانه و خبرنامههایی وجود دارد که خوانندگان را از مجموعهدادههایی که برای روزنامهنگاری یا تحلیل مناسب هستند مطلع میکنند11. در این زمان، ما معمولا دسترسی نامحدود به اطلاعات را یک قابلیت ذاتا خوب تصور میکنیم. و از بسیاری جهات، واقعا شگفتانگیز است که میتوان به سادگی در گوگل جستجو کرد و اطلاعاتی را در مورد موضوعاتی مانند مسابقات کبوترپرانی، طول دندان خوکچههای هندی، یا افرادی که بین سالهای ۱۵۶۲ تا ۱۷۳۶ در اسکاتلند متهم به جادوگری شدهاند - و همچنین خروار خروار توئیت، دانلود کرد12.
و اگرچه درسی که «FiveThirtyEight» درباره تایید اطلاعات گرفت بهجا بود، اما یک مساله بسیار بزرگتر وجود دارد که هنوز به آن پرداخته نشده است: مساله زمینه محیطی. همانطور که در طول این کتاب بحث کردیم، یکی از اصول اساسی دیدگاه فمینیستی، «موقعیتیافتگی» تمام دانشها میباشد. یک روش کمتر علمی برای بیان این مساله، «توجه به اهمیت زمینه محیطی است». هنگام نزدیکشدن به هر منبع جدیدی از دانش، پرسیدن سوالاتی در مورد شرایط اجتماعی، فرهنگی، تاریخی، نهادی و مادی که تحتِ آن، دانش تولید شده است، و همچنین در مورد هویت افرادی که آن را ایجاد کردهاند، ضروری است، حال چه این منبع یک مجموعهداده باشد یا منوی شام (یا مجموعهداده از منوهای شام)13. به جای دیدن مصنوعات دانش، مانند مجموعهدادهها که میتوانند بهعنوان ورودی خام به مدلهای تحلیل آماری داده شوند یا تصویرسازی شوند، رویکرد فمینیستی بر ارتباط دادهها با زمینه محیطی که در آن تولید شدهاند تاکید میکند. زمینه محیطی به ما، به عنوان دانشمندان داده، امکان میدهد که محدودیتهای کارکردی دادهها و تعهدات اخلاقی مرتبط با آن را بهتر درک کنیم، و همچنین متوجه باشیم که چگونه قدرت و امتیازی که به تولید آنها کمک کردهاند، ممکن است حقیقت را پنهان کنند.
قراردادن دادهها در فضای وحشی و بیقانون وب
مشکل اصلی بسیاری از دادههایی که از پورتالهای وب یا از طریق APIها دانلود میشوند این است که بدون زمینه محیطی یا فراداده هستند. اگر خوششانس باشید، ممکن است یک پاراگراف در مورد اینکه دادهها از کجا آمدهاند یا یک فرهنگلغت داده در توضیحِ معنی هر ستون جدولداده دریافت کنید. اما بیشتر مواقع، چیزی شبیه شکل ۶.۳ میگیرید.
دادههای نشان دادهشده در این شکل - که دادههای باز در مورد بودجه تدارکات دولتی در سائوپائولوی برزیل است - از نظر فنی چندان پیچیده به نظر نمیرسند. پیچیدگی کار، فهمیدنِ چگونگی فرآیند کسبوکار پشت آنها است. دولت چگونه فرایند مناقصه را اجرا میکند؟ چگونه تصمیم میگیرد که قرارداد به چه کسی واگذار شود؟ آیا همه مناقصهها در اینجا منتشر شدهاند یا فقط آنهایی که به قرارداد رسیدهاند؟ اصطلاحاتی مانند «رقابت»، «قرارداد همکاری»، و «شرایط همکاری» برای ناشر داده چه معنایی دارند؟ چرا چنین تنوعی در طرح شمارهگذاری نشریات وجود دارد؟ اینها تنها بعضی از سوالاتی هستند که ممکن است یک نفر در برخورد اول با این مجموعهداده بپرسد. اما، بدون پاسخدادن به حتی برخی از این سوالات - و البته دانش محلی برای درک چگونگی عمل قدرت در این اکوسیستم خاص - شروع یک پروژه کاوشی یا تحلیل داده مشکل خواهد بود.
این سناریو غیرمعمول نیست. بیشتر دادهها بدون در نظر گرفتن زمینه محیطی به درگاه محاسباتی ما میرسند. وقتیکه این فقدان زمینه محیطی با نوعی بازارگرمی، مانند آنچه که در GDELT و دیگر پروژههای دادههای گولاخ دیدیم، همراه شود، مسئولیت بیشتری ایجاد میکند. در واقع، نسخه دهه ۱۹۸۰ از این ادعاها، دونا هاراوی14 را ترغیب کرد تا مفهوم «دانش موقعیتیافته»15 را مطرح کند16. کارهای فمینیستی بعدی از مفهوم دانش موقعیتیافته بهره گرفتند تا ایدههایی درباره اخلاق و مسئولیت در ارتباط با ساخت دانش را به تفصیل بیان کنند17. با توجه به این خط فکری، افرادی که دانش را ارزیابی میکنند یا بر آن میافزایند موظف هستند که از در نظر گرفتهشدن «موقعیتیافتگی» اطمینان حاصل کنند. برای مثال، کریستین بورگمن18، محقق مطالعات اطلاعات، بر توجه به ارتباط دادهها با «زیرساختهای دانش» که از آن نشات میگیرند، تأکید میکند. بورگمن زیرساخت دانش را بهعنوان یک «جمعیتشناسی از افراد، شیوهها، فناوریها، نهادها، اشیاء مادی و روابط» تعریف میکند19. بهطور خلاصه، این زمینه محیطی است که به دادهها معنی میدهند.
عجیبتر اینکه برخی از اهداف و اقدامات تحسینبرانگیز جنبش دادههای باز، ناخواسته، در جهت عکس ملزومات اخلاقی ارائه زمینه محیطی عمل کردهاند. «دادههای باز»20 این ایده را مطرح میکنند که هر کسی میتواند آزادانه به دادهها دسترسی داشته باشد، از آنها استفاده کند، آنها را تغییر دهد، و برای هر هدفی به اشتراک بگذارد. جنبش دادههای باز شبکهای غیرمتراکم از سازمانها، دولتها و افراد است. این جنبش به شکلی از اواسط دهه ۲۰۰۰ فعالیت خود را شروع کرد، از زمانی که گروههایی مانند مؤسسه دانش باز21 تأسیس شدند و کمپینهایی مانند «آزادسازی دادههای ما»22 توسط «گاردین» شروع به کار کردند تا از دولتها بخواهند دسترسی آزاد به اسناد عمومی را فراهم کنند23. این اهداف در تئوری خوب هستند: توسعه اقتصادی با ساخت برنامهها و خدمات مبتنی بر دادههای باز، پیشرفت علمی سریعتر با اشتراکگذاری دانش توسط پژوهشگران، و شفافیت بیشتر برای خبرنگاران، شهروندان، و ساکنان تا بتوانند از اطلاعات عمومی برای پاسخگو نگهداشتن دولتها استفاده کنند. این هدف نهایی، بخش اصلی از چارچوب یادداشت معروف اوباما، رئیسجمهور پیشین ایالاتمتحده، در مورد شفافیت و دولت باز بود24. در اولین روز کاری خود در دفتر ریاستجمهوری، اوباما یادداشتی را امضا کرد که سازمانهای دولتی را ملزم میکرد تا بهطور پیشفرض تمام دادهها را بهصورت باز ارائه کنند25. بسیاری از کشورها، ایالتها، و شهرها این روند را دنبال کردند و با توسعه پورتالهای دادههای باز و درج دادههای باز در سیاستهای خود، اقداماتی انجام دادند. از سال ۲۰۱۹، ۱۷ کشور و بیش از ۵۰ شهر و ایالت، منشور بینالمللی دادههای باز که شش اصل را برای انتشار و دسترسی به دادههای دولتی مشخص میکرد، پذیرفتهاند26.
با این حال، در عمل، کمبود منابع مالی برای زیرساختهای فناوری باعث شده تا دولتها فقط به «بازکردن» اطلاعات - مانند انتشار جدولهای داده، مثل درخواستهای مجوز، سوابق بازداشتها، و مناطق سیلزده - اولویت دهند، اما قادر به ارائه هیچ زمینه محیطی در مورد منابع دادهها نیستند، چه برسد به مستنداتی که امکان دسترسی و استفاده عموم مردم از دادهها را فراهم کنند. همانطور که تیم دیویس27، محقق، توضیح میدهد، دادههای خام ممکن است برای آغاز یک گفتگو مناسب باشند، اما نمیتوانند مشارکت و پاسخگویی را تضمین کنند28. واقعیت این است که بسیاری از مجموعههایداده منتشر شده در پورتالها، بدوناستفاده ماندهاند و منتظر کاربرانی هستند تا با انجام کارهای فشرده و دشوار پیچیدگیهایی که معنای واقعیِ آنها را پنهان کردهاند، رمزگشایی کنند. به این پدیده، «دادههای زامبی»29 گفته میشود: مجموعههایداده که بدون هدف یا کاربرد واضحی منتشر شدهاند30.
زامبیها ممکن است برای مغز مضر باشند، اما آیا دادههای زامبی واقعا مشکلساز هستند؟ کریس اندرسون31، سردبیر مجله «وایرد»32، با قطعیت میگوید: «نه». اندرسون در مقالهای با عنوان «پایان تئوری»33 در وایرد در سال ۲۰۰۸ این ادعای نامحبوب را مطرح کرد که «اعداد خود، صحبت میکنند»34. ادعای اصلی او این بود که ظهور کلاندادهها به زودی به دانشمندان داده اجازه میدهد تا بدون اینکه نیازی باشد تا تحلیلهای خود را روی نمونههای کوچک محدود کنند، آنها را در مقیاس کل جمعیت انسانی انجام دهند. برای درک ادعای او، باید یکی از مقدمات اساسی آمار را بشناسید.
استنتاج آماری، بر پایه ایده نمونهبرداری بنا شده است: اینکه شما با مطالعه نمونهای تصادفی و/یا به نمایندگی از کل، بتوانید در مورد یک جمعیت (یا پدیدهای دیگری در مقیاس بزرگ) نتیجههایی استنباط کنید و سپس آن یافتهها را به کل جمعیت (یا پدیده) بسط دهید. فرض کنید میخواهید بدانید تمام ۳۲۳ میلیون نفر جمعیت ایالاتمتحده در انتخابات ریاستجمهوری آینده به چه کسانی رای میدهند. البته نمیتوانید با همه آنها تماس بگیرید، اما میتوانید با سههزار نفر از آنها تلفنی تماس بگیرید و سپس با استفاده از این نتایج، پیشبینی کنید که دیگران به چه شکل رای خواهند داد. همچنین برای اطمینان از صحت نتایج، به مدلسازی آماری و نظریه آماری نیاز است، وگرنه چگونه میتوانید مطمئن باشید که این سههزار نفر نماینده دقیقی از کل جمعیت هستند؟ اینجاست که اندرسون دخالت میکند: جایی که دادههای کل جمعیت را جمعآوری کرده باشیم، دیگر نیازی به مدلسازی یا هر «تئوری» دیگری برای آزمایش و سپس اثبات نداریم. ما می توانیم مستقیما به خود دادهها نگاه کنیم.
اکنون، زمان آن گذشته است که مقالهای بنویسید و ادعا کنید که ساختار پایه تحقیقات علمی منسوخ شده است و انتظار داشته باشید که هیچ مخالفتی با آن نمیشود. آندرسون این مقاله را به شکل تحریکآمیزی نوشت و پاسخها و بحثهای متعددی را برانگیخت، از جمله، این ایده که این یک شیوهای «جدید» از تفکر است، به چالش کشیده شد (در حالیکه برای مثال، در اوایل قرن هفدهم، فرانسیس بیکن35 شکلی از استدلال استتناجی را مطرح کرد، که بر اساس آن دانشمند، دادهها را جمعآوری و تحلیل میکرد و بعد از آن فرضیهای را ارائه میداد)36. یکی از مثالهای مهم مورد نظر اندرسون الگوریتم جستجوی گوگل است. الگوریتمهای جستجوی گوگل نیاز به فرضیه ندارند که «چرا» برخی از وبسایتها تعداد بیشتری پیوند ورودی (صفحاتی که به آن سایت پیوند دارند) نسبت به دیگران دارند؛ آنها فقط نیاز دارند روشی برای تعیین تعداد پیوندها داشته باشند تا از آن عدد برای تعیین محبوبیت و ارتباط سایتها در نتایج جستجو استفاده کنند. اندرسون تاکید میکند که ما نیازی به علتومعلول نداریم: «هموابستگی کافی است»37. اما چه اتفاقی میافتد وقتی تعداد پیوندها، هموابستگی قوی با نتایجی با محتواهای جنسیتی، نژادپرستانه، و مستهجن داشته باشند؟
تاثیر تبعیضنژادی، تبعیضجنسی و استعمارگرایی دقیقا همان چیزی است که در کتاب «الگوریتمهای سلطه» توصیف شده است. در این کتاب، سوفیا یوموجا نوبل38، محقق علوماطلاعاتی، به کلیشههای آزاردهنده در مورد زنان سیاه و لاتینتبار پرداخته است که توسط الگوریتمهای جستجو، مانند گوگل، تداوم یافته. همانطور که در فصل ۱ بحث شد، نوبل نشان داد که نتایج جستجوی گوگل صریحا با تبعیضنژادی، تبعیضجنسی، و استعمارگرایی موجود در جامعه هماهنگ نیست؛ اینکه خودِ جامعه «باعث» بروز نتایجی با تبعیضهای نژادی و جنسی میشود. علاوه بر این، جستجوی گوگل با مرتبط کردن رتبهبندی نتایج با تعداد وبسایتهایی که به آنها پیوند دادهاند، این دیدگاههای سلطهگرایانه را تقویت میکند. ترتیب رتبهبندی، به نوبه خود، کاربران را تشویق میکند تا به کلیککردن روی همان وبسایتها ادامه دهند. در اینجا، توجه به هموابستگی بدون درنظر گرفتن زمینه محیطی، به وضوح ناکافی است، زیرا تبعیضنژادی و تبعیضجنسی را دوباره به چرخه میاندازد و نابرابری را تداوم میبخشد39.
دلیل دیگری که لزوم در نظرگرفتن زمینه محیطی را برای درک هموابستگی نشان میدهد، نحوه نفوذ تبعیضنژادی، تبعیضجنسی و سایر نیروهای سلطهگر به محیطهایی است که در آنها دادهها جمعآوری میشوند. مثالی که در ادامه میآید مربوط به تجاوز جنسی و خشونت است. اگر نمیخواهید درباره این موضوعات بخوانید، میتوانید از ادامه خواندن این بخش صرفنظر کنید و به بخش بعدی بروید.
در آوریل ۱۹۸۶، جین کلری40، دانشجوی دانشگاه لیهای41، در اتاقش در خوابگاه مورد تجاوز جنسی قرار گرفت و به قتل رسید. والدین او بعدها متوجه شدند که در سه سال گذشته ۳۸ جنایت خشونتآمیز در لیهای رخ داده، اما هیچکسی به آنها، بهعنوان دادههای مهمی که باید در اختیار والدین یا عموم قرار گیرد، توجه نکرده بود. خانواده کلریز کمپینی را برای بهبود جمعآوری دادهها و اطلاعرسانی درباره جرایم در محیط دانشگاهها راهاندازی کرد که عملکرد موفقی داشت: قانون ژان کلری42 که در سال ۱۹۹۰ تصویب شد، همه کالجها و دانشگاههای ایالاتمتحده را ملزم میکرد تا آمار جرایم در محیط دانشگاه را در دسترس عموم قرار دهند43.
پس ما یک مجموعهداده ملی بهظاهر جامع در مورد یک موضوع عمومی داریم. در سال ۲۰۱۶، سه دانشجوی روزنامهنگاری داده کلاس کاترین در کالج امرسون44 - پاتریک تورفی45، مایکلا هالنون46 و جیلیان میهان47 - دادههای قانون کلری را دانلود کردند و به امید اینکه درک بهتری از فرهنگ تجاوز جنسی گسترشیافته در دانشگاههای ایالاتمتحده داشته باشند، به پردازش آن پرداختند48. اما بلافاصله سردرگم شدند. به نظر میرسید که تجاوز جنسی در دانشگاه ویلیامز (دانشگاه هنرهای آزادِ کوچک و ثروتمند در منطقه روستایی ماساچوست) فراگیر بود، در حالیکه در دانشگاه بوستون (BU) (یک مؤسسه تحقیقاتی بزرگ در مرکز شهر) موارد رویداده به نسبت اندازه و جمعیت دانشگاه، بسیار کمتر بود (ناگفته نماند که چندین مورد تجاوز جنسی معروف در BU در سالهای اخیر خبرساز شده بود49). دانشجویان به این اعداد مشکوک شدند و بررسی بیشتری کردند. با مقایسه دادههای قانون کلری با نظرسنجیهای ناشناس درباره محیط دانشگاه (شکل ۶.۴)، مشورت با کارشناسان، و مصاحبه با افرادی که تجربه تجاوز داشتهاند، متوجه شدند که واقعیت «برعکس» تصویری است که دادههای قانون کلری نشان میدهد. بسیاری از دانشگاههایی که تعداد بیشتری از تجاوز جنسی برای آنها گزارش شده بود، در واقع مکانهایی بودند که منابع سازمانی بیشتری برای حمایت از بازماندگان به آنها تخصیص داده بودند50.
این مساله را درباره دانشگاههایی که تعداد موارد تجاوز جنسی کمتری دارند، نیز میتوان با توجه به زمینه محیطی موجود توضیح داد. قانون کلری، کالجها و دانشگاهها را ملزم میکند که گزارشهای سالانه تجاوز جنسی و سایر جرایم دانشگاهی را ارائه کنند و جریمههای مالی سختی برای گزارش نکردن آنها در نظر گرفته شده است. اما این اعداد از سوی خود دانشگاهها گزارش میشوند. علاوه بر این، دانشگاهها انگیزههای مالی قوی دارند که این موارد را «گزارش نکنند»51. هیچ دانشگاهی نمیخواهد به دولت - چه برسد به والدین دانشجویان آیندهاش - بگوید که نرخ تجاوز جنسی در محیط دانشگاه بالاست. این مساله توسط این حقیقت تشدید میشود که بازماندگان تجربه تجاوز جنسی، به دلیل سوگیریهای اجتماعی، درد و رنج تجربه مجدد آنها، و کمبود حمایت اجتماعی و روانشناختی، اغلب نمیخواهند صریحا به آن اتفاق اشاره کنند. فرهنگ عمومی به افرادی که تجربه تجاوز جنسی داشتهاند نشان داده که به تجربیات آنها با مراقبت برخورد نمیشود و در واقعیت اگر تصمیم به افشای تجربیات خود بگیرند ممکن است با صدمه، سرزنش، و آسیب روانی بیشتری مواجه شوند52.
زمانی که نژاد و هویتهای جنسی در نظر گرفته شوند، ناهمسانیهای قدرت بیشتری در دادهها نمود پیدا میکنند. برای مثال، در سال ۲۰۱۴، ۲۳ دانشجو شکایتی علیه دانشگاه کلمبیا ثبت کردند و مدعی شدند که دانشگاه کلمبیا به شکلی نظاممند در رسیدگی به موارد تجاوز و خشونت جنسی گزارششده توسط دانشجویان LGBTQ کوتاهی کرده است. زوئی ریدولفی استار53، دانشجوی سرشناسی که در این شکایت از او نام برده شده، به «دیلی بیست»54 گفت: «ما ناآگاهی زیادی در مورد دینامیک خشونت جنسی در جامعه کوئیر میبینیم، حتی از سوی افرادی که واقعا باید در این مسائل آموزش دیده باشند»55.
به بیان ساده، در «تنظیمات داده»56 عدمتوازن قدرت وجود دارد - اشاره به اصطلاح ابداعی یانی لوکیساس که در فصل ۵ در مورد آن بحث کردیم - بنابراین نمیتوانیم اعداد موجود در مجموعهداده را بهصورت سطحی و بدون بررسی بپذیریم. فقدان این درک از قدرت در فضای مجموعههایداده و اجازه به اینکه اعداد «خود صحبت کنند» داستانی را روایت میکند که نه تنها غلط است، بلکه ممکن است از آن داستان برای پاداشدادن به دانشگاههایی که بهشکل نظاممندی اطلاعرسانی کمتری انجام میدهند و محیطهای دشواری را برای بازماندگان ایجاد میکنند، استفاده شود. کمشمردن تعمدی موارد تجاوز جنسی منجربه دریافت پاداش برای گزارشهای نادرست میشود. و سکوت در مورد تجاوز جنسی ادامه دارد: مدیریت ساکت است، فرهنگ دانشگاه ساکت است، مجموعهدادهها ساکت است57.
دادههای خام، دادههای پختهشده، پختن
همانطور که توسط دانشجویان دانشگاه امرسون نشان داده شد، یکی از اشتباهات مهم تحلیل که اجازه میدهد تا «اعداد خود صحبت کنند» این فرضیه است که دادهها ورودیِ «خام» در نظر گرفته میشوند. اما همانطور که لیزا گیتلمن58 و ویرجینیا جکسون59 بهشکلی بهیادماندنی توضیح دادهاند، دادههایی که وارد پروژههای تحقیقاتی میشوند، از قبل کاملا پخته شدهاند و ماحصل مجموعه پیچیدهای از شرایط اجتماعی، سیاسی و تاریخی هستند. آنها ادعا میکنند که اصطلاح «دادههای خام» یک مغلطه است، درست مانند اصطلاح «میگوی غولآسا»60 که تناقضی در معنی است61. اما دستهای از «خلاقان داده»62 در حال ظهور هستند که وجودشان به توانایی آنها در «تغییر زمینه محیطی» استوار است، یا به عبارتی، توانایی خلاقانه آنها در استخراج و ترکیب دادهها برای تولید بینشهای جدید و همچنین کار در حوزههای گوناگون. این گروه شامل دانشمندان داده، روزنامهنگاران داده، هنرمندان و طراحان داده، پژوهشگران و کارآفرینان میباشد - بهطور خلاصه، تقریبا همه کسانی که در حال حاضر با دادهها کار میکنند. آنها غریبههایی در مجموعهدادهها هستند که در فصل ۵ از آنها صحبت کردیم.
این دسته جدید خلاقان داده برای تولید کاری که ارزش و بینش جدیدی از استخراج و ترکیب مجموعههایداده مفهومی نامرتبط میسازد، پاداش خوبی دریافت میکنند. برای مثال، میتوان به پروژه Flu Trends گوگل که اکنون متوقف شده است، اشاره کرد، که سعی میکرد نتایج جستجوی مردم در مورد نشانههای آنفلوآنزا را به وقوع واقعی آنفلوآنزا در مناطق جغرافیایی مرتبط کند63. یا پروژهای از روزنامه «سان سنتیل»64، در فورت لادردیل65، فلوریدا، که دادههای پلاک خودروهای پلیس را با سوابق الکترونیکی عوارض ترکیب میکرد تا ثابت کند که پلیسها به شکل نظاممند و خطرناکی در بزرگراههای فلوریدا با سرعت بالا رانندگی میکنند66. گاهیاوقات انجام این ترکیبهای خلاقانه نتایج خوبی دارند. «سان سنتیل» برای گزارشهای خود برنده جایزه پولیتزر67 شد و تعدادی از پلیسهایی که با سرعت بالا رانندگی میکردند اخراج شدند. اما گاهی اوقات نتایج کاملا سرراست نیستند. پروژه Flu Trends گوگل خوب کار میکرد، تا اینکه عملکردش خراب شد، و تحقیقات بعدی نشان داد که جستجوهای گوگل نمیتوانند بهعنوان یک ارتباط یکبهیک برای پدیدههای واقعی آنفولانزا استفاده شوند، زیرا آنها به عوامل خارجی، مانند گزارش رسانهها در مورد آنفولانزا، حساس هستند68.
دانشمندان داده بهجای اینکه دادهها را بهصورت سطحی بررسی کنند تا به بینشی در آینده برسند، میتوانند ابتدا زمینه محیطی، محدودیتها، و صحت دادههای مورد استفاده را بررسی کنند. به عبارت دیگر، یک استراتژی فمینیستی برای در نظر گرفتن زمینه محیطی، توجه به فرآیند «پختهشدن» است که دادههای «خام» را تولید میکند. بهعنوان مثال، دِرِک روث69 و یورگن فافر70، دانشمندان علوم اجتماعی محاسباتی، در مورد محدودیتهای استفاده از دادههای رسانههای اجتماعی برای دریافت بینش رفتاری نوشتهاند: دادههای اینستاگرام بیشتر در مورد جوانان است، زیرا اکثر کاربران آن جوانان هستند. در دادههای ردیت71، تعداد نظرات مردان بیشتر از زنان است، زیرا اکثر اعضای ردیت مردان هستند. آنها بهوضوح نشان دادند که دادههای تحقیقاتی حاصل از این منابع توسط نمونهگیری شکل میگیرند، زیرا شرکتهایی مانند ردیت و اینستاگرام از روشهای خاص خود برای ارائه دادههایشان به پژوهشگران استفاده میکنند و این روشها هرگز افشا نمیشوند72. در تحقیق مرتبط دیگری، دوین گافنی73 و جی. ناتان ماتیاس74 مجموعه شناختهشدهای را که ادعا میکرد «همه نظرات دردسترس عموم ردیت» را شامل میشود، بررسی کردند75. کار آنها نشان داد که این مجموعه اطلاعاتِ بهظاهر کامل در واقع حداقل ۳۶ میلیون نظر و ۲۸میلیون ارسال را دربرنمیگیرد.
بررسی و تحلیل آن چیزی که از یک مجموعهداده مغفول مانده، روشی قدرتمند است برای رسیدن به بینشی در مورد فرآیند پختن (آمادهسازی) دادهها و پدیدهای که ادعای نمایندگی آن را دارد. در برخی از کارهای تاریخی لورن، او آشپزانی را بررسی کرده که در مجموعهای شامل ۳۰هزار نامه توماس جفرسون76 ثبت شدهاند (یا نشدهاند)،77 شکل ۶.۵. احتمالا برخی میدانند که جفرسون بهعنوان «آشپز-بنیانگذار عاشق غذا» کشور شناخته میشود78. اما کمتر کسی میداند که او برای تهیه غذاهای مشهور خود از یک کادر اجیرشده در آشپزخانه استفاده میکرد79. در «تصویر غیبت»80، لورن از «شناسایی موجودیت نامگذاریشده»81، که یک تکنیک پردازش زبان طبیعی است، استفاده کرد تا مکانهایی که جفرسون در مکاتبات شخصی خود از این افراد نام برده بود را شناسایی کند. او سپس با استفاده از تحلیل شبکه اجتماعی، میزان روابط بین آنها را تخمین زد. نتیجه این کار، تصویری از تمام کارهایی است که کادر اجیرشده جفرسون برای آمادهکردن غذاهای او انجام دادهاند، اما او این کار را بهطور مستقیم - حداقل در متن نامهها - تایید نکرده است.
در یک مقیاس بزرگتر، دانشمندان کامپیوتر و مورخان دانشگاه استنفورد از «جاسازی کلمه»82 - که یکی دیگر از تکنیکهای یادگیریماشین است - استفاده کردند تا کلیشههای جنسیتی و قومیتی را در طول قرن بیستم پیدا کنند83. این تیم با بررسی چند مجموعهداده بزرگ که از منابعی مانند گوگل بوکز84 و «نیویورکتایمز»85 گرفته شده بودند، نشان دادند که تا دهه ۱۹۶۰ کلماتی مانند «باهوش، منطقی، و متفکر» به شدت با مردان مرتبط بودند. با اینحال، از آن زمان به بعد، استفاده از این کلمات بهطور پیوسته برای زنان افزایش یافته است. کار این تیم که به نمونهای قابلتوجه از تلاش برای اندازهگیری میزان تاثیرات جنبشهای اجتماعی تبدیل شده، این تغییرات را به «جنبش زنان در دهههای ۱۹۶۰ و ۱۹۷۰» نسبت داده است. این مقاله از منظری دیگر نیز قابلتوجه است چرا که صریحا اذعان میکند که دامنه تحلیل آنها به جنسیت دودویی محدود شده، زیرا فقط صفات مربوط به واژههای «مرد» و «زن» را بررسی کرده است. علاوه بر این، پژوهشگران سعی نکردند ادعا کنند که دادهها نمایانگر نحوه وجود زنان و مردان «هستند»، و همچنین تلاش نکردند «سوگیریها» را حذف کنند تا بتوانند برنامههای «بیطرفانه» را در حوزههای دیگر توسعه دهند. آنها دادهها را همانطور که بودند - بهعنوان نشانگرهای فرهنگی از تغییرات در چهره مردسالاری و تبعیضنژادی - در نظر گرفتند و مورد بررسی قرار دادند.
چگونه میتوانیم کارهای بیشتری از این دست انجام دهیم - کاری که دادهها را بهعنوان چیزی که قبلا «پختهشده» در نظر میگیرد و سپس از آن دادهها برای فاشساختن سوگیریهای ساختاری استفاده میکند؟ متاسفانه پاسخ ما به کریس اندرسون این است که ما به تئوری بیشتر نیاز داریم، نه کمتر. بدون تئوری، طراحان نظرسنجی و تحلیلگران داده درباره چیزهایی که در حال اندازهگیری و مدلسازی هستند، باید بر ادراک خود مبتنی بر «عقل سلیم» اتکا کنند. این وابستگی به «عقل سلیم» مستقیما به سوگیری منجر میشود. مورد GDELT را در نظر بگیرید. دههها تحقیق نشان داده که رویدادهای پوششدادهشده توسط رسانهها، بر اساس آنچه که «ارزشهای خبری» نامیده میشود، انتخاب و قالببندی میشوند و شکل میگیرند: ارزشهایی که تصاویر و ایدئولوژیهای موجود را تایید میکنند86. پس GDELT واقعا چه چیزی را اندازهگیری میکند؟ چه وقایعای در جهان رخ میدهد یا سازمانهای خبری بینالمللی بزرگ توجه خود را به چه چیزی معطوف میکنند؟ مورد دوم ممکن است مهمترین داستانی باشد که در پایگاه داده GDELT درونیسازی شده باشد. اما برای بیرون کشیدن آن، به زمینه محیطی و قالببندی عمیقی نیاز است.
عدم اعتراف به زمینه محیطی، بازی قدرت است برای اجتناب از تشخیص قدرت. این راهی است برای تاکید بر اقتدار و تسلط بدون نیاز به برخورد با پیچیدگیهای واقعیت دادهها: اقتصاد سیاسی اخبار در نمونههای GDELT، سلسلهمراتبهای جنسیتی تثبیتشده، و محیطهای گزارشدهی ناقص دادههای کلری، و موارد دیگر. اما زمینه محیطی عمیق و محاسبات با هم ناسازگار نیستند. برای مثال، SAFElab یک آزمایشگاه تحقیقاتی در کلمبیا است که توسط دزموند پاتون87، محقق و مددکار اجتماعی، اداره میشود و از هوشمصنوعی استفاده میکند تا روشهای مورد استفاده جوانان رنگینپوست برای مقابله با خشونت در فضای آنلاین و آفلاین را بررسی کند. او و تیمی از دانشجویان مددکاری اجتماعی از دادههای توییتر استفاده کردند تا خشونتگروهی در شیکاگو را بشناسند و از رخ دادن آنها پیشگیری کنند. دادههای آنها بزرگ و از نظر فنی و اجتماعی پیچیده هستند. این تیم کاملا از تاریخچه استفاده از فناوری توسط نهادهای مجری قانون برای نظارت بر افراد سیاه آگاه است و اعتراف میکند که نهادهای مجری قانون همچنان از توییتر برای این منظور استفاده میکنند. علاوه بر این، زمانی که پاتون تحقیقاتش را آغاز کرد، با مشکل اساسیتری مواجه شد: «وقتی جوانان حرف میزدند نمیفهمیدم چه میگویند، تمام!»88 این در حالی است که پاتون خود سیاه است، در شیکاگو بزرگ شده و سالها در بسیاری از همین محلهها کار کرده است. او همچنین توضیح میدهد که «برای من روشن شد که ما باید با رویکرد عمیقتری به دادههای رسانههای اجتماعی نگاه کنیم تا بتوانیم واقعیتهای فرهنگ، زمینه محیطی، و ظرافتها را به درستی درک کنیم، و دلیل اصلی این کار جلوگیری از تفسیر اشتباه مطالب مطرح شده است»89.
روش پاتون برای درنظر گرفتن فرهنگ، زمینه محیطی، و جزئیات، مبتنی بر تماس مستقیم و تمرکز بر دیدگاه جوانانی بود که رفتارهای آنها در گروه او مورد مطالعه بود. پاتون و ویلیام فری90، دانشجوی دکترا، چند جوان را که پیشتر با گروههای تبهکار در ارتباط بودند، استخدام کردند تا بهعنوان متخصص حوزه، روی این پروژه کار کنند. این کارشناسان زیرمجموعهای از میلیونها توییت را کدگذاری و دستهبندی کردند، و سپس تیمی از دانشجویان مددکاری اجتماعی را آموزش دادند تا کدنویسی را بهعهده بگیرند. این فرایند طولانی بود و چالشهایی همراه داشت. این امر باعث شد که پاتون و فری روش جدیدی برای «گوشدادن عمیق»91 بسازند که آن را «تحلیل زمینهای رسانههای اجتماعی» نامیدند، تا به دانشآموزان برنامهنویس کمک کنند سوءگیریهای خود را کاهش دهند و به مفهوم مورد اشاره هر توییت نزدیکتر شوند92. مرحله بعد، آموزش یک مدل یادگیریماشین دستهبندی برای برچسبگذاری خودکار توئیتها بود، تا به این ترتیب پروژه بتواند همه چندمیلیون توئیت مجموعهداده را دستهبندی کند. پاتون میگوید: «ما این الگوریتم را به شکلی آموزش دادیم که همانند یک مرد جوان آفریقایی-آمریکایی در جنوب شیکاگو فکر کند»93.
این رویکرد نشان میدهد که چگونه میتوان زمینه محیطی را در یک پروژه هوشمصنوعی ادغام کرد و این کار میتواند با توجه به «دانش تحتسلطه»94 صورت گیرد. اصطلاح (دانش تحتسلطه) اشکالی از دانش را توصیف میکند که از موسسات جریان اصلی و گفتگوهایی که آنها ترویج میکنند، بیرون رانده شده باشند. برای توضیح این پدیده، پاتریشیا هیلکالینز مثالی میزند از اینکه چگونه زنان سیاه در طول تاریخ به دلیل طرد شدن از «نهادهای اجتماعی تحت کنترل مردان سفید» به «موسیقی، ادبیات، مکالمات روزانه، و رفتار روزمره» روی آوردند95. این موسسات شامل دانشگاهها یا - یک مثال اخیر مطرحشده توسط ترسی مکمیلان کاتوم96، جامعهشناس - بخش نوشتههای تحلیلی روزنامه «نیویورک تایمز» هستند97. و از آنجایی که آنها دانش خود را در مکانهایی خارج از موسسات جریان اصلی به گردش در میآورند، آن دانش توسط آن موسسات دیده یا شناسایی نمیشود: «تحتسلطه» قرار میگیرد.
ایده دانش تحتسلطه در مورد سایر گروههای اقلیتشده نیز صدق میکند، از جمله سیاهان شیکاگو که پاتون دنبال فهم آنها بود. رویکردی که به زمینه محیطی توجه نکند، منجر به خطاهای قابلتوجهی میشود. برای مثال، توییتی مانند «نه دوستتو کشتم و نه دوستتو میشناسم رفیق»98 احتمالا بهعلت استفاده از کلمه «کشتن»، بهعنوان پستی پرخاشگرانه یا خشن دستهبندی میشود. اما فری و پاتون، با تکیه به دانش مردان جوان سیاهی که در پروژه استخدام شده بودند، توانستند نشان دهند که بسیاری از توئیتهایی مانند این به اشعار آهنگی اشاره دارند؛ در این مثال به لیل دورک99، خواننده رپ اهل شیکاگو. به عبارت دیگر، این توئیتها، فرهنگی را به اشتراک میگذارند، نه اینکه بیانکننده تهدیدی باشند100.
در مورد SAFElab، مانند تمام پروژههای تحقیقاتی که به دنبال استفاده از دانش تحتسلطه هستند، زیرساختهای انسانی و ارتباطی قابلتوجهی نیز مورد نیاز بود. فری و پاتون با افراد و سازمانهای موجود در جامعه مورد مطالعه خود ارتباطات بلندمدتی ساختند. در واقع، فری در آن اجتماع زندگی و کار میکرد. علاوه بر این، فری و پاتون هر دو بهعنوان مددکار اجتماعی آموزش دیده بودند. این مساله را میتوان در کارهای محاسباتی آنها دید که بر منشور اخلاقی مددکاران اجتماعی استوار بود101. آنها به جای آنکه محاسبات را جایگزین روابط انسانی کنند، از هوشمصنوعی بهعنوان واسطهای برای ایجاد شکل جدیدی از درک انسانی در میان ناهمسانیهای قدرت استفاده کردند. این نوع نوآوریهای اجتماعی اغلب در مدل تکشاخ-جادوگر-نابغه علم داده مورد توجه قرار نمیگیرد. (برای اطلاعات بیشتر در مورد تکشاخها، به فصل ۵ مراجعه کنید.) همانطور که پاتون می گوید، «ما برای انتشار مقاله در مورد این کار در انجمنهای علم داده با چالشهای زیادی روبرو بودیم، زیرا برای من بسیار واضح است که آنها خیلی دیر به زمینه محیطی توجه میکنند. نه اینکه اهمیتی نمیدهند، اما نوآوری یا تاثیر عدالتاجتماعی که این کار میتواند داشته باشد را نمیبینند»102. امیدواریم که این رویکرد در آینده تغییر کند، زیرا کار SAFElab و دیگران، توانایی فوقالعاده ترکیب کار اجتماعی و علم داده را نشان میدهند.
انتقال و بیان زمینه محیطی
در نظرگرفتن زمینه محیطی فقط در مراحل دریافت یا تحلیل دادهها نیست که اهمیت دارد. زمینه محیطی در قاببندی و انتقال و بیان نتایج نیز نقش دارد. سناریویی را در نظر بگیرید. در این سناریو، شما یک روزنامهنگار داده هستید و سردبیر از شما خواسته است تا داستانی کوتاه و مصور درباره یک مطالعه تحقیقاتی که اخیرا صورت گرفته است آماده کنید: «نابرابری در ارجاع و تشخیص سلامتِ روان در خدماتِ درمانِ روانِ زندانِ نیویورک»103. این مطالعه با بررسی سوابق پزشکی بیش از ۴۵هزار نفری که برای اولین بار زندانی شدهاند نشان میدهد که برخی از گروهها با احتمال بیشتری خدمات درمانی دریافت میکنند، در حالیکه برخی دیگر از گروهها با احتمال بیشتری مجازات شوند. بهطور مشخصتر، افراد سفید با احتمال بیشتری خدمات درمان روان دریافت میکنند، در حالی که سیاهان و لاتینتبارها با احتمال بیشتری به سلول انفرادی فرستاده میشوند. پژوهشگران برخی از این اختلافها را به میزان تشخیص متفاوتی که این گروهها قبل از وارد شدن به زندان تجربه کردهاند، نسبت میدهند، اما برخی نیز این اختلافها را با تبعیض درون سیستم زندان مرتبط میدانند. در هر دو صورت، نابرابریهای نژادی و قومی محصول تبعیضنژادی ساختاری هستند.
تفاوت بین دو نمودار نشان دادهشده در شکل ۶.۶ را در نظر بگیرید. تنها تفاوت این دو در عنوان و قاببندی نمودارها است. شما کدام یک از این نمودارها را تهیه میکنید؟ کدام یک را باید تهیه کنید؟ نمودار اول - سلامت روان در زندان - روش رایجی را برای بیان و انتقال نتایج تحلیل دادهها نشان میدهد. عنوان نمودار «بهظاهر» خنثی و بدون سوءگیری است. این یک نمودار درباره میزان تشخیص بیماری روان افراد زندانی است که بر اساس نژاد و اقوام تقسیم شدهاند. در این نمودار از مردم بهعنوان «زندانی» یاد شده است، زبانی که این مطالعه از آن استفاده کرده است. عنوان نمودار، به نژاد یا قومیت، تبعیضنژادی، یا نابرابریهای سلامت اشاره نمیکند، و همچنین اشارهای به معنای دادهها ندارد. اما اینجا سوالهای دیگری در مورد زمینه محیطی مطرح میشود. آیا شما فقط همین چهار عددی را که در نمودار میبینیم نشان میدهید؟ یا شما زمینه محیطی را که این اعداد از آن بیرون آمدهاند، نمایش میدهید؟
مطالعهای که این اعداد را تولید کردهاند، شواهد قانعکنندهای ارائه میکند مبنی بر اینکه به تعداد تشخیص بیماریها، به دلیل تبعیضنژادی و قومیتی، باید شک کنیم. نمودار اول نه تنها در انتقال این موضوع ناتوان است بلکه فعالانه از یافته اصلی تحقیق خود دوری میکند. علاوه بر این، استفاده از اصطلاح «زندانی» برای اشاره به کسانی که در زندان هستند، غیرانسانی است، به ویژه در فضای حبسهای گروهی ایالاتمتحده104. حال، نمودار دوم را در نظر بگیرید: تبعیضنژادی در زندان: افراد رنگینپوست احتمال کمتری برای دریافت خدمات درمان روان دارند. این عنوان چارچوبی را برای تفسیر اعداد، براساس مطالعهای که از آنها نشات گرفته، ارائه میدهد. این مطالعه، تحقیقاتی در مورد نابرابریهای نژادی بود، بنابراین عنوان و محتوای این نمودار نیز در مورد نابرابریهای نژادی است. افرادِ پشت این اعداد «مردم» هستند، نه «زندانی». علاوه بر این، و مهمتر از همه، نمودار دوم از نیروهای سلطه و ستم فعال نام میبرد: تبعیضنژادی در زندان.
اگرچه ممکن است برای بعضی از خوانندگان این کتاب نامبردن از تبعیضنژادی آسان و بدیهی به نظر رسد، اما باید به این نکته اذعان کنیم که رشتههایی مانند روزنامهنگاری هنوز به قوانینی پایبند هستند که در برابر چنین نامگذاریهایی که دلیل آن را «سوءگیری» یا «نظر شخصی» بداند، مقاومت میکنند. جان دانیشفسکی105، سردبیر آسوشیتدپرس، بر این دیدگاه تاکید میکند: «بهطور کلی، سیاست ما این است که سعی کنیم در هر موقعیت، بیطرف و دقیق باشیم و در حد امکان بدونخطا و صحیح عمل کنیم. ما بسیار محتاط هستیم تا اتهاماتی با توصیف تبعیضنژادی را بدون دقت ارائه ندهیم. ما سعی میکنیم بگوییم چه اتفاقی رخ داده و قضاوت را به خواننده واگذار میکنیم»106.
این اظهارات دانیشفسکی ممکن است آزاداندیشانه به نظر بیاید («دادن قدرت به خواننده!»)، اما مهم است که به این نکته فکر کنیم که منافع چه کسانی با تبدیل تبعیضنژادی به عقیده شخصی تامین میشود. همانطور که در طول این کتاب بحث کردیم، تبعیضنژادی برای بسیاری از مردم بهعنوان یک واقعیت وجود دارد. وجود آن توسط شواهد تجربی فراوانی که نمونههایی از تبعیض ساختاری را ثبت کردهاند، تایید میشود، از جمله شکافِ ثروت، شکافِ دستمزد، تبعیض و جداسازی مدارس، . همچنین نابرابریهای سلامت که درباره آن بحث کردیم. نامبردن از این نیروهای ساختاری ممکن است روش مؤثرتری برای انتقال و بیان گسترده زمینه محیطی باشد. علاوه بر این، بهعنوان روزنامهنگار داده در این سناریو، این مسئولیت شماست که سوال تحقیقی را به نتایج و تفسیرِ مخاطبان از آن نتایج ازتباط دهید. اجازهدادن به اعداد که خود صحبت کنند، قطعا نه اخلاقی است و نه آزاداندیشانه، زیرا اغلب منجربه سوءتعبیر از آن اعداد یا از بینرفتن نتایج مطالعه میشود. قرار دادن اعداد در زمینه محیطی و نام بردن از تبعیضنژادی یا تبعیضجنسی هنگام حضور آنها در این اعداد باید یک الزام باشد، نه تنها برای ارتبط داده فمینیستی، بلکه برای ارتباط داده بهطور کلی.
این توصیه - نامبردن از تبعیضنژادی، تبعیضجنسی، یا دیگر اشکال نیروهای سلطه و ستم، زمانی که بهوضوح در اعداد حضور دارند - بهخصوص الزامی برای طراحان و دانشمندان داده از گروه غالب در ارتباط با مسئله موردنظر است. سفیدان، از جمله ما نویسندگان این کتاب، در نامبردن و صحبت از تبعیضنژادی مشکل دارند. مردان برای نامبردن و صحبت از تبعیضجنسی و مردسالاری مشکل دارند. افراد دگرجنسگرا به سختی میتوانند همجنسگراهراسی و دگرجنسگراهنجاری را ببینند و درباره آن صحبت کنند. اگر به عدالت در ارتباط داده یا به طور کلیتر علم داده اهمیت میدهید، پیشنهاد میکنیم که شناختن، نامبردن، و صحبتکردن در مورد این نیروهای ساختاری سلطه و ستم را تمرین کنید107.
اما کار ما بهعنوان طراحان تصویرسازی فرضی مبارزه با سلطه هنوز به پایان نرسیده است. ما ممکن است از تبعیضنژادی بهعنوان یک نیروی ساختاری در تصویر خود نام ببریم، اما هنوز دو مشکل برای داشتن یک تصویر «خوب» وجود دارد که مربوط به متن زیرنویس هستند: افراد رنگینپوست احتمال کمتری برای دریافت خدمات درمان روان دارند. اولین مشکل این است که این روایت تقلیلگرایانه است که در فصل ۲ درباره آن بحث کردیم - روایتی که یک گروه اجتماعی را به کلیشههای منفی تقلیل میدهد و آنها را فاقد خلاقیت و عاملیت معرفی میکند. مشکل دوم این است که با نامبردن از تبعیضنژادی و سپس صحبت در مورد رنگینپوستان در عنوان تصویر، این ایده تقویت میشود که گویی نژاد فقط مساله رنگینپوستان است. اگر به اصلاح توازن قدرتها اهمیت میدهیم، انتخاب کلمات به اندازه دادههای مورد بررسی اهمیت پیدا میکنند. کیمبرلی سیل آلرز108، روزنامهنگار سلامت، در مقالهای درباره زبان مورد استفاده برای توصیف گروههای کمدرآمد، این نکته را تایید میکند: «ما تقریبا همیشه از زبان کمبود استفاده میکنیم و آنها را محروم، با منابع کم، و کمبود هر چیز دیگری توصیف میکنیم. ... این شیوه ثروتی را که آن جوامع و جوانانشان دارند نادیده میگیرد: ثروتِ مقاومت، سرسختی وعزمی که اگر به درستی توسعه یابد، به عظمت تبدیل میشود»109.
پس بیایید برای بار سوم تصویر ۶.۷ را امتحان کنیم.
در این نسخه سوم، ما همان عنوان نمودار قبلی را حفظ کردهایم. اما به جای تمرکز زیرنویس روی چیزهایی که گروههای اقلیتشده فاقد آن هستند، بر مزایای ناعادلانهای که به گروه غالب داده شده است تمرکز میکنیم. اکنون زیرنویس بدین شکل میشود: سفیدان خدمات درمان روانی بیشتری دریافت میکنند. این زیرنویس از انتشار روایت تقلیلگرایانهای که تداعیها و کلیشههای منفی را تقویت میکند، اجتناب میکند. این همچنین ادعا میکند که سفیدان هم دارای نژاد هستند و در این مورد از آن نژاد بهرهای ناعادلانه میبرند110. در نهایت، عنوان نمودار، تفسیری از اعداد را پیشنهاد میکند که بر مبنای نتیجهگیریهای پژوهشگران درباره نابرابریهای سلامتی در زمینه محیطی مورد بحث است.
بازیابی زمینه محیطی
سه بار تلاش برای تغییر عنوان یک نمودار به نظر زیاد میآید، اما این کار به مساله بزرگتری تاکید میکند و آن این است که در نظر گرفتن زمینه محیطی همیشه ترکیبی از علاقه و زمان را میطلبد. خوشبختانه، در حالحاضر افراد بسیاری به زمینه محیطی اهمیت میدهند، مربیان، روزنامهنگاران، کتابداران، دانشمندان کامپیوتر، و ناشران دادههای شهری شروع به توسعه ابزارها و روشهای قویتری برای پیوند زمینه محیطی به دادهها کردهاند تا آسانتر بتوان آن را در نتیجه نهایی اضافه کرد.
بهعنوان مثال، شکل ۶.۳ را به یاد بیاورید؛ آن نمودار گیجکننده تدارکات دولتی سائوپائولو که در ابتدای این فصل دربارهاش صحبت کردیم. گیسل کراویرو111، استاد دانشگاه سائوپائولو، ابزاری به نام «مراقبت از همسایگی من»112 ساخته است تا با اضافهکردن زمینه محیطی به اطلاعات، دادههای هزینهها را برای شهروندان قابل دسترستر کند113. در کلاس درس، هدر کراوز114، دانشمند داده و آموزگار، مفهوم «بیوگرافی داده»115 را ساخته است116. پیش از شروع فرايند تحلیل، کراوز از افرادی که با دادهها کار میکردند، بهویژه روزنامهنگاران، تقاضا کرد که تاریخچه کوتاهی در مورد مجموعهداده مورد نظر بنویسند و به پنج سوال اساسی پاسخ دهند: از کجا آمده است؟ چه کسی آن را جمعآوری کرده است؟ در چه زمانی؟ چگونه جمعآوری شده است؟ چرا جمعآوری شده است؟ یک پیشنهاد مرتبط، اما کمی فنیتر ،که توسط پژوهشگران مایکروسافت پشتیبانی میشود، «برگههایداده برای مجموعهداده»117 نام دارد118. تیمنیت گبرو119، دانشمند کامپیوتر، و همکارانش، با الهام از برگههای داده که همراه با اجزای سختافزاری ارائه میشود، به انتشاردهندگان داده پیشنهاد کردهاند تا سند کوتاه سه تا پنج صفحهای همراه با مجموعههایداده ارائه کنند و در آن توضیح دهند که نحوه ایجاد و جمعآوری دادهها چگونه بوده است، چه دادههایی ممکن است مغفول مانده باشند، آیا پیشپردازشی انجام شده است، نحوه نگهداری مجموعهداده چگونه بوده است، و همچنین درباره مسائل حقوقی و اخلاقی توضیح دهند، از جمله اینکه آیا فرآیند جمعآوری داده با قوانین حفظ حریم خصوصی در اتحادیه اروپا سازگار است یا خیر120.
ایجاد «راهنمای کاربری داده»121 یکی دیگر از روشهای نوظهور برای قرار دادن بهتر دادهها در زمینه محیطی است122. باب گریدک123، مدیر مرکز داده منطقه پنسیلوانیای غربی، از آنجا که دائما با سوالهایی تکراری در مورد مجموعهدادههای شناختهشدهای که مدیریت میکرد، مواجه میشد، مانند دادههای دارایی و گزارش «۳۱۱ گزارش ساکن در پیتسبورگ»، شروع به نوشتن راهنمای کاربری داده برای آن مجموعهدادهها کرد. گریدک میگوید: «کمی زمان برد تا نکات و ترفندها را یاد بگیریم. ... میخواستم چیزهایی که در ذهن داشتم را همراه با زمینه محیطی ارائه کنم تا سایر کاربران داده مجبور نباشند تا این کار را از ابتدا انجام دهند»124. راهنماهای کاربری داده، اسناد ساده و مکتوبی هستند که هر کدام شامل توصیفی از یک مجموعهداده است. از جمله مواردی که دربرمیگیرند عبارتند از توصیف هدف و کاربرد دادهها، تاریخچه، قالب و استانداردها، زمینه محیطی سازمانی، سایر تحلیلها و داستانهایی که از این مجموعهداده استفاده کردهاند، و محدودیتها و پیامدهای اخلاقی مجموعهداده. این مشابه کاری است که خبرنگاران داده برای تهیه مجموعهدادهها انجام میدهند و سپس آنها را برای استفاده مجدد در دسترس قرار میدهند. بهعنوان مثال، آسوشیتدپرس آمارهای جامع ملی در مورد تبعیض و جداسازی مدارس در ایالاتمتحده را آماده کرده و برای خرید در دسترس قرار داده است125. جداول داده با توضیح ۲۰ صفحهای در مورد دادهها همراه هستند که شامل محدودیتها و ایدههای داستانی نمونه میباشند.
این تحولات هیجانانگیز هستند، اما در مورد مسائل مرتبط با قدرت و نابرابری که بر محیطهای جمعآوری داده تاثیر میگذارند، باید همچنان کارهای بیشتری انجام شود. برای مثال، والری هادسون126، استاد علوم سیاسی، سالها به بررسی ارتباط بین امنیت دولتی و وضعیت زنان پرداخته است. او توضیح میدهد: «من کنجکاور بودم که آیا ارتباطی بین اشکالی از سلطه، تبعیت یا خشونت علیه زنان و ناپایداری و تنازعات ملی و چهبسا بینالمللی وجود دارد یا خیر». او و چاد امت127، جغرافیدان، پروژه WomanStats را با یک جدول ساده اکسل در سال ۲۰۰۱ آغاز کردند. با گذشت زمان، آن پروژه به یک پایگاهداده وب عظیم تبدیل شده که بیش از یک چهارم میلیون رکورد و بیشتر از ۳۵۰ متغیر دارد، از دسترسی به مراقبتهای بهداشتی گرفته تا شیوع تجاوز جنسی تا تقسیم کار خانگی128.
قابل ذکر است که منابع آنها هم کیفی و هم کمی هستند. هادسون میگوید: «اگر میخواهید درباره زنان تحقیق کنید، باید از دادههای کیفی استفاده کنید. در این مورد راه دومی وجود ندارد، زیرا واقعیت زندگی زنان بهطور کامل در آمارهای کمی ثبت نمیشود. به هیچ وجه»129. در حال حاضر، WomanStats شامل دو نوع متغیر کیفی است: متغیرهای عملی که از گزارشهای زنان از تجربیات زندگیشان تشکیل شدهاند، و متغیرهای حقوقی که بر اساس چارچوبهای قانونی هر کشور کدگذاری شده است. در واقع، کتاب راهنمای کدگذاری WomanStats، رویای یک فرد علاقهمند به زمینه محیطی است که مسائل مربوط به اندازهگیری را مشخص میکند و در مورد ناقص بودن دادههای خود، به ویژه در مورد موضوعات دشوار، هشدار میدهد130. برای مثال، درباره دادههایی که گزارشهای تجاوز جنسی را ثبت میکنند - موضوعی که حتی فکر کردن به آن هم بسیار ناراحتکننده است، چه برسد به اینکه به وسعت و دامنه آن در کل کشور فکر کنیم - کتاب راهنمای کدگذاری میگوید: «هشدار به کاربران! توجه داشته باشید که این اعداد تنها نرخ تجاوز جنسی گزارششده را نمایش میدهند و برای بسیاری از کشورها، اگر نه اکثر آنها، این بههیچوجه نشانه قابلاعتمادی در مورد میزان واقعی تجاوز جنسی در جامعه نیست!»131. به جای تمرکز بر یک متغیر، کاربران به مقیاسهای ترکیبی WomanStats هدایت میشوند، مانند «مقیاس تجاوز جنسی جامع» که فراوانی گزارششده را در زمینه قوانین، اجرای قوانین، گزارشهایی از تجربههای زندگی، و قدرت تابوها در آن محیط و غیره، مورد بررسی قرار میدهد.
بنابراین، ابزارها و روشهای ارائه زمینه محیطی در حال توسعه و آزمایش هستند. و WomanStats نشان میدهد که چگونه زمینه محیطی میتواند شامل تحلیلی از قدرت اجتماعی نابرابر باشد. اما اگر به آزمایشهای پروژه از دور نگاه کنیم، آنچیزی که هنوز مبهم است این است: کدام عوامل در اکوسیستم داده مسئول ارائه زمینه محیطی هستند؟
آیا کاربران نهایی مسئول این کار هستند؟ در مورد نظرات مغفولمانده ردیت، میبینیم که حتی متخصصانی در میان ما که در بالاترین سطوح آموزش دیدهاند نمیتوانند ادعاهای پایهای منبعداده خود را تایید کنند. و برگههایداده برای مجموعهدادهها و راهنمای کاربر دادهها عالی هستند، اما آیا میتوان از افراد و تیمهای کوچک انتظار داشت که با زمان و بودجه محدود، یک پروژه تحقیقاتی عمیق در رابطه با زمینه محیطی انجام دهند؟ این مساله، انتظارات نامعقول و مسئولیتهای غیرقابلقبولی بر دوش تازهواردان میاندازد که احتمالا باعث بروز خطاها و نقضهای اخلاقی شناختهشده بیشتری میشود.
پس آیا انتشاردهندگان دادهها مسئول ارائه زمینه محیطی هستند؟ در مورد GDELT، دیدیم که انتشاردهندگان داده، در تلاش برای جذب منابع تحقیقاتی، تواناییهای خود را بزرگنمایی کردند و محدودیتهای دادههای خود را به درستی مستند نکردند. نظرات ردیت کمی متفاوت بود: این مجموعهداده توسط فردی خوشنیت ارائه شده بود، اما او ادعای کاملبودن آن را تایید نکرد - و احتمالا منابع کافی برای این تایید را نداشت. در مورد دادههای تجاوز جنسی در محیط دانشگاه، این دانشگاهها هستند که مسئول گزارشدهی خود هستند، و البته آنها دنبال منافع خود میباشند132. دولت منابع کافی برای تایید و مستندسازی تمام محدودیتهای داده را ندارد.
آیا واسطههای داده مسئول هستند؟ واسطهها، که به آنها «واسطه اطلاعات»133 نیز گفته میشود، میتواند شامل کتابداران، روزنامهنگاران، سازمانهای غیرانتفاعی، مربیان و سایر متخصصان اطلاعاتعمومی باشند134. در علم کتابداری، رویههای قویای برای نگهداری و مدیریت دادهها وجود دارد، و کتابداران اغلب صورت انسانی پایگاههایداده برای شهروندان و ساکنان هستند. اما همانطور که شانون ماترن135، محقق رسانه، اشاره میکند، کتابداران اغلب از گفتگو درباره شهرهای هوشمند و فناوریهای شهری کنار گذاشته میشوند136. نمونههایی از دادههای روزنامهنگاری که به خوبی تنظیم، تایید، و زمینهمند شده باشند نیز امیدبخش است، مانند پایگاهداده آسوشیتدپرس در مورد تبعیض و جداسازی مدارس یا سایر مجموعههایداده موجود در فروشگاه داده پروپابلیکا137. موسسه غیرانتفاعی «میزانی برای عدالت»138، دادههای جامع و زمینهمندشدهای در مورد عدالت کیفری و طول مدت زندان در ایالاتمتحده ارائه میکند139. برخی از واسطههای داده، مانند Civic Switchboard در پیتسبورگ، بهعنوان کاری در جهت پایداری و مقاومت، مشغول ساختن اکوسیستمهای داده محلی خود هستند140. این واسطهها که دادهها را برای استفاده عمومی تمیز و زمینهمند میکنند، ظرفیت و توان بیشتری (و همینطور تعارض منافع کمتری) دارند، اما برای انجام این کار در مقیاس بزرگ، به تامینمالی پایدار، ایجاد ظرفیتهای قابلتوجه، و تعیین استانداردهای حرفهای نیاز دارند.
هیوستون، ما مشکل اطلاعات عمومی داریم. تا زمانی که در ارائه (و حفظ) زمینه محیطی به اندازه انتشار دادهها سرمایهگذاری نکنیم، منابع اطلاعاتی عمومی که در نهایت خواهیم داشت در بهترین حالت ضعیف، و در بدترین حالت خطرناک هستند. این مساله با افزایش حجم عظیم دادههای دیجیتال دشوارتر میشود، زیرا کار احراز اصالت، منشایابی، و زمینهمندی دادهها که بهطور سنتی توسط بایگانیها انجام میشد، پیچیدهتر میشود. در آینده، زمینه محیطی و زیرساخت اطلاعاتی مورد نیاز آن، باید بخش اعظم تمرکز خود را روی حامیان دادههای باز، بنیادهای بشردوستانه، کتابداران، پژوهشگران، سازمانهای خبری و نظارتی گذارد. زندگی دادهمحور ما به آن بستگی دارد.
اصل: زمینه محیطی را در نظر بگیرید
ششمین اصل فمینیسم داده، در نظر گرفتن زمینه محیطی است. نتیجه نهایی در مورد اعداد این است که آنها نمیتوانند به تنهایی صحبت کنند. در واقع، کسانی از ما که با دادهها کار میکنیم باید فعالانه از اینکه اعداد خود صحبت کنند جلوگیری کنیم، زیرا زمانی که این اعداد با تنظیمات دادهای به دست آمده باشند که تحت تاثیر فضای ناهمسان قدرت یا انگیزههای نامناسب جمعآوریِ داده باشند (بخوانید: تقریبا همه تنظیمات داده)، و به ویژه وقتی این اعداد مربوط به انسانها یا رفتار آنها باشد، نه تنها این خطر را دارند که توهم بزرگی و اهمیت ایجاد کنند و از نظر تجربی اشتباه باشند، بلکه با تقویت وضعیت ناعادلانه باعث ایجاد آسیب واقعی میشوند.
راه عبور از این مخمصه در نظر گرفتن زمینه محیطی است، فرایندی که شامل درک منشا و محیطی است که دادهها از آن جمعآوری شدهاند، و همچنین تلاش فراوانی که باید برای قراردادن زمینه محیطی در ارتباط دادهها صورت گیرد (اعداد نباید در نمودارها همانند جداول داده به تنهایی صحبت کنند). این همچنین شامل تحلیل قدرت اجتماعی در رابطه با تنظیمات داده میشود. کدام عدم توازنهای قدرت منجربه سکوت در مجموعهداده یا دادههایی شده است که بهکلی از دست رفتهاند؟ با منافع چه کسانی در تضاد است که جلوی شفافیت کامل در مورد دادههای خود را میگیرند؟ دانش چه کسی در مورد یک موضوع تحتسلطه قرار گرفته است، و چگونه میتوانیم آن را بازیابی کنیم؟ انگیزهای که برای ایجاد زمینه محیطی، فراداده و منشا داده به وجود آمده، تحسینبرانگیز است، اما تا زمانی که زمینه محیطی را پشتیبانی نکنیم، کارهای برجسته زمینهمندی، به جای اینکه تبدل به قاعده شوند به شکل استثنا باقی خواهد ماند.
DataGénero (Coordinación: Mailén García. Traductoras: Sofía García. Revisión: Helena Suárez Val y Mailén García. Con la ayuda de Diana Duarte Salinas, Ana Amelia Letelier, y Patricia Maria Garcia Iruegas)