جدول المحتويات

  • لماذا موقع لعلماء الاجتماع؟
  • الباندا
  • مكتبات أخرى حسب مجال البحث
  • هل تريد المشاركة؟


بايثون هي أداة شائعة بشكل متزايد لتحليل البيانات في علماء الاجتماع. بدعم من عدد من المكتبات التي وصلت إلى مرحلة النضج ، ينتقل مستخدمو R و Stata بشكل متزايد إلى Python من أجل الاستفادة من جمال ومرونة وأداء Python دون التضحية بالوظائف التي تراكمت لهذه البرامج القديمة على مر السنين.

ولكن في حين أن بايثون لديها الكثير لتقدمه ، فإن موارد بايثون الحالية ليست دائمًا مناسبة تمامًا لاحتياجات علماء الاجتماع. مع وضع ذلك في الاعتبار ، قمت مؤخرًا بإنشاء مورد جديد – www..data-analysis-in-python.org (DAP) – مصمم خصيصًا لأهداف ورغبات عالم الاجتماع بايثون المستخدم.

الموقع ليس مجموعة جديدة من البرامج التعليمية ، مع ذلك – هناك أكثر من دروس بايثون التعليمية كافية في العالم. بدلاً من ذلك ، فإن الهدف من الموقع هو تنظيم الموارد الموجودة والتعليق عليها ، وتزويد المستخدمين بإرشادات حول الموضوعات التي يجب التركيز عليها والتي يجب تخطيها.


لماذا موقع لعلماء الاجتماع؟

يقضي علماء الاجتماع – وفي الواقع معظم علماء البيانات – معظم وقتهم في محاولة وضع مجموعات البيانات الفردية والمتفردة في الشكل المطلوب لإجراء التحليلات الإحصائية. هذا يجعل الطريقة التي يستخدم بها معظم علماء الاجتماع لغة بايثون مختلفة اختلافًا جوهريًا عن طريقة استخدامها من قبل معظم مطوري البرامج.

يهتم علماء الاجتماع في المقام الأول بكتابة برامج بسيطة نسبيًا (نصوص) تنفذ سلسلة من الأوامر (إعادة ترميز المتغيرات ، ودمج مجموعات البيانات ، وتحليل المستندات النصية ، وما إلى ذلك) لترتيب بياناتهم في نموذج يمكنهم تحليله. ونظرًا لأنهم عادةً ما يكتبون نصوصهم لتطبيق خاص ومجموعة من البيانات ، فهم لا يركزون عمومًا على كتابة التعليمات البرمجية مع الكثير من التجريدات.

بعبارة أخرى ، يميل علماء الاجتماع إلى الاهتمام بشكل أساسي بتعلم استخدام الأدوات الحالية بشكل فعال ، وليس تطوير أدوات جديدة.

لهذا السبب ، يميل علماء الاجتماع الذين يتعلمون لغة بايثون إلى أن يكون لديهم أولويات مختلفة من حيث تنمية المهارات عن مطوري البرمجيات. ومع ذلك ، تمت كتابة معظم البرامج التعليمية عبر الإنترنت للمطورين أو طلاب علوم الكمبيوتر ، لذا فإن أحد أهداف برنامج المساعدة الإنمائية (DAP) هو تزويد علماء الاجتماع ببعض الإرشادات حول المهارات التي يجب أن يعطوها الأولوية في تدريبهم المبكر. على وجه الخصوص ، يقترح DAP:

تحتاج على الفور:

  • أنواع البيانات: الأعداد الصحيحة ، والعوامات ، والسلاسل ، والمنطقية ، والقوائم ، والقواميس ، والمجموعات (المجموعات اختيارية نوعًا ما)
  • تحديد الوظائف
  • حلقات الكتابة
  • فهم أنواع البيانات المتغيرة مقابل غير القابلة للتغيير
  • طرق التلاعب بالسلاسل
  • استيراد وحدات الطرف الثالث
  • قراءة وتفسير الأخطاء


أشياء سترغب في معرفتها في وقت ما ، ولكن ليست ضرورية على الفور:

  • أدوات تصحيح الأخطاء المتقدمة (مثل PDB)
  • إدخال / إخراج الملف (تحتوي معظم المكتبات التي ستستخدمها على أدوات لتبسيط ذلك من أجلك)


لا تحتاج:

  • تحديد أو كتابة الفصول
  • فهم الاستثناءات


الباندا

اليوم ، تظل معظم العلوم الاجتماعية التجريبية منظمة حول البيانات المجدولة ، مما يعني البيانات التي يتم تقديمها مع متغير مختلف في كل عمود وملاحظة مختلفة في كل صف. نتيجة لذلك ، يشعر العديد من علماء الاجتماع الذين يستخدمون Python بالارتباك قليلاً عندما لا يجدون بنية بيانات مجدولة مغطاة في مقدمة برنامج Python التعليمي. لمعالجة هذا الالتباس ، يبذل DAP قصارى جهده لتعريف المستخدمين بمكتبة الباندا بأسرع ما يمكن ، حيث يوفر روابط إلى البرامج التعليمية وبعض النصائح حول مسكتك التي يجب الانتباه إليها.

تكرر مكتبة الباندا الكثير من الوظائف التي يستخدمها علماء الاجتماع للبحث في Stata أو R – يمكن تمثيل البيانات بتنسيق جدولي ، ويمكن تسمية متغيرات الأعمدة بسهولة ، ويمكن دمج أعمدة من أنواع مختلفة (مثل العوامات والسلاسل) في نفس مجموعة البيانات.

تعد الباندا أيضًا بوابة للعديد من الأدوات الأخرى التي من المحتمل أن يستخدمها علماء الاجتماع ، مثل مكتبات الرسوم البيانية (seaborn و ggplot2) ومكتبة statsmodels للاقتصاد القياسي.
مكتبات أخرى حسب مجال البحث

بينما سيحتاج جميع علماء الاجتماع الذين يرغبون في العمل مع Python إلى فهم اللغة الأساسية وسيرغب معظمهم في التعرف على الباندا ، فإن نظام Python البيئي مليء بالمكتبات الخاصة بالتطبيقات والتي لن تكون مفيدة إلا لمجموعة فرعية من المستخدمين . مع أخذ ذلك في الاعتبار ، يوفر DAP نظرة عامة على المكتبات لمساعدة الباحثين الذين يعملون في مجالات مواضيع مختلفة ، إلى جانب روابط لمواد حول الاستخدام الأمثل ، وإرشادات حول الاعتبارات ذات الصلة:

  • تحليل الشبكة: iGraph
  • تحليل النص: NLTK ، وإذا لزم الأمر coreNLP
  • الاقتصاد القياسي: statsmodels
  • الرسوم البيانية: ggplot و seaborn
  • البيانات الضخمة: dask و pyspark
  • التحليل الجغرافي المكاني: arcpy أو geopandas
  • جعل الكود أسرع:٪ prun في iPython (للتنميط) و numba (لتجميع JIT)


هل تريد المشاركة؟

هذا الموقع حديث العهد، لذلك نحن حريصون على الحصول على أكبر قدر ممكن من المدخلات على المحتوى والتصميم. إذا كانت لديك خبرة في هذا المجال وتريد مشاركتها، فالرجاء مراسلتي عبر البريد الإلكتروني أو التعليق على Github.