Traffic Accidents#

%load_ext autoreload
%autoreload 2
%matplotlib inline

Imports#

from fastai.vision.all import *
from aiking.data.external import * #We need to import this after fastai modules
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import mutual_info_regression

Getting Dataset#

#kaggle datasets download -d sobhanmoosavi/us-accidents
path = untar_data("kaggle_datasets::sobhanmoosavi/us-accidents"); path
Path('/content/drive/MyDrive/PPV/S_Personal_Study/aiking/data/us-accidents')
df = pd.read_csv(path/"US_Accidents_Dec20_updated.csv", parse_dates=['Start_Time', 'Weather_Timestamp', 'End_Time'])
df.head().T
0 1 2 3 4
ID A-2716600 A-2716601 A-2716602 A-2716603 A-2716604
Severity 3 2 2 2 2
Start_Time 2016-02-08 00:37:08 2016-02-08 05:56:20 2016-02-08 06:15:39 2016-02-08 06:15:39 2016-02-08 06:51:45
End_Time 2016-02-08 06:37:08 2016-02-08 11:56:20 2016-02-08 12:15:39 2016-02-08 12:15:39 2016-02-08 12:51:45
Start_Lat 40.10891 39.86542 39.10266 39.10148 41.06213
Start_Lng -83.09286 -84.0628 -84.52468 -84.52341 -81.53784
End_Lat 40.11206 39.86501 39.10209 39.09841 41.06217
End_Lng -83.03187 -84.04873 -84.52396 -84.52241 -81.53547
Distance(mi) 3.23 0.747 0.055 0.219 0.123
Description Between Sawmill Rd/Exit 20 and OH-315/Olentangy Riv Rd/Exit 22 - Accident. At OH-4/OH-235/Exit 41 - Accident. At I-71/US-50/Exit 1 - Accident. At I-71/US-50/Exit 1 - Accident. At Dart Ave/Exit 21 - Accident.
Number NaN NaN NaN NaN NaN
Street Outerbelt E I-70 E I-75 S US-50 E I-77 N
Side R R R R R
City Dublin Dayton Cincinnati Cincinnati Akron
County Franklin Montgomery Hamilton Hamilton Summit
State OH OH OH OH OH
Zipcode 43017 45424 45203 45202 44311
Country US US US US US
Timezone US/Eastern US/Eastern US/Eastern US/Eastern US/Eastern
Airport_Code KOSU KFFO KLUK KLUK KAKR
Weather_Timestamp 2016-02-08 00:53:00 2016-02-08 05:58:00 2016-02-08 05:53:00 2016-02-08 05:53:00 2016-02-08 06:54:00
Temperature(F) 42.1 36.9 36.0 36.0 39.0
Wind_Chill(F) 36.1 NaN NaN NaN NaN
Humidity(%) 58.0 91.0 97.0 97.0 55.0
Pressure(in) 29.76 29.68 29.7 29.7 29.65
Visibility(mi) 10.0 10.0 10.0 10.0 10.0
Wind_Direction SW Calm Calm Calm Calm
Wind_Speed(mph) 10.4 NaN NaN NaN NaN
Precipitation(in) 0.0 0.02 0.02 0.02 NaN
Weather_Condition Light Rain Light Rain Overcast Overcast Overcast
Amenity False False False False False
Bump False False False False False
Crossing False False False False False
Give_Way False False False False False
Junction False False True True False
No_Exit False False False False False
Railway False False False False False
Roundabout False False False False False
Station False False False False False
Stop False False False False False
Traffic_Calming False False False False False
Traffic_Signal False False False False False
Turning_Loop False False False False False
Sunrise_Sunset Night Night Night Night Night
Civil_Twilight Night Night Night Night Night
Nautical_Twilight Night Night Night Night Day
Astronomical_Twilight Night Night Day Day Day
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1516064 entries, 0 to 1516063
Data columns (total 47 columns):
 #   Column                 Non-Null Count    Dtype         
---  ------                 --------------    -----         
 0   ID                     1516064 non-null  object        
 1   Severity               1516064 non-null  int64         
 2   Start_Time             1516064 non-null  datetime64[ns]
 3   End_Time               1516064 non-null  datetime64[ns]
 4   Start_Lat              1516064 non-null  float64       
 5   Start_Lng              1516064 non-null  float64       
 6   End_Lat                1516064 non-null  float64       
 7   End_Lng                1516064 non-null  float64       
 8   Distance(mi)           1516064 non-null  float64       
 9   Description            1516064 non-null  object        
 10  Number                 469969 non-null   float64       
 11  Street                 1516064 non-null  object        
 12  Side                   1516064 non-null  object        
 13  City                   1515981 non-null  object        
 14  County                 1516064 non-null  object        
 15  State                  1516064 non-null  object        
 16  Zipcode                1515129 non-null  object        
 17  Country                1516064 non-null  object        
 18  Timezone               1513762 non-null  object        
 19  Airport_Code           1511816 non-null  object        
 20  Weather_Timestamp      1485800 non-null  datetime64[ns]
 21  Temperature(F)         1473031 non-null  float64       
 22  Wind_Chill(F)          1066748 non-null  float64       
 23  Humidity(%)            1470555 non-null  float64       
 24  Pressure(in)           1479790 non-null  float64       
 25  Visibility(mi)         1471853 non-null  float64       
 26  Wind_Direction         1474206 non-null  object        
 27  Wind_Speed(mph)        1387202 non-null  float64       
 28  Precipitation(in)      1005515 non-null  float64       
 29  Weather_Condition      1472057 non-null  object        
 30  Amenity                1516064 non-null  bool          
 31  Bump                   1516064 non-null  bool          
 32  Crossing               1516064 non-null  bool          
 33  Give_Way               1516064 non-null  bool          
 34  Junction               1516064 non-null  bool          
 35  No_Exit                1516064 non-null  bool          
 36  Railway                1516064 non-null  bool          
 37  Roundabout             1516064 non-null  bool          
 38  Station                1516064 non-null  bool          
 39  Stop                   1516064 non-null  bool          
 40  Traffic_Calming        1516064 non-null  bool          
 41  Traffic_Signal         1516064 non-null  bool          
 42  Turning_Loop           1516064 non-null  bool          
 43  Sunrise_Sunset         1515981 non-null  object        
 44  Civil_Twilight         1515981 non-null  object        
 45  Nautical_Twilight      1515981 non-null  object        
 46  Astronomical_Twilight  1515981 non-null  object        
dtypes: bool(13), datetime64[ns](3), float64(13), int64(1), object(17)
memory usage: 412.1+ MB
df.describe(include='all').T
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:1: FutureWarning: Treating datetime data as categorical rather than numeric in `.describe` is deprecated and will be removed in a future version of pandas. Specify `datetime_is_numeric=True` to silence this warning and adopt the future behavior now.
  """Entry point for launching an IPython kernel.
count unique top freq first last mean std min 25% 50% 75% max
ID 1516064 1516064 A-2716600 1 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Severity 1516064.0 NaN NaN NaN NaT NaT 2.23863 0.608148 1.0 2.0 2.0 2.0 4.0
Start_Time 1516064 1014168 2020-12-16 13:53:25 117 2016-02-08 00:37:08 2020-12-31 23:28:56 NaN NaN NaN NaN NaN NaN NaN
End_Time 1516064 1141423 2017-05-15 15:22:55 73 2016-02-08 06:37:08 2021-01-01 00:00:00 NaN NaN NaN NaN NaN NaN NaN
Start_Lat 1516064.0 NaN NaN NaN NaT NaT 36.900558 5.165653 24.570222 33.854225 37.35113 40.725927 49.00058
Start_Lng 1516064.0 NaN NaN NaN NaT NaT -98.599194 18.496022 -124.497567 -118.207575 -94.381003 -80.87469 -67.113167
End_Lat 1516064.0 NaN NaN NaN NaT NaT 36.900606 5.165629 24.57011 33.854204 37.351342 40.72593 49.075
End_Lng 1516064.0 NaN NaN NaN NaT NaT -98.59901 18.495903 -124.497829 -118.207746 -94.379875 -80.87449 -67.109242
Distance(mi) 1516064.0 NaN NaN NaN NaT NaT 0.587262 1.632659 0.0 0.0 0.178 0.594 155.186
Description 1516064 527655 A crash has occurred causing no to minimum delays. Use caution. 2709 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Number 469969.0 NaN NaN NaN NaT NaT 8907.533114 22421.89671 0.0 1212.0 4000.0 10100.0 9999997.0
Street 1516064 93048 I-5 N 26645 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Side 1516064 2 R 1294562 NaT NaT NaN NaN NaN NaN NaN NaN NaN
City 1515981 10657 Los Angeles 39984 NaT NaT NaN NaN NaN NaN NaN NaN NaN
County 1516064 1671 Los Angeles 138819 NaT NaT NaN NaN NaN NaN NaN NaN NaN
State 1516064 49 CA 448833 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Zipcode 1515129 177196 91761 3617 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Country 1516064 1 US 1516064 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Timezone 1513762 4 US/Eastern 587961 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Airport_Code 1511816 1985 KCQT 30149 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Weather_Timestamp 1485800 331748 2020-12-16 13:53:00 468 2016-02-08 00:53:00 2020-12-31 23:35:00 NaN NaN NaN NaN NaN NaN NaN
Temperature(F) 1473031.0 NaN NaN NaN NaT NaT 59.584597 18.273164 -89.0 47.0 61.0 73.0 170.6
Wind_Chill(F) 1066748.0 NaN NaN NaN NaT NaT 55.10976 21.127345 -89.0 40.8 57.0 71.0 113.0
Humidity(%) 1470555.0 NaN NaN NaN NaT NaT 64.659601 23.259865 1.0 48.0 68.0 84.0 100.0
Pressure(in) 1479790.0 NaN NaN NaN NaT NaT 29.554954 1.016756 0.0 29.44 29.88 30.04 58.04
Visibility(mi) 1471853.0 NaN NaN NaN NaT NaT 9.131755 2.889112 0.0 10.0 10.0 10.0 140.0
Wind_Direction 1474206 24 CALM 202870 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Wind_Speed(mph) 1387202.0 NaN NaN NaN NaT NaT 7.630812 5.637364 0.0 4.6 7.0 10.4 984.0
Precipitation(in) 1005515.0 NaN NaN NaN NaT NaT 0.008478 0.129317 0.0 0.0 0.0 0.0 24.0
Weather_Condition 1472057 116 Fair 465252 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Amenity 1516064 2 False 1503661 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Bump 1516064 2 False 1515803 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Crossing 1516064 2 False 1429681 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Give_Way 1516064 2 False 1512809 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Junction 1516064 2 False 1311566 NaT NaT NaN NaN NaN NaN NaN NaN NaN
No_Exit 1516064 2 False 1514335 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Railway 1516064 2 False 1503480 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Roundabout 1516064 2 False 1516013 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Station 1516064 2 False 1487917 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Stop 1516064 2 False 1498368 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Traffic_Calming 1516064 2 False 1515575 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Traffic_Signal 1516064 2 False 1346095 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Turning_Loop 1516064 1 False 1516064 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Sunrise_Sunset 1515981 2 Day 909838 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Civil_Twilight 1515981 2 Day 969075 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Nautical_Twilight 1515981 2 Day 1035103 NaT NaT NaN NaN NaN NaN NaN NaN NaN
Astronomical_Twilight 1515981 2 Day 1090946 NaT NaT NaN NaN NaN NaN NaN NaN NaN