Traffic Accidents
Contents
Traffic Accidents#
%load_ext autoreload
%autoreload 2
%matplotlib inline
Imports#
from fastai.vision.all import *
from aiking.data.external import * #We need to import this after fastai modules
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import mutual_info_regression
Getting Dataset#
#kaggle datasets download -d sobhanmoosavi/us-accidents
path = untar_data("kaggle_datasets::sobhanmoosavi/us-accidents"); path
Path('/content/drive/MyDrive/PPV/S_Personal_Study/aiking/data/us-accidents')
df = pd.read_csv(path/"US_Accidents_Dec20_updated.csv", parse_dates=['Start_Time', 'Weather_Timestamp', 'End_Time'])
df.head().T
0 | 1 | 2 | 3 | 4 | |
---|---|---|---|---|---|
ID | A-2716600 | A-2716601 | A-2716602 | A-2716603 | A-2716604 |
Severity | 3 | 2 | 2 | 2 | 2 |
Start_Time | 2016-02-08 00:37:08 | 2016-02-08 05:56:20 | 2016-02-08 06:15:39 | 2016-02-08 06:15:39 | 2016-02-08 06:51:45 |
End_Time | 2016-02-08 06:37:08 | 2016-02-08 11:56:20 | 2016-02-08 12:15:39 | 2016-02-08 12:15:39 | 2016-02-08 12:51:45 |
Start_Lat | 40.10891 | 39.86542 | 39.10266 | 39.10148 | 41.06213 |
Start_Lng | -83.09286 | -84.0628 | -84.52468 | -84.52341 | -81.53784 |
End_Lat | 40.11206 | 39.86501 | 39.10209 | 39.09841 | 41.06217 |
End_Lng | -83.03187 | -84.04873 | -84.52396 | -84.52241 | -81.53547 |
Distance(mi) | 3.23 | 0.747 | 0.055 | 0.219 | 0.123 |
Description | Between Sawmill Rd/Exit 20 and OH-315/Olentangy Riv Rd/Exit 22 - Accident. | At OH-4/OH-235/Exit 41 - Accident. | At I-71/US-50/Exit 1 - Accident. | At I-71/US-50/Exit 1 - Accident. | At Dart Ave/Exit 21 - Accident. |
Number | NaN | NaN | NaN | NaN | NaN |
Street | Outerbelt E | I-70 E | I-75 S | US-50 E | I-77 N |
Side | R | R | R | R | R |
City | Dublin | Dayton | Cincinnati | Cincinnati | Akron |
County | Franklin | Montgomery | Hamilton | Hamilton | Summit |
State | OH | OH | OH | OH | OH |
Zipcode | 43017 | 45424 | 45203 | 45202 | 44311 |
Country | US | US | US | US | US |
Timezone | US/Eastern | US/Eastern | US/Eastern | US/Eastern | US/Eastern |
Airport_Code | KOSU | KFFO | KLUK | KLUK | KAKR |
Weather_Timestamp | 2016-02-08 00:53:00 | 2016-02-08 05:58:00 | 2016-02-08 05:53:00 | 2016-02-08 05:53:00 | 2016-02-08 06:54:00 |
Temperature(F) | 42.1 | 36.9 | 36.0 | 36.0 | 39.0 |
Wind_Chill(F) | 36.1 | NaN | NaN | NaN | NaN |
Humidity(%) | 58.0 | 91.0 | 97.0 | 97.0 | 55.0 |
Pressure(in) | 29.76 | 29.68 | 29.7 | 29.7 | 29.65 |
Visibility(mi) | 10.0 | 10.0 | 10.0 | 10.0 | 10.0 |
Wind_Direction | SW | Calm | Calm | Calm | Calm |
Wind_Speed(mph) | 10.4 | NaN | NaN | NaN | NaN |
Precipitation(in) | 0.0 | 0.02 | 0.02 | 0.02 | NaN |
Weather_Condition | Light Rain | Light Rain | Overcast | Overcast | Overcast |
Amenity | False | False | False | False | False |
Bump | False | False | False | False | False |
Crossing | False | False | False | False | False |
Give_Way | False | False | False | False | False |
Junction | False | False | True | True | False |
No_Exit | False | False | False | False | False |
Railway | False | False | False | False | False |
Roundabout | False | False | False | False | False |
Station | False | False | False | False | False |
Stop | False | False | False | False | False |
Traffic_Calming | False | False | False | False | False |
Traffic_Signal | False | False | False | False | False |
Turning_Loop | False | False | False | False | False |
Sunrise_Sunset | Night | Night | Night | Night | Night |
Civil_Twilight | Night | Night | Night | Night | Night |
Nautical_Twilight | Night | Night | Night | Night | Day |
Astronomical_Twilight | Night | Night | Day | Day | Day |
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1516064 entries, 0 to 1516063
Data columns (total 47 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ID 1516064 non-null object
1 Severity 1516064 non-null int64
2 Start_Time 1516064 non-null datetime64[ns]
3 End_Time 1516064 non-null datetime64[ns]
4 Start_Lat 1516064 non-null float64
5 Start_Lng 1516064 non-null float64
6 End_Lat 1516064 non-null float64
7 End_Lng 1516064 non-null float64
8 Distance(mi) 1516064 non-null float64
9 Description 1516064 non-null object
10 Number 469969 non-null float64
11 Street 1516064 non-null object
12 Side 1516064 non-null object
13 City 1515981 non-null object
14 County 1516064 non-null object
15 State 1516064 non-null object
16 Zipcode 1515129 non-null object
17 Country 1516064 non-null object
18 Timezone 1513762 non-null object
19 Airport_Code 1511816 non-null object
20 Weather_Timestamp 1485800 non-null datetime64[ns]
21 Temperature(F) 1473031 non-null float64
22 Wind_Chill(F) 1066748 non-null float64
23 Humidity(%) 1470555 non-null float64
24 Pressure(in) 1479790 non-null float64
25 Visibility(mi) 1471853 non-null float64
26 Wind_Direction 1474206 non-null object
27 Wind_Speed(mph) 1387202 non-null float64
28 Precipitation(in) 1005515 non-null float64
29 Weather_Condition 1472057 non-null object
30 Amenity 1516064 non-null bool
31 Bump 1516064 non-null bool
32 Crossing 1516064 non-null bool
33 Give_Way 1516064 non-null bool
34 Junction 1516064 non-null bool
35 No_Exit 1516064 non-null bool
36 Railway 1516064 non-null bool
37 Roundabout 1516064 non-null bool
38 Station 1516064 non-null bool
39 Stop 1516064 non-null bool
40 Traffic_Calming 1516064 non-null bool
41 Traffic_Signal 1516064 non-null bool
42 Turning_Loop 1516064 non-null bool
43 Sunrise_Sunset 1515981 non-null object
44 Civil_Twilight 1515981 non-null object
45 Nautical_Twilight 1515981 non-null object
46 Astronomical_Twilight 1515981 non-null object
dtypes: bool(13), datetime64[ns](3), float64(13), int64(1), object(17)
memory usage: 412.1+ MB
df.describe(include='all').T
/usr/local/lib/python3.7/dist-packages/ipykernel_launcher.py:1: FutureWarning: Treating datetime data as categorical rather than numeric in `.describe` is deprecated and will be removed in a future version of pandas. Specify `datetime_is_numeric=True` to silence this warning and adopt the future behavior now.
"""Entry point for launching an IPython kernel.
count | unique | top | freq | first | last | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID | 1516064 | 1516064 | A-2716600 | 1 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Severity | 1516064.0 | NaN | NaN | NaN | NaT | NaT | 2.23863 | 0.608148 | 1.0 | 2.0 | 2.0 | 2.0 | 4.0 |
Start_Time | 1516064 | 1014168 | 2020-12-16 13:53:25 | 117 | 2016-02-08 00:37:08 | 2020-12-31 23:28:56 | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
End_Time | 1516064 | 1141423 | 2017-05-15 15:22:55 | 73 | 2016-02-08 06:37:08 | 2021-01-01 00:00:00 | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Start_Lat | 1516064.0 | NaN | NaN | NaN | NaT | NaT | 36.900558 | 5.165653 | 24.570222 | 33.854225 | 37.35113 | 40.725927 | 49.00058 |
Start_Lng | 1516064.0 | NaN | NaN | NaN | NaT | NaT | -98.599194 | 18.496022 | -124.497567 | -118.207575 | -94.381003 | -80.87469 | -67.113167 |
End_Lat | 1516064.0 | NaN | NaN | NaN | NaT | NaT | 36.900606 | 5.165629 | 24.57011 | 33.854204 | 37.351342 | 40.72593 | 49.075 |
End_Lng | 1516064.0 | NaN | NaN | NaN | NaT | NaT | -98.59901 | 18.495903 | -124.497829 | -118.207746 | -94.379875 | -80.87449 | -67.109242 |
Distance(mi) | 1516064.0 | NaN | NaN | NaN | NaT | NaT | 0.587262 | 1.632659 | 0.0 | 0.0 | 0.178 | 0.594 | 155.186 |
Description | 1516064 | 527655 | A crash has occurred causing no to minimum delays. Use caution. | 2709 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Number | 469969.0 | NaN | NaN | NaN | NaT | NaT | 8907.533114 | 22421.89671 | 0.0 | 1212.0 | 4000.0 | 10100.0 | 9999997.0 |
Street | 1516064 | 93048 | I-5 N | 26645 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Side | 1516064 | 2 | R | 1294562 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
City | 1515981 | 10657 | Los Angeles | 39984 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
County | 1516064 | 1671 | Los Angeles | 138819 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
State | 1516064 | 49 | CA | 448833 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Zipcode | 1515129 | 177196 | 91761 | 3617 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Country | 1516064 | 1 | US | 1516064 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Timezone | 1513762 | 4 | US/Eastern | 587961 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Airport_Code | 1511816 | 1985 | KCQT | 30149 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Weather_Timestamp | 1485800 | 331748 | 2020-12-16 13:53:00 | 468 | 2016-02-08 00:53:00 | 2020-12-31 23:35:00 | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Temperature(F) | 1473031.0 | NaN | NaN | NaN | NaT | NaT | 59.584597 | 18.273164 | -89.0 | 47.0 | 61.0 | 73.0 | 170.6 |
Wind_Chill(F) | 1066748.0 | NaN | NaN | NaN | NaT | NaT | 55.10976 | 21.127345 | -89.0 | 40.8 | 57.0 | 71.0 | 113.0 |
Humidity(%) | 1470555.0 | NaN | NaN | NaN | NaT | NaT | 64.659601 | 23.259865 | 1.0 | 48.0 | 68.0 | 84.0 | 100.0 |
Pressure(in) | 1479790.0 | NaN | NaN | NaN | NaT | NaT | 29.554954 | 1.016756 | 0.0 | 29.44 | 29.88 | 30.04 | 58.04 |
Visibility(mi) | 1471853.0 | NaN | NaN | NaN | NaT | NaT | 9.131755 | 2.889112 | 0.0 | 10.0 | 10.0 | 10.0 | 140.0 |
Wind_Direction | 1474206 | 24 | CALM | 202870 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Wind_Speed(mph) | 1387202.0 | NaN | NaN | NaN | NaT | NaT | 7.630812 | 5.637364 | 0.0 | 4.6 | 7.0 | 10.4 | 984.0 |
Precipitation(in) | 1005515.0 | NaN | NaN | NaN | NaT | NaT | 0.008478 | 0.129317 | 0.0 | 0.0 | 0.0 | 0.0 | 24.0 |
Weather_Condition | 1472057 | 116 | Fair | 465252 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Amenity | 1516064 | 2 | False | 1503661 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Bump | 1516064 | 2 | False | 1515803 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Crossing | 1516064 | 2 | False | 1429681 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Give_Way | 1516064 | 2 | False | 1512809 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Junction | 1516064 | 2 | False | 1311566 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
No_Exit | 1516064 | 2 | False | 1514335 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Railway | 1516064 | 2 | False | 1503480 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Roundabout | 1516064 | 2 | False | 1516013 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Station | 1516064 | 2 | False | 1487917 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Stop | 1516064 | 2 | False | 1498368 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Traffic_Calming | 1516064 | 2 | False | 1515575 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Traffic_Signal | 1516064 | 2 | False | 1346095 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Turning_Loop | 1516064 | 1 | False | 1516064 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Sunrise_Sunset | 1515981 | 2 | Day | 909838 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Civil_Twilight | 1515981 | 2 | Day | 969075 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Nautical_Twilight | 1515981 | 2 | Day | 1035103 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Astronomical_Twilight | 1515981 | 2 | Day | 1090946 | NaT | NaT | NaN | NaN | NaN | NaN | NaN | NaN | NaN |