Count number of nans between two numbers in row - python

I have a Pandas DataFrame with consumption measurements over several days, so that a measurement on a given day represents the consumption over all the previous days without measurements. For each consumer (a row), I have something like
Nan, 10, Nan, Nan, Nan, Nan, Nan, Nan, 21, Nan, ...
meaning that the average consumption between the 10 and the 20 was 21/7=3, i.e., 21 divided by (six NaNs plus one).
The measurements come at irregular intervals, so I need to divide each measurement by the number of NaNs between it and the previous measurement. I want my output from the example above to be Nan, 0.4347, Nan, Nan, Nan, Nan, Nan, Nan, 3, Nan, .... The first measurement should be divided by 23, but I can live without getting it right. How can I do this? Here is an example of my data:
SP ID,2016-12-28,2016-12-29,2016-12-30,2016-12-31,2017-01-01,2017-01-03,2017-01-04,2017-01-05,2017-01-06,2017-01-09,2017-01-10,2017-01-11,2017-01-12,2017-01-13,2017-01-16,2017-01-17,2017-01-18,2017-01-19,2017-01-20,2017-01-21,2017-01-23,2017-01-24,2017-01-25,2017-01-26,2017-01-27,2017-01-29,2017-01-30,2017-01-31,2017-02-01,2017-02-02,2017-02-03,2017-02-06,2017-02-07,2017-02-08,2017-02-09,2017-02-10,2017-02-13,2017-02-14,2017-02-15,2017-02-16,2017-02-17,2017-02-18,2017-02-21,2017-02-22,2017-02-23,2017-02-24,2017-02-27,2017-02-28,2017-03-01,2017-03-02
100854,,,4.0,,,,,,,,,,,,,,,,,,,,,,,,,4.0,,,,,,,,,,,,,,,,,,,,3.0,,
120355,,,9.0,,,,,,,,,,,,,,,,,,,,,,,,9.0,,,,,,,,,,,,,,,,,,,,,,,9.0
200357,,,,,,,,,,,18.0,,,,,,,,,,,,,,,,,,,,,,,,22.0,,,,,,,,,,,,,,,
The expected output is below (dividing the first occurrence by 23). We have for example 4.0/25=0.16.
SP ID,2016-12-28,2016-12-29,2016-12-30,2016-12-31,2017-01-01,2017-01-03,2017-01-04,2017-01-05,2017-01-06,2017-01-09,2017-01-10,2017-01-11,2017-01-12,2017-01-13,2017-01-16,2017-01-17,2017-01-18,2017-01-19,2017-01-20,2017-01-21,2017-01-23,2017-01-24,2017-01-25,2017-01-26,2017-01-27,2017-01-29,2017-01-30,2017-01-31,2017-02-01,2017-02-02,2017-02-03,2017-02-06,2017-02-07,2017-02-08,2017-02-09,2017-02-10,2017-02-13,2017-02-14,2017-02-15,2017-02-16,2017-02-17,2017-02-18,2017-02-21,2017-02-22,2017-02-23,2017-02-24,2017-02-27,2017-02-28,2017-03-01,2017-03-02
100854,,,0.17,,,,,,,,,,,,,,,,,,,,,,,,,0.16,,,,,,,,,,,,,,,,,,,,0.15,,
120355,,,0.391,,,,,,,,,,,,,,,,,,,,,,,,0.375,,,,,,,,,,,,,,,,,,,,,,,0.391
200357,,,,,,,,,,,0.78,,,,,,,,,,,,,,,,,,,,,,,,0.917,,,,,,,,,,,,,,

Apply a custom function on each row using apply with axis=1. Inside the function, you can find the non-null indices and the difference between each consecutive pair. For the first diff, we can hard-code it to 23 as desired.
def row_norm(row):
indices = row.reset_index(drop=True)
indices = indices[indices.notna()].index.values
diffs = [e-s for s, e in zip(indices, indices[1:])]
diffs[0] = 23
row.iloc[indices[1:]] = row.iloc[indices[1:]].astype(float) / diffs
return row
df.apply(row_norm, axis=1)
Result:
SP ID 2016-12-28 2016-12-29 2016-12-30 2016-12-31 2017-01-01 2017-01-03 2017-01-04 2017-01-05 2017-01-06 2017-01-09 2017-01-10 2017-01-11 2017-01-12 2017-01-13 2017-01-16 2017-01-17 2017-01-18 2017-01-19 2017-01-20 2017-01-21 2017-01-23 2017-01-24 2017-01-25 2017-01-26 2017-01-27 2017-01-29 2017-01-30 2017-01-31 2017-02-01 2017-02-02 2017-02-03 2017-02-06 2017-02-07 2017-02-08 2017-02-09 2017-02-10 2017-02-13 2017-02-14 2017-02-15 2017-02-16 2017-02-17 2017-02-18 2017-02-21 2017-02-22 2017-02-23 2017-02-24 2017-02-27 2017-02-28 2017-03-01 2017-03-02
0 100854.0 NaN NaN 0.173913 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.16 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.15 NaN NaN
1 120355.0 NaN NaN 0.391304 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.375 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.391304
2 200357.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.782609 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.916667 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

Related

np.dot returns nan for Dataframe(float64) and np.ndarray(fload64)

I have a squared dataframe containing over 505 rows and columns (a 505x505 matrix)
which I need to dot multiply to an ndarray from numpy (505 items).
the problem is that the result is an ndarray with 505 items, full of nan.
I tried replicating it on a separate notebook, but I wasn't able to.
in
print('df ', df)
print('info ', df.info())
result = np.dot(df, np.random.rand(505))
print('result.shape: ', result.shape)
print('result ', result)
out
df A AAL AAP AAPL ABBV ABC ABMD \
A 0.093188 0.072021 0.048887 0.067503 0.047795 0.052311 0.051706
AAL 0.072021 0.547093 0.099290 0.069475 0.045120 0.066275 0.065950
AAP 0.048887 0.099290 0.143932 0.055590 0.043934 0.059230 0.041979
AAPL 0.067503 0.069475 0.055590 0.140050 0.051688 0.054113 0.060444
ABBV 0.047795 0.045120 0.043934 0.051688 0.096598 0.047673 0.032663
... ... ... ... ... ... ... ...
YUM 0.042185 0.095983 0.058538 0.052228 0.036547 0.046676 0.031293
ZBH 0.054474 0.127670 0.057043 0.054673 0.046718 0.054718 0.053090
ZBRA 0.079731 0.100945 0.064364 0.091272 0.054140 0.062255 0.066586
ZION 0.061233 0.176829 0.075915 0.048804 0.044935 0.066857 0.044151
ZTS 0.060966 0.052413 0.054156 0.069211 0.047445 0.054443 0.041018
XRAY XYL YUM ZBH ZBRA ZION ZTS
A 0.053152 0.064197 0.042185 0.054474 0.079731 0.061233 0.060966
AAL 0.110541 0.125551 0.095983 0.127670 0.100945 0.176829 0.052413
AAP 0.064716 0.071780 0.058538 0.057043 0.064364 0.075915 0.054156
AAPL 0.047973 0.067265 0.052228 0.054673 0.091272 0.048804 0.069211
ABBV 0.049469 0.043552 0.036547 0.046718 0.054140 0.044935 0.047445
... ... ... ... ... ... ... ...
YUM 0.060310 0.059523 0.098728 0.069827 0.051222 0.057302 0.057192
ZBH 0.084555 0.068429 0.069827 0.136291 0.070115 0.089688 0.058264
ZBRA 0.068271 0.085070 0.051222 0.070115 0.185910 0.087744 0.069007
ZION 0.099294 0.098861 0.057302 0.089688 0.087744 0.204927 0.040132
ZTS 0.052646 0.057712 0.057192 0.058264 0.069007 0.040132 0.095019
[505 rows x 505 columns]
<class 'pandas.core.frame.DataFrame'>
Index: 505 entries, A to ZTS
Columns: 505 entries, A to ZTS
dtypes: float64(505)
memory usage: 2.0+ MB
info None
result.shape: (505,)
result [nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan]
In this situation you should use DataFrame.dot
import pandas as pd;
import numpy as np
df = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five'])
other = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five']).transpose()
Notice that the indices of the second DataFrame must match the rows of the first, then you can multiply them
df.dot(other)
# or
other.dot(df)
Remember that the matrix multiplication is not commutative.
If you do df.dot(other) it will return a dataframe with the indices of df and the columns of other, if you call it with a numpy array it will return a dataframe with columns counting [0,1,2,...]

Cubic interpolation in Pandas raises ValueError: The number of derivatives at boundaries does not match: expected 2, got 0+0

I am getting the following error
ValueError: The number of derivatives at boundaries does not match: expected 2, got 0+0
while trying to use cubic interpolation in pandas on a 2d matrix.
mat = pd.read_csv("m.csv")
mat = mat.interpolate(method='cubic')
Csv to reproduce can be downloaded here
I think the issue is that you need at least 4 points for cubic interpolation, look at this : question. It works for column 0:
mat['0'].interpolate(method='cubic', inplace=True)
print(mat)
0 1 2 3 4 5 6 7 8 9 10 11 12 13
0 -0.000347 NaN 0.002546 NaN 0.001891 NaN NaN NaN 0.001845 NaN 0.001507 NaN 0.000452 NaN
1 0.000210 NaN NaN NaN NaN NaN NaN 0.002109 NaN NaN NaN NaN NaN NaN
2 0.000438 NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.004112 NaN NaN NaN
3 0.000419 NaN NaN 0.001114 NaN 0.000599 0.003813 NaN 0.003342 NaN NaN NaN 0.001095 NaN
4 0.000240 0.001143 NaN 0.002955 NaN 0.004867 0.000857 NaN 0.002584 NaN NaN 0.002765 -0.000012 NaN
5 -0.000016 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 -0.000264 NaN NaN -0.000257 NaN 0.002049 0.001710 NaN -0.000041 NaN NaN NaN 0.000934 NaN
7 -0.000419 0.003044 NaN NaN NaN NaN NaN NaN NaN NaN 0.001225 NaN NaN NaN
8 -0.000397 NaN 0.001417 NaN NaN NaN NaN 0.001647 NaN NaN NaN NaN NaN NaN
9 -0.000169 NaN NaN NaN NaN 0.000154 NaN NaN NaN 0.000424 -0.000507 NaN 0.000550 NaN
10 0.000072 NaN NaN 0.000768 NaN NaN 0.000315 NaN NaN 0.000055 -0.000477 NaN 0.002413 NaN
11 0.000078 NaN NaN NaN NaN 0.000512 NaN NaN NaN NaN NaN NaN NaN NaN
12 -0.000399 NaN NaN NaN NaN 0.003461 0.001000 NaN NaN NaN NaN NaN 0.001112 NaN
13 -0.001608 NaN 0.001928 NaN NaN NaN NaN NaN NaN 0.001780 0.002132 NaN NaN NaN

Filtering from pandas pivot table by value in a row

I created a (large) sparse matrix by a pivot table.
UserId ...
1 5.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
5 NaN NaN NaN NaN NaN 2.0 NaN NaN NaN NaN ...
... ... ... ... ... ... ... ... ... ... ... ...
6036 NaN NaN NaN 2.0 NaN 3.0 NaN NaN NaN NaN ...
6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6040 3.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
MovieId 3943 3944 3945 3946 3947 3948 3949 3950 3951 3952
UserId
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ... ... ... ... ...
6036 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6040 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Now, I am looking for a way for, given a row index (e.g. 1) select all index whose values are > 4.0. Is there a simple way to do so?.
I tried the following
df.loc[1] >= 4.0
however what I get is
MovieId
1 True
2 False
3 False
4 False
5 False
...
3948 False
3949 False
3950 False
3951 False
3952 False
Name: 1, Length: 3706, dtype: bool
meaning I am almost there, but not quite. How do I extract the indices corresponding to True?
You can chain two loc selections, the first selects the rows based on label, the second will use a function to subset the columns based on your condition. Or you could use a single nested loc, where the columns mask also calls .loc
import numpy as np
import pandas as pd
np.random.seed(42)
df = pd.DataFrame(np.random.choice([1, np.NaN, 5], p=[.2, .7, .1], size=(2, 40)))
df.loc[1].loc[lambda x: x >= 4]
#or
df.loc[1, df.loc[1] >= 4]
#3 5.0
#10 5.0
#12 5.0
#15 5.0
#29 5.0
#Name: 1, dtype: float64

Select closest time to a certain hour in python pandas

I'm looking to see if there is a way to select the closet time to a certain hour. I have the following. The file contains 10 years worth of data and I've narrowed it down to some time series that I'd want to keep.
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt
from matplotlib.pyplot import *
import datetime
import numpy as np
dateparse = lambda x: pd.datetime.strptime(x, "%d:%m:%Y %H:%M:%S")
aeronet = pd.read_csv('somefile', skiprows = 4, na_values = ['N/A'], parse_dates={'times':[0,1]}, date_parser=dateparse)
aeronet = aeronet.set_index('times')
del aeronet['Julian_Day']
aeronet.between_time('06:00:00', '07:00:00'), aeronet.between_time('12:00:00', '13:00:00')
I've selected a snippet of such. Is there such a way to select just the closest to time to 06 or 12 and it contents and discard/ignore the rest from the pandas series, and do this for the entirety of the file?
times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ...
2000-08-07 06:49:10 NaN 0.380411 0.406041 0.445789 NaN NaN
2000-08-07 06:57:36 NaN 0.353378 0.377769 0.420168 NaN NaN
2000-08-08 06:31:00 NaN 0.322402 0.338164 0.364679 NaN NaN
2000-08-08 06:33:28 NaN 0.337819 0.353995 0.381201 NaN NaN
2000-08-08 06:36:26 NaN 0.347656 0.361839 0.390342 NaN NaN
2000-08-08 06:51:50 NaN 0.306449 0.325672 0.351885 NaN NaN
2000-08-08 06:54:23 NaN 0.336512 0.355386 0.380230 NaN NaN
2000-08-08 06:57:20 NaN 0.330028 0.345679 0.373780 NaN NaN
2000-08-09 06:34:56 NaN 0.290533 0.306911 0.336597 NaN NaN
2000-08-09 06:41:53 NaN 0.294413 0.311553 0.343473 NaN NaN
2000-08-09 06:49:45 NaN 0.311042 0.332054 0.360999 NaN NaN
2000-08-09 06:52:15 NaN 0.319396 0.339932 0.369617 NaN NaN
2000-08-09 06:55:20 NaN 0.327440 0.349084 0.378345 NaN NaN
2000-08-09 06:58:23 NaN 0.323247 0.345273 0.373879 NaN NaN
2000-08-12 06:30:01 NaN 0.465173 0.471528 0.483079 NaN NaN
2000-08-12 06:33:05 NaN 0.460013 0.465674 0.479500 NaN NaN
2000-08-12 06:35:59 NaN 0.433161 0.438488 0.453779 NaN NaN
2000-08-12 06:42:12 NaN 0.406479 0.415580 0.432160 NaN NaN
2000-08-12 06:50:06 NaN 0.414227 0.424330 0.439448 NaN NaN
2000-08-12 06:57:21 NaN 0.396034 0.404258 0.423866 NaN NaN
2000-08-12 06:59:47 NaN 0.372097 0.380798 0.401600 NaN NaN
[6200 rows x 42 columns]
...
times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ...
2000-01-01 12:23:54 NaN 0.513307 0.557325 0.653497 NaN NaN
2000-01-03 12:24:49 NaN 0.439142 0.494118 0.593997 NaN NaN
2000-01-03 12:39:49 NaN 0.429130 0.477874 0.577334 NaN NaN
2000-01-03 12:54:48 NaN 0.437720 0.489006 0.586224 NaN NaN
2000-01-04 12:10:30 NaN 0.325203 0.362335 0.426348 NaN NaN
2000-01-04 12:25:15 NaN 0.323978 0.356274 0.423620 NaN NaN
2000-01-04 12:40:15 NaN 0.325356 0.361138 0.427271 NaN NaN
2000-01-04 12:55:14 NaN 0.326595 0.363519 0.431527 NaN NaN
2000-01-06 12:11:08 NaN 0.282777 0.307676 0.369811 NaN NaN
2000-01-06 12:26:09 NaN 0.285853 0.314178 0.374832 NaN NaN
2000-01-06 12:41:08 NaN 0.258836 0.289263 0.346880 NaN NaN
2000-01-08 12:12:04 NaN 0.165473 0.185018 0.235770 NaN NaN
2000-01-08 12:42:01 NaN 0.143540 0.164647 0.216335 NaN NaN
2000-01-08 12:57:01 NaN 0.142760 0.164886 0.215461 NaN NaN
2000-01-10 12:12:52 NaN 0.192453 0.225909 0.310540 NaN NaN
2000-01-10 12:27:53 NaN 0.202532 0.238400 0.322692 NaN NaN
2000-01-10 12:42:52 NaN 0.199996 0.235561 0.320756 NaN NaN
2000-01-10 12:57:52 NaN 0.208046 0.245054 0.331214 NaN NaN
2000-01-11 12:13:19 NaN 0.588879 0.646470 0.750459 NaN NaN
2000-01-11 12:28:17 NaN 0.621813 0.680442 0.788457 NaN NaN
2000-01-11 12:43:17 NaN 0.626547 0.685880 0.790631 NaN NaN
2000-01-11 12:58:16 NaN 0.631142 0.689125 0.796060 NaN NaN
2000-01-12 12:28:42 NaN 0.535105 0.584593 0.688904 NaN NaN
2000-01-12 12:43:41 NaN 0.518697 0.571025 0.676406 NaN NaN
2000-01-12 12:58:40 NaN 0.528318 0.583229 0.687795 NaN NaN
2000-01-13 12:14:20 NaN 0.382645 0.419463 0.496089 NaN NaN
2000-01-13 12:29:05 NaN 0.376186 0.414921 0.491920 NaN NaN
2000-01-13 12:44:05 NaN 0.387845 0.424576 0.501968 NaN NaN
2000-01-13 12:59:04 NaN 0.386237 0.423254 0.503163 NaN NaN
2000-01-14 12:14:43 NaN 0.400024 0.425522 0.485719 NaN NaN
[6672 rows x 42 columns])
Such a way that the aeronet dataframe looks similar to this when I print it out? I'm hoping to either still do some calculation with it still or export it to excel.
times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ...
2000-08-07 06:49:10 NaN 0.380411 0.406041 0.445789 NaN NaN
2000-08-08 06:31:00 NaN 0.322402 0.338164 0.364679 NaN NaN
2000-08-09 06:34:56 NaN 0.290533 0.306911 0.336597 NaN NaN
2000-08-12 06:30:01 NaN 0.465173 0.471528 0.483079 NaN NaN
....
2000-01-01 12:23:54 NaN 0.513307 0.557325 0.653497 NaN NaN
2000-01-03 12:24:49 NaN 0.439142 0.494118 0.593997 NaN NaN
2000-01-04 12:10:30 NaN 0.325203 0.362335 0.426348 NaN NaN
2000-01-06 12:11:08 NaN 0.282777 0.307676 0.369811 NaN NaN
2000-01-08 12:12:04 NaN 0.165473 0.185018 0.235770 NaN NaN
2000-01-10 12:12:52 NaN 0.192453 0.225909 0.310540 NaN NaN
2000-01-11 12:13:19 NaN 0.588879 0.646470 0.750459 NaN NaN
2000-01-12 12:28:42 NaN 0.535105 0.584593 0.688904 NaN NaN
2000-01-13 12:14:20 NaN 0.382645 0.419463 0.496089 NaN NaN
2000-01-14 12:14:43 NaN 0.400024 0.425522 0.485719 NaN NaN
Probably a more efficient way to do this, but this gets the job done I think.
First, add fields for date and time:
aeronet['date'] = aeronet.times.dt.date
aeronet['time'] = aeronet.times.dt.time
Now, aeronet.date.unique() gets you a list of the unique dates. You'll need it later.
dates = aeronet.date.unique()
Create a column that gives absolute distance from 6 am
from datetime import date, datetime, time
sixam = time(6,0,0,0)
def fromsix(time):
abs(datetime.combine(date.min, time) - datetime.combine(date.min, sixam))
aeronet['fromsix'] = aeronet.time.apply(fromsix)
datetime.combine is necessary because apparently you can't just subtract two times.
And now, finally,
pd.concat([aeronet[aeronet.date == date][aeronet.fromsix == aeronet[aeronet.date == date].fromsix.min()] for date in dates])
use a list comprehension to slice the dataframe into individual dates, find the element with minimal distance from sixam, and concatenate them together.
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html
thats the way to go buddy. efficient, simple, fast.

dropna() for multiple columns

Here is a sample of my dataframe:
benzene toluene styrene xylenes + ethylbenzene 1,3,5-trimethylbenzene propylbenzene chlorobenzene 4-ethyltoluene isopropyl benzene 1,3-butadiene
0 1.1040 NaN NaN NaN NaN NaN NaN NaN NaN 0.1914
1 1.1312 NaN NaN NaN NaN NaN NaN NaN NaN 0.2353
2 1.6092 NaN NaN NaN NaN NaN NaN NaN NaN 0.7289
3 1.2578 NaN NaN NaN NaN NaN NaN NaN NaN 0.3269
4 1.8245 NaN NaN NaN NaN NaN NaN NaN NaN 0.2859
5 1.1438 NaN NaN NaN NaN NaN NaN NaN NaN 0.1229
6 1.1492 NaN NaN NaN NaN NaN NaN NaN NaN 0.4135
7 0.8638 NaN NaN NaN NaN NaN NaN NaN NaN 0.6211
8 1.3209 NaN NaN NaN NaN NaN NaN NaN NaN 0.6243
9 1.8316 NaN NaN NaN NaN NaN NaN NaN NaN 0.6711
10 1.0491 NaN NaN NaN NaN NaN NaN NaN NaN 0.3379
11 1.5014 NaN NaN NaN NaN NaN NaN NaN NaN 0.7981
12 0.8355 NaN NaN NaN NaN NaN NaN NaN NaN 0.2950
13 1.5157 NaN NaN NaN NaN NaN NaN NaN NaN 0.7630
14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
15 0.3561 NaN NaN NaN NaN NaN NaN NaN NaN 0.1983
16 16.9953 NaN NaN NaN NaN NaN NaN NaN NaN 11.6154
17 NaN 2.5533 1.7676 4.8479 2.1782 2.0693 NaN NaN NaN NaN
18 NaN 4.8740 4.5862 5.6155 5.3850 5.1158 NaN NaN NaN NaN
19 NaN 5.5761 7.1540 5.2305 7.0061 6.6558 NaN NaN NaN NaN
20 NaN 5.6369 8.0997 5.0377 7.4323 7.0607 NaN NaN NaN NaN
21 NaN 5.6762 8.5204 5.0503 7.9827 7.5835 NaN NaN NaN NaN
22 NaN 5.7317 8.9214 4.7230 8.4647 8.0415 NaN NaN NaN NaN
23 NaN 5.6349 8.3186 4.2832 8.4023 7.9822 NaN NaN NaN NaN
24 NaN 5.5504 9.1297 4.2451 8.2951 7.8803 NaN NaN NaN NaN
25 NaN 5.9629 9.0821 4.3384 9.0512 8.5986 NaN NaN NaN NaN
26 NaN 5.7665 10.1691 4.2266 8.9481 8.5007 NaN NaN NaN NaN
27 NaN 5.6709 9.1637 4.0334 9.0945 8.6397 NaN NaN NaN NaN
28 NaN 5.8178 8.8859 4.0104 9.0523 8.5997 NaN NaN NaN NaN
29 NaN 5.5470 9.0448 3.9718 8.8667 8.4233 NaN NaN NaN NaN
[...]
Actual size is 66x10
I have sequence of about 17 non NAN values for each column. I would like to drop the Nan cells to have a a full 17x10 table.
I used pd.DataFrame.dropna but it doesn't remove patches of cell. Is there a way to do so without looping over columns?
I think you can use apply with dropna:
df = df.apply(lambda x: pd.Series(x.dropna().values))
print (df)
Another numpy solution with sorting numpy array created by values and then remove rows with all NaN by dropna:
df = pd.DataFrame(np.sort(df.values, axis=0), index=df.index, columns=df.columns)
.dropna(how='all')
print (df)

Categories

Resources