Count number of nans between two numbers in row - python
I have a Pandas DataFrame with consumption measurements over several days, so that a measurement on a given day represents the consumption over all the previous days without measurements. For each consumer (a row), I have something like
Nan, 10, Nan, Nan, Nan, Nan, Nan, Nan, 21, Nan, ...
meaning that the average consumption between the 10 and the 20 was 21/7=3, i.e., 21 divided by (six NaNs plus one).
The measurements come at irregular intervals, so I need to divide each measurement by the number of NaNs between it and the previous measurement. I want my output from the example above to be Nan, 0.4347, Nan, Nan, Nan, Nan, Nan, Nan, 3, Nan, .... The first measurement should be divided by 23, but I can live without getting it right. How can I do this? Here is an example of my data:
SP ID,2016-12-28,2016-12-29,2016-12-30,2016-12-31,2017-01-01,2017-01-03,2017-01-04,2017-01-05,2017-01-06,2017-01-09,2017-01-10,2017-01-11,2017-01-12,2017-01-13,2017-01-16,2017-01-17,2017-01-18,2017-01-19,2017-01-20,2017-01-21,2017-01-23,2017-01-24,2017-01-25,2017-01-26,2017-01-27,2017-01-29,2017-01-30,2017-01-31,2017-02-01,2017-02-02,2017-02-03,2017-02-06,2017-02-07,2017-02-08,2017-02-09,2017-02-10,2017-02-13,2017-02-14,2017-02-15,2017-02-16,2017-02-17,2017-02-18,2017-02-21,2017-02-22,2017-02-23,2017-02-24,2017-02-27,2017-02-28,2017-03-01,2017-03-02
100854,,,4.0,,,,,,,,,,,,,,,,,,,,,,,,,4.0,,,,,,,,,,,,,,,,,,,,3.0,,
120355,,,9.0,,,,,,,,,,,,,,,,,,,,,,,,9.0,,,,,,,,,,,,,,,,,,,,,,,9.0
200357,,,,,,,,,,,18.0,,,,,,,,,,,,,,,,,,,,,,,,22.0,,,,,,,,,,,,,,,
The expected output is below (dividing the first occurrence by 23). We have for example 4.0/25=0.16.
SP ID,2016-12-28,2016-12-29,2016-12-30,2016-12-31,2017-01-01,2017-01-03,2017-01-04,2017-01-05,2017-01-06,2017-01-09,2017-01-10,2017-01-11,2017-01-12,2017-01-13,2017-01-16,2017-01-17,2017-01-18,2017-01-19,2017-01-20,2017-01-21,2017-01-23,2017-01-24,2017-01-25,2017-01-26,2017-01-27,2017-01-29,2017-01-30,2017-01-31,2017-02-01,2017-02-02,2017-02-03,2017-02-06,2017-02-07,2017-02-08,2017-02-09,2017-02-10,2017-02-13,2017-02-14,2017-02-15,2017-02-16,2017-02-17,2017-02-18,2017-02-21,2017-02-22,2017-02-23,2017-02-24,2017-02-27,2017-02-28,2017-03-01,2017-03-02
100854,,,0.17,,,,,,,,,,,,,,,,,,,,,,,,,0.16,,,,,,,,,,,,,,,,,,,,0.15,,
120355,,,0.391,,,,,,,,,,,,,,,,,,,,,,,,0.375,,,,,,,,,,,,,,,,,,,,,,,0.391
200357,,,,,,,,,,,0.78,,,,,,,,,,,,,,,,,,,,,,,,0.917,,,,,,,,,,,,,,
Apply a custom function on each row using apply with axis=1. Inside the function, you can find the non-null indices and the difference between each consecutive pair. For the first diff, we can hard-code it to 23 as desired.
def row_norm(row):
indices = row.reset_index(drop=True)
indices = indices[indices.notna()].index.values
diffs = [e-s for s, e in zip(indices, indices[1:])]
diffs[0] = 23
row.iloc[indices[1:]] = row.iloc[indices[1:]].astype(float) / diffs
return row
df.apply(row_norm, axis=1)
Result:
SP ID 2016-12-28 2016-12-29 2016-12-30 2016-12-31 2017-01-01 2017-01-03 2017-01-04 2017-01-05 2017-01-06 2017-01-09 2017-01-10 2017-01-11 2017-01-12 2017-01-13 2017-01-16 2017-01-17 2017-01-18 2017-01-19 2017-01-20 2017-01-21 2017-01-23 2017-01-24 2017-01-25 2017-01-26 2017-01-27 2017-01-29 2017-01-30 2017-01-31 2017-02-01 2017-02-02 2017-02-03 2017-02-06 2017-02-07 2017-02-08 2017-02-09 2017-02-10 2017-02-13 2017-02-14 2017-02-15 2017-02-16 2017-02-17 2017-02-18 2017-02-21 2017-02-22 2017-02-23 2017-02-24 2017-02-27 2017-02-28 2017-03-01 2017-03-02
0 100854.0 NaN NaN 0.173913 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.16 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.15 NaN NaN
1 120355.0 NaN NaN 0.391304 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.375 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.391304
2 200357.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.782609 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.916667 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Related
np.dot returns nan for Dataframe(float64) and np.ndarray(fload64)
I have a squared dataframe containing over 505 rows and columns (a 505x505 matrix) which I need to dot multiply to an ndarray from numpy (505 items). the problem is that the result is an ndarray with 505 items, full of nan. I tried replicating it on a separate notebook, but I wasn't able to. in print('df ', df) print('info ', df.info()) result = np.dot(df, np.random.rand(505)) print('result.shape: ', result.shape) print('result ', result) out df A AAL AAP AAPL ABBV ABC ABMD \ A 0.093188 0.072021 0.048887 0.067503 0.047795 0.052311 0.051706 AAL 0.072021 0.547093 0.099290 0.069475 0.045120 0.066275 0.065950 AAP 0.048887 0.099290 0.143932 0.055590 0.043934 0.059230 0.041979 AAPL 0.067503 0.069475 0.055590 0.140050 0.051688 0.054113 0.060444 ABBV 0.047795 0.045120 0.043934 0.051688 0.096598 0.047673 0.032663 ... ... ... ... ... ... ... ... YUM 0.042185 0.095983 0.058538 0.052228 0.036547 0.046676 0.031293 ZBH 0.054474 0.127670 0.057043 0.054673 0.046718 0.054718 0.053090 ZBRA 0.079731 0.100945 0.064364 0.091272 0.054140 0.062255 0.066586 ZION 0.061233 0.176829 0.075915 0.048804 0.044935 0.066857 0.044151 ZTS 0.060966 0.052413 0.054156 0.069211 0.047445 0.054443 0.041018 XRAY XYL YUM ZBH ZBRA ZION ZTS A 0.053152 0.064197 0.042185 0.054474 0.079731 0.061233 0.060966 AAL 0.110541 0.125551 0.095983 0.127670 0.100945 0.176829 0.052413 AAP 0.064716 0.071780 0.058538 0.057043 0.064364 0.075915 0.054156 AAPL 0.047973 0.067265 0.052228 0.054673 0.091272 0.048804 0.069211 ABBV 0.049469 0.043552 0.036547 0.046718 0.054140 0.044935 0.047445 ... ... ... ... ... ... ... ... YUM 0.060310 0.059523 0.098728 0.069827 0.051222 0.057302 0.057192 ZBH 0.084555 0.068429 0.069827 0.136291 0.070115 0.089688 0.058264 ZBRA 0.068271 0.085070 0.051222 0.070115 0.185910 0.087744 0.069007 ZION 0.099294 0.098861 0.057302 0.089688 0.087744 0.204927 0.040132 ZTS 0.052646 0.057712 0.057192 0.058264 0.069007 0.040132 0.095019 [505 rows x 505 columns] <class 'pandas.core.frame.DataFrame'> Index: 505 entries, A to ZTS Columns: 505 entries, A to ZTS dtypes: float64(505) memory usage: 2.0+ MB info None result.shape: (505,) result [nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan]
In this situation you should use DataFrame.dot import pandas as pd; import numpy as np df = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five']) other = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five']).transpose() Notice that the indices of the second DataFrame must match the rows of the first, then you can multiply them df.dot(other) # or other.dot(df) Remember that the matrix multiplication is not commutative. If you do df.dot(other) it will return a dataframe with the indices of df and the columns of other, if you call it with a numpy array it will return a dataframe with columns counting [0,1,2,...]
Cubic interpolation in Pandas raises ValueError: The number of derivatives at boundaries does not match: expected 2, got 0+0
I am getting the following error ValueError: The number of derivatives at boundaries does not match: expected 2, got 0+0 while trying to use cubic interpolation in pandas on a 2d matrix. mat = pd.read_csv("m.csv") mat = mat.interpolate(method='cubic') Csv to reproduce can be downloaded here
I think the issue is that you need at least 4 points for cubic interpolation, look at this : question. It works for column 0: mat['0'].interpolate(method='cubic', inplace=True) print(mat) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 -0.000347 NaN 0.002546 NaN 0.001891 NaN NaN NaN 0.001845 NaN 0.001507 NaN 0.000452 NaN 1 0.000210 NaN NaN NaN NaN NaN NaN 0.002109 NaN NaN NaN NaN NaN NaN 2 0.000438 NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.004112 NaN NaN NaN 3 0.000419 NaN NaN 0.001114 NaN 0.000599 0.003813 NaN 0.003342 NaN NaN NaN 0.001095 NaN 4 0.000240 0.001143 NaN 0.002955 NaN 0.004867 0.000857 NaN 0.002584 NaN NaN 0.002765 -0.000012 NaN 5 -0.000016 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 6 -0.000264 NaN NaN -0.000257 NaN 0.002049 0.001710 NaN -0.000041 NaN NaN NaN 0.000934 NaN 7 -0.000419 0.003044 NaN NaN NaN NaN NaN NaN NaN NaN 0.001225 NaN NaN NaN 8 -0.000397 NaN 0.001417 NaN NaN NaN NaN 0.001647 NaN NaN NaN NaN NaN NaN 9 -0.000169 NaN NaN NaN NaN 0.000154 NaN NaN NaN 0.000424 -0.000507 NaN 0.000550 NaN 10 0.000072 NaN NaN 0.000768 NaN NaN 0.000315 NaN NaN 0.000055 -0.000477 NaN 0.002413 NaN 11 0.000078 NaN NaN NaN NaN 0.000512 NaN NaN NaN NaN NaN NaN NaN NaN 12 -0.000399 NaN NaN NaN NaN 0.003461 0.001000 NaN NaN NaN NaN NaN 0.001112 NaN 13 -0.001608 NaN 0.001928 NaN NaN NaN NaN NaN NaN 0.001780 0.002132 NaN NaN NaN
Filtering from pandas pivot table by value in a row
I created a (large) sparse matrix by a pivot table. UserId ... 1 5.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 5 NaN NaN NaN NaN NaN 2.0 NaN NaN NaN NaN ... ... ... ... ... ... ... ... ... ... ... ... ... 6036 NaN NaN NaN 2.0 NaN 3.0 NaN NaN NaN NaN ... 6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 6040 3.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... MovieId 3943 3944 3945 3946 3947 3948 3949 3950 3951 3952 UserId 1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 5 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... ... ... ... ... ... ... ... ... ... ... 6036 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 6040 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN Now, I am looking for a way for, given a row index (e.g. 1) select all index whose values are > 4.0. Is there a simple way to do so?. I tried the following df.loc[1] >= 4.0 however what I get is MovieId 1 True 2 False 3 False 4 False 5 False ... 3948 False 3949 False 3950 False 3951 False 3952 False Name: 1, Length: 3706, dtype: bool meaning I am almost there, but not quite. How do I extract the indices corresponding to True?
You can chain two loc selections, the first selects the rows based on label, the second will use a function to subset the columns based on your condition. Or you could use a single nested loc, where the columns mask also calls .loc import numpy as np import pandas as pd np.random.seed(42) df = pd.DataFrame(np.random.choice([1, np.NaN, 5], p=[.2, .7, .1], size=(2, 40))) df.loc[1].loc[lambda x: x >= 4] #or df.loc[1, df.loc[1] >= 4] #3 5.0 #10 5.0 #12 5.0 #15 5.0 #29 5.0 #Name: 1, dtype: float64
Select closest time to a certain hour in python pandas
I'm looking to see if there is a way to select the closet time to a certain hour. I have the following. The file contains 10 years worth of data and I've narrowed it down to some time series that I'd want to keep. import pandas as pd from pandas import DataFrame import matplotlib.pyplot as plt from matplotlib.pyplot import * import datetime import numpy as np dateparse = lambda x: pd.datetime.strptime(x, "%d:%m:%Y %H:%M:%S") aeronet = pd.read_csv('somefile', skiprows = 4, na_values = ['N/A'], parse_dates={'times':[0,1]}, date_parser=dateparse) aeronet = aeronet.set_index('times') del aeronet['Julian_Day'] aeronet.between_time('06:00:00', '07:00:00'), aeronet.between_time('12:00:00', '13:00:00') I've selected a snippet of such. Is there such a way to select just the closest to time to 06 or 12 and it contents and discard/ignore the rest from the pandas series, and do this for the entirety of the file? times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ... 2000-08-07 06:49:10 NaN 0.380411 0.406041 0.445789 NaN NaN 2000-08-07 06:57:36 NaN 0.353378 0.377769 0.420168 NaN NaN 2000-08-08 06:31:00 NaN 0.322402 0.338164 0.364679 NaN NaN 2000-08-08 06:33:28 NaN 0.337819 0.353995 0.381201 NaN NaN 2000-08-08 06:36:26 NaN 0.347656 0.361839 0.390342 NaN NaN 2000-08-08 06:51:50 NaN 0.306449 0.325672 0.351885 NaN NaN 2000-08-08 06:54:23 NaN 0.336512 0.355386 0.380230 NaN NaN 2000-08-08 06:57:20 NaN 0.330028 0.345679 0.373780 NaN NaN 2000-08-09 06:34:56 NaN 0.290533 0.306911 0.336597 NaN NaN 2000-08-09 06:41:53 NaN 0.294413 0.311553 0.343473 NaN NaN 2000-08-09 06:49:45 NaN 0.311042 0.332054 0.360999 NaN NaN 2000-08-09 06:52:15 NaN 0.319396 0.339932 0.369617 NaN NaN 2000-08-09 06:55:20 NaN 0.327440 0.349084 0.378345 NaN NaN 2000-08-09 06:58:23 NaN 0.323247 0.345273 0.373879 NaN NaN 2000-08-12 06:30:01 NaN 0.465173 0.471528 0.483079 NaN NaN 2000-08-12 06:33:05 NaN 0.460013 0.465674 0.479500 NaN NaN 2000-08-12 06:35:59 NaN 0.433161 0.438488 0.453779 NaN NaN 2000-08-12 06:42:12 NaN 0.406479 0.415580 0.432160 NaN NaN 2000-08-12 06:50:06 NaN 0.414227 0.424330 0.439448 NaN NaN 2000-08-12 06:57:21 NaN 0.396034 0.404258 0.423866 NaN NaN 2000-08-12 06:59:47 NaN 0.372097 0.380798 0.401600 NaN NaN [6200 rows x 42 columns] ... times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ... 2000-01-01 12:23:54 NaN 0.513307 0.557325 0.653497 NaN NaN 2000-01-03 12:24:49 NaN 0.439142 0.494118 0.593997 NaN NaN 2000-01-03 12:39:49 NaN 0.429130 0.477874 0.577334 NaN NaN 2000-01-03 12:54:48 NaN 0.437720 0.489006 0.586224 NaN NaN 2000-01-04 12:10:30 NaN 0.325203 0.362335 0.426348 NaN NaN 2000-01-04 12:25:15 NaN 0.323978 0.356274 0.423620 NaN NaN 2000-01-04 12:40:15 NaN 0.325356 0.361138 0.427271 NaN NaN 2000-01-04 12:55:14 NaN 0.326595 0.363519 0.431527 NaN NaN 2000-01-06 12:11:08 NaN 0.282777 0.307676 0.369811 NaN NaN 2000-01-06 12:26:09 NaN 0.285853 0.314178 0.374832 NaN NaN 2000-01-06 12:41:08 NaN 0.258836 0.289263 0.346880 NaN NaN 2000-01-08 12:12:04 NaN 0.165473 0.185018 0.235770 NaN NaN 2000-01-08 12:42:01 NaN 0.143540 0.164647 0.216335 NaN NaN 2000-01-08 12:57:01 NaN 0.142760 0.164886 0.215461 NaN NaN 2000-01-10 12:12:52 NaN 0.192453 0.225909 0.310540 NaN NaN 2000-01-10 12:27:53 NaN 0.202532 0.238400 0.322692 NaN NaN 2000-01-10 12:42:52 NaN 0.199996 0.235561 0.320756 NaN NaN 2000-01-10 12:57:52 NaN 0.208046 0.245054 0.331214 NaN NaN 2000-01-11 12:13:19 NaN 0.588879 0.646470 0.750459 NaN NaN 2000-01-11 12:28:17 NaN 0.621813 0.680442 0.788457 NaN NaN 2000-01-11 12:43:17 NaN 0.626547 0.685880 0.790631 NaN NaN 2000-01-11 12:58:16 NaN 0.631142 0.689125 0.796060 NaN NaN 2000-01-12 12:28:42 NaN 0.535105 0.584593 0.688904 NaN NaN 2000-01-12 12:43:41 NaN 0.518697 0.571025 0.676406 NaN NaN 2000-01-12 12:58:40 NaN 0.528318 0.583229 0.687795 NaN NaN 2000-01-13 12:14:20 NaN 0.382645 0.419463 0.496089 NaN NaN 2000-01-13 12:29:05 NaN 0.376186 0.414921 0.491920 NaN NaN 2000-01-13 12:44:05 NaN 0.387845 0.424576 0.501968 NaN NaN 2000-01-13 12:59:04 NaN 0.386237 0.423254 0.503163 NaN NaN 2000-01-14 12:14:43 NaN 0.400024 0.425522 0.485719 NaN NaN [6672 rows x 42 columns]) Such a way that the aeronet dataframe looks similar to this when I print it out? I'm hoping to either still do some calculation with it still or export it to excel. times AOT_1640 AOT_1020 AOT_870 AOT_675 AOT_667 AOT_555 ... 2000-08-07 06:49:10 NaN 0.380411 0.406041 0.445789 NaN NaN 2000-08-08 06:31:00 NaN 0.322402 0.338164 0.364679 NaN NaN 2000-08-09 06:34:56 NaN 0.290533 0.306911 0.336597 NaN NaN 2000-08-12 06:30:01 NaN 0.465173 0.471528 0.483079 NaN NaN .... 2000-01-01 12:23:54 NaN 0.513307 0.557325 0.653497 NaN NaN 2000-01-03 12:24:49 NaN 0.439142 0.494118 0.593997 NaN NaN 2000-01-04 12:10:30 NaN 0.325203 0.362335 0.426348 NaN NaN 2000-01-06 12:11:08 NaN 0.282777 0.307676 0.369811 NaN NaN 2000-01-08 12:12:04 NaN 0.165473 0.185018 0.235770 NaN NaN 2000-01-10 12:12:52 NaN 0.192453 0.225909 0.310540 NaN NaN 2000-01-11 12:13:19 NaN 0.588879 0.646470 0.750459 NaN NaN 2000-01-12 12:28:42 NaN 0.535105 0.584593 0.688904 NaN NaN 2000-01-13 12:14:20 NaN 0.382645 0.419463 0.496089 NaN NaN 2000-01-14 12:14:43 NaN 0.400024 0.425522 0.485719 NaN NaN
Probably a more efficient way to do this, but this gets the job done I think. First, add fields for date and time: aeronet['date'] = aeronet.times.dt.date aeronet['time'] = aeronet.times.dt.time Now, aeronet.date.unique() gets you a list of the unique dates. You'll need it later. dates = aeronet.date.unique() Create a column that gives absolute distance from 6 am from datetime import date, datetime, time sixam = time(6,0,0,0) def fromsix(time): abs(datetime.combine(date.min, time) - datetime.combine(date.min, sixam)) aeronet['fromsix'] = aeronet.time.apply(fromsix) datetime.combine is necessary because apparently you can't just subtract two times. And now, finally, pd.concat([aeronet[aeronet.date == date][aeronet.fromsix == aeronet[aeronet.date == date].fromsix.min()] for date in dates]) use a list comprehension to slice the dataframe into individual dates, find the element with minimal distance from sixam, and concatenate them together.
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge_asof.html thats the way to go buddy. efficient, simple, fast.
dropna() for multiple columns
Here is a sample of my dataframe: benzene toluene styrene xylenes + ethylbenzene 1,3,5-trimethylbenzene propylbenzene chlorobenzene 4-ethyltoluene isopropyl benzene 1,3-butadiene 0 1.1040 NaN NaN NaN NaN NaN NaN NaN NaN 0.1914 1 1.1312 NaN NaN NaN NaN NaN NaN NaN NaN 0.2353 2 1.6092 NaN NaN NaN NaN NaN NaN NaN NaN 0.7289 3 1.2578 NaN NaN NaN NaN NaN NaN NaN NaN 0.3269 4 1.8245 NaN NaN NaN NaN NaN NaN NaN NaN 0.2859 5 1.1438 NaN NaN NaN NaN NaN NaN NaN NaN 0.1229 6 1.1492 NaN NaN NaN NaN NaN NaN NaN NaN 0.4135 7 0.8638 NaN NaN NaN NaN NaN NaN NaN NaN 0.6211 8 1.3209 NaN NaN NaN NaN NaN NaN NaN NaN 0.6243 9 1.8316 NaN NaN NaN NaN NaN NaN NaN NaN 0.6711 10 1.0491 NaN NaN NaN NaN NaN NaN NaN NaN 0.3379 11 1.5014 NaN NaN NaN NaN NaN NaN NaN NaN 0.7981 12 0.8355 NaN NaN NaN NaN NaN NaN NaN NaN 0.2950 13 1.5157 NaN NaN NaN NaN NaN NaN NaN NaN 0.7630 14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 15 0.3561 NaN NaN NaN NaN NaN NaN NaN NaN 0.1983 16 16.9953 NaN NaN NaN NaN NaN NaN NaN NaN 11.6154 17 NaN 2.5533 1.7676 4.8479 2.1782 2.0693 NaN NaN NaN NaN 18 NaN 4.8740 4.5862 5.6155 5.3850 5.1158 NaN NaN NaN NaN 19 NaN 5.5761 7.1540 5.2305 7.0061 6.6558 NaN NaN NaN NaN 20 NaN 5.6369 8.0997 5.0377 7.4323 7.0607 NaN NaN NaN NaN 21 NaN 5.6762 8.5204 5.0503 7.9827 7.5835 NaN NaN NaN NaN 22 NaN 5.7317 8.9214 4.7230 8.4647 8.0415 NaN NaN NaN NaN 23 NaN 5.6349 8.3186 4.2832 8.4023 7.9822 NaN NaN NaN NaN 24 NaN 5.5504 9.1297 4.2451 8.2951 7.8803 NaN NaN NaN NaN 25 NaN 5.9629 9.0821 4.3384 9.0512 8.5986 NaN NaN NaN NaN 26 NaN 5.7665 10.1691 4.2266 8.9481 8.5007 NaN NaN NaN NaN 27 NaN 5.6709 9.1637 4.0334 9.0945 8.6397 NaN NaN NaN NaN 28 NaN 5.8178 8.8859 4.0104 9.0523 8.5997 NaN NaN NaN NaN 29 NaN 5.5470 9.0448 3.9718 8.8667 8.4233 NaN NaN NaN NaN [...] Actual size is 66x10 I have sequence of about 17 non NAN values for each column. I would like to drop the Nan cells to have a a full 17x10 table. I used pd.DataFrame.dropna but it doesn't remove patches of cell. Is there a way to do so without looping over columns?
I think you can use apply with dropna: df = df.apply(lambda x: pd.Series(x.dropna().values)) print (df) Another numpy solution with sorting numpy array created by values and then remove rows with all NaN by dropna: df = pd.DataFrame(np.sort(df.values, axis=0), index=df.index, columns=df.columns) .dropna(how='all') print (df)