How can I make matrix of two column in pandas dataframe? - python

Hi I am trying to plot the two values in matrix form, I tried many things but nothing worked, can someone please help? I want similarity values to be the values, my data:
https://github.com/mayuripandey/Data-Analysis/blob/main/matrix.csv
Desired output:

Use pivot_table:
df['Topic_model'] = df['Topic_model'].str.split('-', n=1).str[1].astype(int)
out = (df.pivot_table('Similarity', 'Topic_model', 'Topic_model')
.rename_axis(index='Topic_2', columns='Topic_1'))
Output:
>>> out
Topic_1 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Topic_2
-1 0.25 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
0 NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
7 NaN NaN NaN NaN NaN NaN NaN NaN 0.166667 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
8 NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
9 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
11 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
12 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.25 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
13 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
15 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
16 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
17 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
18 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
19 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
20 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
21 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
22 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
23 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
24 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN
25 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN NaN NaN NaN NaN
26 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN
27 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN
28 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN
29 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN NaN
30 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN NaN
31 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN NaN
32 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0 NaN
33 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 0.0

df = pd.read_csv('https://raw.githubusercontent.com/mayuripandey/Data-Analysis/main/matrix.csv', usecols=['Topic_model', 'Similarity'])
df.Topic_model = df.Topic_model.apply(lambda x: x[0:6] + '0' + x[6:] if len(x) == 7 else x)
df = df.pivot(columns='Topic_model')
Output:
Similarity ...
Topic_model Topic--1 Topic-00 Topic-01 Topic-02 Topic-03 Topic-04 Topic-05 Topic-06 Topic-07 ... Topic-25 Topic-26 Topic-27 Topic-28 Topic-29 Topic-30 Topic-31 Topic-32 Topic-33
0 0.25 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN 1.0 NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN 0.111111 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN 0.111111 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 NaN NaN NaN NaN NaN NaN 0.111111 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
7 NaN NaN NaN NaN NaN NaN NaN 0.111111 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
8 NaN NaN NaN NaN NaN NaN NaN NaN 0.166667 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
9 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
10 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
11 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
12 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
13 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
14 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
15 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
16 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
17 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
18 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
19 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
20 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
21 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
22 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
23 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
24 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
25 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... 0.0 NaN NaN NaN NaN NaN NaN NaN NaN
26 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN
27 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN 0.111111 NaN NaN NaN NaN NaN NaN NaN
28 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN 0.111111 NaN NaN NaN NaN NaN NaN
29 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN 0.111111 NaN NaN NaN NaN NaN
30 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN 0.0 NaN NaN NaN NaN
31 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN 0.0 NaN NaN NaN
32 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN 0.0 NaN NaN
33 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN 0.0 NaN
34 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN 0.0

Related

np.dot returns nan for Dataframe(float64) and np.ndarray(fload64)

I have a squared dataframe containing over 505 rows and columns (a 505x505 matrix)
which I need to dot multiply to an ndarray from numpy (505 items).
the problem is that the result is an ndarray with 505 items, full of nan.
I tried replicating it on a separate notebook, but I wasn't able to.
in
print('df ', df)
print('info ', df.info())
result = np.dot(df, np.random.rand(505))
print('result.shape: ', result.shape)
print('result ', result)
out
df A AAL AAP AAPL ABBV ABC ABMD \
A 0.093188 0.072021 0.048887 0.067503 0.047795 0.052311 0.051706
AAL 0.072021 0.547093 0.099290 0.069475 0.045120 0.066275 0.065950
AAP 0.048887 0.099290 0.143932 0.055590 0.043934 0.059230 0.041979
AAPL 0.067503 0.069475 0.055590 0.140050 0.051688 0.054113 0.060444
ABBV 0.047795 0.045120 0.043934 0.051688 0.096598 0.047673 0.032663
... ... ... ... ... ... ... ...
YUM 0.042185 0.095983 0.058538 0.052228 0.036547 0.046676 0.031293
ZBH 0.054474 0.127670 0.057043 0.054673 0.046718 0.054718 0.053090
ZBRA 0.079731 0.100945 0.064364 0.091272 0.054140 0.062255 0.066586
ZION 0.061233 0.176829 0.075915 0.048804 0.044935 0.066857 0.044151
ZTS 0.060966 0.052413 0.054156 0.069211 0.047445 0.054443 0.041018
XRAY XYL YUM ZBH ZBRA ZION ZTS
A 0.053152 0.064197 0.042185 0.054474 0.079731 0.061233 0.060966
AAL 0.110541 0.125551 0.095983 0.127670 0.100945 0.176829 0.052413
AAP 0.064716 0.071780 0.058538 0.057043 0.064364 0.075915 0.054156
AAPL 0.047973 0.067265 0.052228 0.054673 0.091272 0.048804 0.069211
ABBV 0.049469 0.043552 0.036547 0.046718 0.054140 0.044935 0.047445
... ... ... ... ... ... ... ...
YUM 0.060310 0.059523 0.098728 0.069827 0.051222 0.057302 0.057192
ZBH 0.084555 0.068429 0.069827 0.136291 0.070115 0.089688 0.058264
ZBRA 0.068271 0.085070 0.051222 0.070115 0.185910 0.087744 0.069007
ZION 0.099294 0.098861 0.057302 0.089688 0.087744 0.204927 0.040132
ZTS 0.052646 0.057712 0.057192 0.058264 0.069007 0.040132 0.095019
[505 rows x 505 columns]
<class 'pandas.core.frame.DataFrame'>
Index: 505 entries, A to ZTS
Columns: 505 entries, A to ZTS
dtypes: float64(505)
memory usage: 2.0+ MB
info None
result.shape: (505,)
result [nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
nan]
In this situation you should use DataFrame.dot
import pandas as pd;
import numpy as np
df = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five'])
other = pd.DataFrame(np.random.randn(5,5), columns=['one', 'two', 'three', 'four', 'five']).transpose()
Notice that the indices of the second DataFrame must match the rows of the first, then you can multiply them
df.dot(other)
# or
other.dot(df)
Remember that the matrix multiplication is not commutative.
If you do df.dot(other) it will return a dataframe with the indices of df and the columns of other, if you call it with a numpy array it will return a dataframe with columns counting [0,1,2,...]

Data frame return values as NaN despite no NaNs?

I have a dataframe read from a csv file. When feeding a random forest or SVM model with this data I get the error respone
"ValueError: Input contains NaN, infinity or a value too large for dtype('float64')."
So when I check my dataframe for NaN values it returns my whole data frame as NaN values. However, when I print an arbitrary cell in my dataframe it gives me the correct data point and not a NaN. Anyone that knows what's going on here?
Using the code below to retrieve my NaN values:
X_test.isnull().values.any()
(returns True)
null_rows = X_test[X_test.isnull()]
print(null_rows)
lag k = -1 lag k = -2 lag k = -3 lag k = 1 lag k = 2 lag k = 3 \
137354 NaN NaN NaN NaN NaN NaN
137355 NaN NaN NaN NaN NaN NaN
137356 NaN NaN NaN NaN NaN NaN
137357 NaN NaN NaN NaN NaN NaN
137358 NaN NaN NaN NaN NaN NaN
137359 NaN NaN NaN NaN NaN NaN
137360 NaN NaN NaN NaN NaN NaN
137361 NaN NaN NaN NaN NaN NaN
137362 NaN NaN NaN NaN NaN NaN
137363 NaN NaN NaN NaN NaN NaN
137364 NaN NaN NaN NaN NaN NaN
137365 NaN NaN NaN NaN NaN NaN
137366 NaN NaN NaN NaN NaN NaN
137367 NaN NaN NaN NaN NaN NaN
137368 NaN NaN NaN NaN NaN NaN
137369 NaN NaN NaN NaN NaN NaN
137370 NaN NaN NaN NaN NaN NaN
137371 NaN NaN NaN NaN NaN NaN
137372 NaN NaN NaN NaN NaN NaN
137373 NaN NaN NaN NaN NaN NaN
137374 NaN NaN NaN NaN NaN NaN
137375 NaN NaN NaN NaN NaN NaN
137376 NaN NaN NaN NaN NaN NaN
137377 NaN NaN NaN NaN NaN NaN
137378 NaN NaN NaN NaN NaN NaN
137379 NaN NaN NaN NaN NaN NaN
137380 NaN NaN NaN NaN NaN NaN
137381 NaN NaN NaN NaN NaN NaN
137382 NaN NaN NaN NaN NaN NaN
137383 NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ...
140176 NaN NaN NaN NaN NaN NaN
140177 NaN NaN NaN NaN NaN NaN
140178 NaN NaN NaN NaN NaN NaN
140179 NaN NaN NaN NaN NaN NaN
140180 NaN NaN NaN NaN NaN NaN
140181 NaN NaN NaN NaN NaN NaN
140182 NaN NaN NaN NaN NaN NaN
140183 NaN NaN NaN NaN NaN NaN
140184 NaN NaN NaN NaN NaN NaN
140185 NaN NaN NaN NaN NaN NaN
140186 NaN NaN NaN NaN NaN NaN
140187 NaN NaN NaN NaN NaN NaN
140188 NaN NaN NaN NaN NaN NaN
140189 NaN NaN NaN NaN NaN NaN
140190 NaN NaN NaN NaN NaN NaN
140191 NaN NaN NaN NaN NaN NaN
140192 NaN NaN NaN NaN NaN NaN
140193 NaN NaN NaN NaN NaN NaN
140194 NaN NaN NaN NaN NaN NaN
140195 NaN NaN NaN NaN NaN NaN
140196 NaN NaN NaN NaN NaN NaN
140197 NaN NaN NaN NaN NaN NaN
140198 NaN NaN NaN NaN NaN NaN
140199 NaN NaN NaN NaN NaN NaN
140200 NaN NaN NaN NaN NaN NaN
140201 NaN NaN NaN NaN NaN NaN
140202 NaN NaN NaN NaN NaN NaN
140203 NaN NaN NaN NaN NaN NaN
140204 NaN NaN NaN NaN NaN NaN
140205 NaN NaN NaN NaN NaN NaN
lag k = 23 lag k = 24 lag k = 48 Hour_0 ... Hour_14 Hour_15 \
137354 NaN NaN NaN NaN ... NaN NaN
137355 NaN NaN NaN NaN ... NaN NaN
137356 NaN NaN NaN NaN ... NaN NaN
137357 NaN NaN NaN NaN ... NaN NaN
137358 NaN NaN NaN NaN ... NaN NaN
137359 NaN NaN NaN NaN ... NaN NaN
137360 NaN NaN NaN NaN ... NaN NaN
137361 NaN NaN NaN NaN ... NaN NaN
137362 NaN NaN NaN NaN ... NaN NaN
137363 NaN NaN NaN NaN ... NaN NaN
137364 NaN NaN NaN NaN ... NaN NaN
137365 NaN NaN NaN NaN ... NaN NaN
137366 NaN NaN NaN NaN ... NaN NaN
137367 NaN NaN NaN NaN ... NaN NaN
137368 NaN NaN NaN NaN ... NaN NaN
137369 NaN NaN NaN NaN ... NaN NaN
137370 NaN NaN NaN NaN ... NaN NaN
137371 NaN NaN NaN NaN ... NaN NaN
137372 NaN NaN NaN NaN ... NaN NaN
137373 NaN NaN NaN NaN ... NaN NaN
137374 NaN NaN NaN NaN ... NaN NaN
137375 NaN NaN NaN NaN ... NaN NaN
137376 NaN NaN NaN NaN ... NaN NaN
137377 NaN NaN NaN NaN ... NaN NaN
137378 NaN NaN NaN NaN ... NaN NaN
137379 NaN NaN NaN NaN ... NaN NaN
137380 NaN NaN NaN NaN ... NaN NaN
137381 NaN NaN NaN NaN ... NaN NaN
137382 NaN NaN NaN NaN ... NaN NaN
137383 NaN NaN NaN NaN ... NaN NaN
... ... ... ... ... ... ... ...
140176 NaN NaN NaN NaN ... NaN NaN
140177 NaN NaN NaN NaN ... NaN NaN
140178 NaN NaN NaN NaN ... NaN NaN
140179 NaN NaN NaN NaN ... NaN NaN
140180 NaN NaN NaN NaN ... NaN NaN
140181 NaN NaN NaN NaN ... NaN NaN
140182 NaN NaN NaN NaN ... NaN NaN
140183 NaN NaN NaN NaN ... NaN NaN
140184 NaN NaN NaN NaN ... NaN NaN
140185 NaN NaN NaN NaN ... NaN NaN
140186 NaN NaN NaN NaN ... NaN NaN
140187 NaN NaN NaN NaN ... NaN NaN
140188 NaN NaN NaN NaN ... NaN NaN
140189 NaN NaN NaN NaN ... NaN NaN
140190 NaN NaN NaN NaN ... NaN NaN
140191 NaN NaN NaN NaN ... NaN NaN
140192 NaN NaN NaN NaN ... NaN NaN
140193 NaN NaN NaN NaN ... NaN NaN
140194 NaN NaN NaN NaN ... NaN NaN
140195 NaN NaN NaN NaN ... NaN NaN
140196 NaN NaN NaN NaN ... NaN NaN
140197 NaN NaN NaN NaN ... NaN NaN
140198 NaN NaN NaN NaN ... NaN NaN
140199 NaN NaN NaN NaN ... NaN NaN
140200 NaN NaN NaN NaN ... NaN NaN
140201 NaN NaN NaN NaN ... NaN NaN
140202 NaN NaN NaN NaN ... NaN NaN
140203 NaN NaN NaN NaN ... NaN NaN
140204 NaN NaN NaN NaN ... NaN NaN
140205 NaN NaN NaN NaN ... NaN NaN
Hour_16 Hour_17 Hour_18 Hour_19 Hour_20 Hour_21 Hour_22 Hour_23
137354 NaN NaN NaN NaN NaN NaN NaN NaN
137355 NaN NaN NaN NaN NaN NaN NaN NaN
137356 NaN NaN NaN NaN NaN NaN NaN NaN
137357 NaN NaN NaN NaN NaN NaN NaN NaN
137358 NaN NaN NaN NaN NaN NaN NaN NaN
137359 NaN NaN NaN NaN NaN NaN NaN NaN
137360 NaN NaN NaN NaN NaN NaN NaN NaN
137361 NaN NaN NaN NaN NaN NaN NaN NaN
137362 NaN NaN NaN NaN NaN NaN NaN NaN
137363 NaN NaN NaN NaN NaN NaN NaN NaN
137364 NaN NaN NaN NaN NaN NaN NaN NaN
137365 NaN NaN NaN NaN NaN NaN NaN NaN
137366 NaN NaN NaN NaN NaN NaN NaN NaN
137367 NaN NaN NaN NaN NaN NaN NaN NaN
137368 NaN NaN NaN NaN NaN NaN NaN NaN
137369 NaN NaN NaN NaN NaN NaN NaN NaN
137370 NaN NaN NaN NaN NaN NaN NaN NaN
137371 NaN NaN NaN NaN NaN NaN NaN NaN
137372 NaN NaN NaN NaN NaN NaN NaN NaN
137373 NaN NaN NaN NaN NaN NaN NaN NaN
137374 NaN NaN NaN NaN NaN NaN NaN NaN
137375 NaN NaN NaN NaN NaN NaN NaN NaN
137376 NaN NaN NaN NaN NaN NaN NaN NaN
137377 NaN NaN NaN NaN NaN NaN NaN NaN
137378 NaN NaN NaN NaN NaN NaN NaN NaN
137379 NaN NaN NaN NaN NaN NaN NaN NaN
137380 NaN NaN NaN NaN NaN NaN NaN NaN
137381 NaN NaN NaN NaN NaN NaN NaN NaN
137382 NaN NaN NaN NaN NaN NaN NaN NaN
137383 NaN NaN NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ... ... ...
140176 NaN NaN NaN NaN NaN NaN NaN NaN
140177 NaN NaN NaN NaN NaN NaN NaN NaN
140178 NaN NaN NaN NaN NaN NaN NaN NaN
140179 NaN NaN NaN NaN NaN NaN NaN NaN
140180 NaN NaN NaN NaN NaN NaN NaN NaN
140181 NaN NaN NaN NaN NaN NaN NaN NaN
140182 NaN NaN NaN NaN NaN NaN NaN NaN
140183 NaN NaN NaN NaN NaN NaN NaN NaN
140184 NaN NaN NaN NaN NaN NaN NaN NaN
140185 NaN NaN NaN NaN NaN NaN NaN NaN
140186 NaN NaN NaN NaN NaN NaN NaN NaN
140187 NaN NaN NaN NaN NaN NaN NaN NaN
140188 NaN NaN NaN NaN NaN NaN NaN NaN
140189 NaN NaN NaN NaN NaN NaN NaN NaN
140190 NaN NaN NaN NaN NaN NaN NaN NaN
140191 NaN NaN NaN NaN NaN NaN NaN NaN
140192 NaN NaN NaN NaN NaN NaN NaN NaN
140193 NaN NaN NaN NaN NaN NaN NaN NaN
140194 NaN NaN NaN NaN NaN NaN NaN NaN
140195 NaN NaN NaN NaN NaN NaN NaN NaN
140196 NaN NaN NaN NaN NaN NaN NaN NaN
140197 NaN NaN NaN NaN NaN NaN NaN NaN
140198 NaN NaN NaN NaN NaN NaN NaN NaN
140199 NaN NaN NaN NaN NaN NaN NaN NaN
140200 NaN NaN NaN NaN NaN NaN NaN NaN
140201 NaN NaN NaN NaN NaN NaN NaN NaN
140202 NaN NaN NaN NaN NaN NaN NaN NaN
140203 NaN NaN NaN NaN NaN NaN NaN NaN
140204 NaN NaN NaN NaN NaN NaN NaN NaN
140205 NaN NaN NaN NaN NaN NaN NaN NaN
[2852 rows x 33 columns]
Checking the first row gives:
display((X_test.loc[[137354]].isnull().any()))
lag k = -1 False
lag k = -2 False
lag k = -3 False
lag k = 1 False
lag k = 2 False
lag k = 3 False
lag k = 23 False
lag k = 24 False
lag k = 48 False
Hour_0 False
Hour_1 False
Hour_2 False
Hour_3 False
Hour_4 False
Hour_5 False
Hour_6 False
Hour_7 False
Hour_8 False
Hour_9 False
Hour_10 False
Hour_11 False
Hour_12 False
Hour_13 False
Hour_14 False
Hour_15 False
Hour_16 False
Hour_17 False
Hour_18 False
Hour_19 False
Hour_20 False
Hour_21 False
Hour_22 False
Hour_23 False
dtype: bool
Hence, I don't understand why my models say I am feeding NaN or why the above lines of code indicates there are NaNs in the dataset.
Appreciate any feedback
Thanks!

Searching within a List of Lists

I have a column with a list of IDs in each row. I need to be able to search for ID(s) and output the row that contains the ID. I have included sample data below.
I need to be able to input a single ID, or multiple IDs in the search. I have tried the code below but I get the error included at the end of this question.
buyers[buyers['customer_list'].str.contains('48184' )]
buyers[buyers['customer_list'].str.contains('48184', '55684')]
Data
df = pd.DataFrame({'A':[[48184, 48184, 64970, 64970], [55684, 72990, 72990, 85673], [55684, 72990, 72990, 85673], [64247, 60131, 60131, 60131], [64544, 64544, 64544, 64544]]})
Error
KeyError Traceback (most recent call last)
<ipython-input-42-3229146c6a64> in <module>()
----> 1 buyers[buyers['customer_list2'].str.contains( '48184' )]
/opt/conda/lib/python3.6/site-packages/pandas/core/frame.py in __getitem__(self, key)
2680 if isinstance(key, (Series, np.ndarray, Index, list)):
2681 # either boolean or fancy integer index
-> 2682 return self._getitem_array(key)
2683 elif isinstance(key, DataFrame):
2684 return self._getitem_frame(key)
/opt/conda/lib/python3.6/site-packages/pandas/core/frame.py in _getitem_array(self, key)
2724 return self._take(indexer, axis=0)
2725 else:
-> 2726 indexer = self.loc._convert_to_indexer(key, axis=1)
2727 return self._take(indexer, axis=1)
2728
/opt/conda/lib/python3.6/site-packages/pandas/core/indexing.py in _convert_to_indexer(self, obj, axis, is_setter)
1325 if mask.any():
1326 raise KeyError('{mask} not in index'
-> 1327 .format(mask=objarr[mask]))
1328
1329 return com._values_from_object(indexer)
KeyError: '[nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan\n nan nan nan nan nan nan] not in index'
Using dataframe constructor and isin + any
pd.DataFrame(df.A.tolist()).isin([48184,55684]).any(1)
Out[29]:
0 True
1 True
2 True
3 False
4 False
dtype: bool
You can use apply with a lambda function:
searchValue = input('ID Search: ')
mask = df['A'].apply(lambda x: int(searchValue) in x)
print(df[mask])
ID Search: 72990
A
1 [55684, 72990, 72990, 85673]
2 [55684, 72990, 72990, 85673]
if you want to search multiple values from input:
searchValue = input('ID Search: ') # input numbers
nums = [int(n) for n in searchValue.split(',')] # list comprehension to int n for n in the input values separated by comma
mask = df['A'].apply(lambda x: any(elem in x for elem in nums)) # create a mask for any elem in nums and in x which is each row
print(df[mask])
ID Search: 72990,48184
A
0 [48184, 48184, 64970, 64970]
1 [55684, 72990, 72990, 85673]
2 [55684, 72990, 72990, 85673]

Accesing elements in a dictionary in python

I am very new in python. I am trying to acces data in a xml file.
my xml file and code is as below:
import xmltodict
#from xml.dom import minidom
#doc = minidom.parse("staff.xml")
data = """<Azimuth>
<COL_STEP unit="m">5000</COL_STEP>
<ROW_STEP unit="m">5000</ROW_STEP>
<Values_List>
<VALUES>59.9563 53.0871 44.4595 33.8743 21.5482 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>58.4469 51.1869 42.099 31.0545 18.418 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>56.8537 49.1809 39.623 28.139 15.2538 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>55.1672 47.0649 37.0345 25.1409 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>53.3851 44.8373 34.3343 22.0718 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>51.5013 42.4952 31.5308 18.9484 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>49.5128 40.0378 28.6308 15.7878 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>47.4157 37.4668 25.6447 12.609 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>45.2056 34.7844 22.5855 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>42.8812 31.9968 19.4688 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>40.442 29.1107 16.3121 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>37.8884 26.1373 13.134 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>35.2231 23.0883 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>32.4513 19.9792 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>29.5804 16.8268 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>26.6194 13.6499 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>23.5805 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>20.479 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>17.3318 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>14.1568 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
<VALUES>NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN</VALUES>
</Values_List>
</Azimuth>"""
data = xmltodict.parse(data, encoding='utf-8')
p=data['Azimuth']['Values_List']
print(type(p))
import dict_digger
print(dict_digger.dig(data, 'Values_List'))
What I am trying to acces the 23*23 array inside the 'Values List' but I am struggling. Is there any way I can acces those values?
Thanks
Try
p=data['Azimuth']['Values_List']['VALUES']
You'll probably want the matrix as a numpy array:
import numpy as np
parsedMatrix = np.array([line.split(' ') for line in p]).astype(float)

dropna() for multiple columns

Here is a sample of my dataframe:
benzene toluene styrene xylenes + ethylbenzene 1,3,5-trimethylbenzene propylbenzene chlorobenzene 4-ethyltoluene isopropyl benzene 1,3-butadiene
0 1.1040 NaN NaN NaN NaN NaN NaN NaN NaN 0.1914
1 1.1312 NaN NaN NaN NaN NaN NaN NaN NaN 0.2353
2 1.6092 NaN NaN NaN NaN NaN NaN NaN NaN 0.7289
3 1.2578 NaN NaN NaN NaN NaN NaN NaN NaN 0.3269
4 1.8245 NaN NaN NaN NaN NaN NaN NaN NaN 0.2859
5 1.1438 NaN NaN NaN NaN NaN NaN NaN NaN 0.1229
6 1.1492 NaN NaN NaN NaN NaN NaN NaN NaN 0.4135
7 0.8638 NaN NaN NaN NaN NaN NaN NaN NaN 0.6211
8 1.3209 NaN NaN NaN NaN NaN NaN NaN NaN 0.6243
9 1.8316 NaN NaN NaN NaN NaN NaN NaN NaN 0.6711
10 1.0491 NaN NaN NaN NaN NaN NaN NaN NaN 0.3379
11 1.5014 NaN NaN NaN NaN NaN NaN NaN NaN 0.7981
12 0.8355 NaN NaN NaN NaN NaN NaN NaN NaN 0.2950
13 1.5157 NaN NaN NaN NaN NaN NaN NaN NaN 0.7630
14 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
15 0.3561 NaN NaN NaN NaN NaN NaN NaN NaN 0.1983
16 16.9953 NaN NaN NaN NaN NaN NaN NaN NaN 11.6154
17 NaN 2.5533 1.7676 4.8479 2.1782 2.0693 NaN NaN NaN NaN
18 NaN 4.8740 4.5862 5.6155 5.3850 5.1158 NaN NaN NaN NaN
19 NaN 5.5761 7.1540 5.2305 7.0061 6.6558 NaN NaN NaN NaN
20 NaN 5.6369 8.0997 5.0377 7.4323 7.0607 NaN NaN NaN NaN
21 NaN 5.6762 8.5204 5.0503 7.9827 7.5835 NaN NaN NaN NaN
22 NaN 5.7317 8.9214 4.7230 8.4647 8.0415 NaN NaN NaN NaN
23 NaN 5.6349 8.3186 4.2832 8.4023 7.9822 NaN NaN NaN NaN
24 NaN 5.5504 9.1297 4.2451 8.2951 7.8803 NaN NaN NaN NaN
25 NaN 5.9629 9.0821 4.3384 9.0512 8.5986 NaN NaN NaN NaN
26 NaN 5.7665 10.1691 4.2266 8.9481 8.5007 NaN NaN NaN NaN
27 NaN 5.6709 9.1637 4.0334 9.0945 8.6397 NaN NaN NaN NaN
28 NaN 5.8178 8.8859 4.0104 9.0523 8.5997 NaN NaN NaN NaN
29 NaN 5.5470 9.0448 3.9718 8.8667 8.4233 NaN NaN NaN NaN
[...]
Actual size is 66x10
I have sequence of about 17 non NAN values for each column. I would like to drop the Nan cells to have a a full 17x10 table.
I used pd.DataFrame.dropna but it doesn't remove patches of cell. Is there a way to do so without looping over columns?
I think you can use apply with dropna:
df = df.apply(lambda x: pd.Series(x.dropna().values))
print (df)
Another numpy solution with sorting numpy array created by values and then remove rows with all NaN by dropna:
df = pd.DataFrame(np.sort(df.values, axis=0), index=df.index, columns=df.columns)
.dropna(how='all')
print (df)

Categories

Resources