I have a DataFrame that look like such:
BestBid BestOffer
Strike
800 1253.900024 1256.599976
900 1154.199951 1156.800049
1000 1054.400024 1056.900024
1050 1004.500000 1007.000000
1100 954.599976 957.000000
... ...
2350 0.050000 0.400000
2400 0.000000 0.200000
2450 0.000000 0.600000
2500 0.000000 0.600000
3000 0.000000 0.600000
And I want to compute a grid of all pairwise combinations of the index, and compute some arithmetic operation on the pairs. My code below is how I do it iteratively (and slowly):
output = pd.DataFrame(index=df.index, columns=df.index)
for pair in itertools.combinations(df.index, 2):
if pair[0] >= pair[1]:
continue
low= pair[0]
high= pair[1]
spread = df.loc[high, 'BestBid'] - df.loc[low, 'BestOffer']
output.loc[low, high] = spread
output ends up looking like:
800 900 1000 1050 1100 1125 1150 1175 1200 1220 1225 1240 ... 2220 2225 2230 2240 2250 2275 2300 2350 2400 2450 2500 3000
800 NaN -102.4 -202.2 -252.1 -302 -326.9 -352.1 -376.8 -401.7 -421.7 -426.7 -441.6 ... -1256.05 -1255.85 -1256.25 -1256.45 -1256.5 -1256.45 -1256.55 -1256.55 -1256.6 -1256.6 -1256.6 -1256.6
900 NaN NaN -102.4 -152.3 -202.2 -227.1 -252.3 -277 -301.9 -321.9 -326.9 -341.8 ... -1156.25 -1156.05 -1156.45 -1156.65 -1156.7 -1156.65 -1156.75 -1156.75 -1156.8 -1156.8 -1156.8 -1156.8
1000 NaN NaN NaN -52.4 -102.3 -127.2 -152.4 -177.1 -202 -222 -227 -241.9 ... -1056.35 -1056.15 -1056.55 -1056.75 -1056.8 -1056.75 -1056.85 -1056.85 -1056.9 -1056.9 -1056.9 -1056.9
1050 NaN NaN NaN NaN -52.4 -77.3 -102.5 -127.2 -152.1 -172.1 -177.1 -192 ... -1006.45 -1006.25 -1006.65 -1006.85 -1006.9 -1006.85 -1006.95 -1006.95 -1007 -1007 -1007 -1007
1100 NaN NaN NaN NaN NaN -27.3 -52.5 -77.2 -102.1 -122.1 -127.1 -142 ... -956.45 -956.25 -956.65 -956.85 -956.9 -956.85 -956.95 -956.95 -957 -957 -957 -957
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
2350 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN -0.4 -0.4 -0.4 -0.4
2400 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN -0.2 -0.2 -0.2
2450 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN -0.6 -0.6
2500 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN -0.6
3000 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Note that I make it slightly faster by not doing the operation if the first element of the pair is larger. This is essentially n^2 computation time, is there any faster or vectorized way of doing this in pandas?
numpy allows you do do these calculations without a loop. Here we use an outer subtraction to get all pairwise differences. Then mask the lower triangle.
import pandas as pd
import numpy as np
df1 = pd.DataFrame(-1*np.subtract.outer(df['BestOffer'].to_numpy(),
df['BestBid'].to_numpy()),
index=df.index.to_numpy(),
columns=df.index.to_numpy())
# `NaN` the lower triangle
df1 = df1.mask(np.tril(np.ones(df1.shape)).astype(bool))
800 900 1000 1050 1100 2350 2400 2450 2500 3000
800 NaN -102.400025 -202.199952 -252.099976 -302.000000 -1256.549976 -1256.599976 -1256.599976 -1256.599976 -1256.599976
900 NaN NaN -102.400025 -152.300049 -202.200073 -1156.750049 -1156.800049 -1156.800049 -1156.800049 -1156.800049
1000 NaN NaN NaN -52.400024 -102.300048 -1056.850024 -1056.900024 -1056.900024 -1056.900024 -1056.900024
1050 NaN NaN NaN NaN -52.400024 -1006.950000 -1007.000000 -1007.000000 -1007.000000 -1007.000000
1100 NaN NaN NaN NaN NaN -956.950000 -957.000000 -957.000000 -957.000000 -957.000000
2350 NaN NaN NaN NaN NaN NaN -0.400000 -0.400000 -0.400000 -0.400000
2400 NaN NaN NaN NaN NaN NaN NaN -0.200000 -0.200000 -0.200000
2450 NaN NaN NaN NaN NaN NaN NaN NaN -0.600000 -0.600000
2500 NaN NaN NaN NaN NaN NaN NaN NaN NaN -0.600000
3000 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
IIUC the calculation is BestBid minus BestOffer for each combination of values in Strike? If so this is a way I came up with that should be faster that basically constructs a pivot table from scratch:
pt = pd.DataFrame(index=df.index, columns=df.index)
for column in pt.columns:
pt[column] = df.loc[column, "BestBid"] - df["BestOffer"]
Related
I have the following dataframe:
recordhigh recordlow
no_year
01-01 NaN NaN
01-02 NaN NaN
01-03 NaN NaN
01-04 NaN NaN
01-05 NaN -15.5
01-06 NaN NaN
01-07 NaN NaN
01-08 NaN NaN
01-09 NaN NaN
01-10 NaN NaN
01-11 NaN -20.0
01-12 NaN NaN
01-13 NaN NaN
01-14 NaN NaN
01-15 NaN NaN
01-16 NaN NaN
01-17 NaN NaN
01-18 NaN NaN
01-19 NaN NaN
01-20 NaN NaN
01-21 NaN NaN
01-22 NaN NaN
01-23 NaN NaN
01-24 NaN NaN
01-25 NaN NaN
01-26 NaN NaN
01-27 NaN NaN
01-28 NaN NaN
01-29 NaN NaN
01-30 NaN NaN
... ... ...
12-02 NaN NaN
12-03 NaN NaN
12-04 NaN NaN
12-05 NaN NaN
12-06 NaN NaN
12-07 10.0 NaN
12-08 10.0 NaN
12-09 12.2 NaN
12-10 15.0 NaN
12-11 15.6 NaN
12-12 20.0 NaN
12-13 19.4 NaN
12-14 18.3 NaN
12-15 16.1 NaN
12-16 15.0 NaN
12-17 NaN NaN
12-18 NaN NaN
12-19 NaN NaN
12-20 NaN NaN
12-21 NaN NaN
12-22 NaN NaN
12-23 18.3 NaN
12-24 17.2 NaN
12-25 11.1 NaN
12-26 11.7 NaN
12-27 NaN NaN
12-28 NaN NaN
12-29 NaN NaN
12-30 NaN NaN
12-31 NaN NaN
I want to keep the recordhigh and recordlow when they are not NaN. Ie I want a column with all the recordhigh numbers, all the recordlow number, and NaN in case both are NaN.
I have the following code for a function to apply :
def keep2015record(row):
if row['recordhigh']!=np.nan:
row['record']=row['recordhigh']
else:
row['record']=row['recordlow']
return row
I apply it to my dataframe:
df2015record=df2015record.apply(keep2015record,axis='columns')
And i only get a dataframe that keeps recordhigh :
recordhigh recordlow record
no_year
01-01 NaN NaN NaN
01-02 NaN NaN NaN
01-03 NaN NaN NaN
01-04 NaN NaN NaN
01-05 NaN -15.5 NaN
01-06 NaN NaN NaN
01-07 NaN NaN NaN
01-08 NaN NaN NaN
01-09 NaN NaN NaN
01-10 NaN NaN NaN
01-11 NaN -20.0 NaN
01-12 NaN NaN NaN
01-13 NaN NaN NaN
01-14 NaN NaN NaN
01-15 NaN NaN NaN
01-16 NaN NaN NaN
01-17 NaN NaN NaN
01-18 NaN NaN NaN
01-19 NaN NaN NaN
01-20 NaN NaN NaN
01-21 NaN NaN NaN
01-22 NaN NaN NaN
01-23 NaN NaN NaN
01-24 NaN NaN NaN
01-25 NaN NaN NaN
01-26 NaN NaN NaN
01-27 NaN NaN NaN
01-28 NaN NaN NaN
01-29 NaN NaN NaN
01-30 NaN NaN NaN
... ... ... ...
12-02 NaN NaN NaN
12-03 NaN NaN NaN
12-04 NaN NaN NaN
12-05 NaN NaN NaN
12-06 NaN NaN NaN
12-07 10.0 NaN 10.0
12-08 10.0 NaN 10.0
12-09 12.2 NaN 12.2
12-10 15.0 NaN 15.0
12-11 15.6 NaN 15.6
12-12 20.0 NaN 20.0
12-13 19.4 NaN 19.4
12-14 18.3 NaN 18.3
12-15 16.1 NaN 16.1
12-16 15.0 NaN 15.0
12-17 NaN NaN NaN
12-18 NaN NaN NaN
12-19 NaN NaN NaN
12-20 NaN NaN NaN
12-21 NaN NaN NaN
12-22 NaN NaN NaN
12-23 18.3 NaN 18.3
12-24 17.2 NaN 17.2
12-25 11.1 NaN 11.1
12-26 11.7 NaN 11.7
12-27 NaN NaN NaN
12-28 NaN NaN NaN
12-29 NaN NaN NaN
12-30 NaN NaN NaN
12-31 NaN NaN NaN
What am i doing wrong please?
I have also tried if, elif, else but i get the same result.
Thank you
Hi I guess you're trying to keep the records where either "recordhigh" or "recordlow" are not nan.
In that case you can simply use:
df_either_nonans=df[df['recordhigh'].notna() | df['recordlow'].notna() ]
print(df)
result:
noyear recordhigh recordlow
4 01-mag NaN -15.5
10 01-nov NaN -20
30 ... ... ...
36 12-lug 10 NaN
37 12-ago 10 NaN
38 12-set 12.2 NaN
39 12-ott 15 NaN
40 12-nov 15.6 NaN
41 12-dic 20 NaN
42 dic-13 19.4 NaN
43 dic-14 18.3 NaN
44 dic-15 16.1 NaN
45 dic-16 15 NaN
52 dic-23 18.3 NaN
53 dic-24 17.2 NaN
54 dic-25 11.1 NaN
55 dic-26 11.7 NaN
if you'd like to keep only records where both are not nan, then simply substitute "|" with "&":
df_both_nonans=df[df['recordhigh'].notna() & df['recordlow'].notna() ]
I have a dictionary that looks like this:
my_dict = {'product1' : [1, 511, 31, 222, 9020], 'product2' : [92, 511, 314, 4324], 'product3' : [40, 17, 4324]}
I want to create a dataframe that has the products as the index and the column names should be a range from 1 - 10 000, and if the value list associated to the product has the number it should be marked as a 1 or True in the column for the respective number.
1 2 3 ... 4324 .... 9020
product1 1 1
product2 1
product3 1
This entire dictionary has 80 products, each associated with a list of 0 to maybe a maximum of 50 numbers. The numbers could range between 1 and 10 000.
I would really appreciate any hints, I haven't managed to found a good way. I know I can create a dataframe from dictionary with pandas.DataFrame.from_dict() but it doesn't really do what I want.
I did a "ugly" solution, but I'm guessing this is not best practice or pythonic:
column_names = list(range(0,10000))
df = pd.DataFrame(columns = column_names)
for k, v in my_dict.items():
x = pd.Series(np.ones(len(v), dtype=int), index =v, name=k)
df = df.append(x)
print(df.head())
which outputs
0 1 2 3 4 5 6 7 8 9 ... \
product1 NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN ...
product2 NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN ...
product3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
9990 9991 9992 9993 9994 9995 9996 9997 9998 9999
product1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
[3 rows x 10000 columns]
One way could be to use start by constructing a dataframe from the dictionary via the alternative constructor pd.DataFrame.from_dict, which handles arrays of different length setting orient='index'.
df = pd.DataFrame.from_dict(my_dict, orient='index')
Then usepd.get_dummies over all columns:
df = pd.get_dummies(df, columns=df.columns, prefix='', prefix_sep='')
df.columns = pd.to_numeric(df.columns).astype(int)
df.T.groupby(level=0).max().T.reindex(range(df.columns.max()), axis=1)
0 1 2 3 4 5 6 7 8 9 ... \
product1 NaN 1 NaN NaN NaN NaN NaN NaN NaN NaN ...
product2 NaN 0 NaN NaN NaN NaN NaN NaN NaN NaN ...
product3 NaN 0 NaN NaN NaN NaN NaN NaN NaN NaN ...
9010 9011 9012 9013 9014 9015 9016 9017 9018 9019
product1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Use the from_dict method with orient='index':
my_dict = {
'product1' : [1, 511, 31, 222, 9020],
'product2' : [92, 511, 314, 4324],
'product3' : [40, 17, 4324]
}
df = pd.DataFrame.from_dict(my_dict, orient='index')
print(df)
Output:
0 1 2 3 4
product1 1 511 31 222.0 9020.0
product2 92 511 314 4324.0 NaN
product3 40 17 4324 NaN NaN
Try this
import pandas as pd
import numpy as np
my_dict = {'product1' : [1, 511, 31, 222, 9020], 'product2' : [92, 511, 314, 4324], 'product3' : [40, 17, 4324]}
res = []
for x in my_dict:
arr = [np.nan] * 10000
for y in my_dict[x]:
arr[y - 1] = 1
res.append(arr)
df = pd.DataFrame(res, index=my_dict.keys())
print(df)
Output:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 ... 9750 9751 9752 9753 9754 9755 9756 9757 9758 9759 9760 9761 9762 9763 9764 9765 9766 9767 9768 9769 9770 9771 9772 9773 9774 9775 9776 9777 9778 9779 9780 9781 9782 9783 9784 9785 9786 9787 9788 9789 9790 9791 9792 9793 9794 9795 9796 9797 9798 9799 9800 9801 9802 9803 9804 9805 9806 9807 9808 9809 9810 9811 9812 9813 9814 9815 9816 9817 9818 9819 9820 9821 9822 9823 9824 9825 9826 9827 9828 9829 \
product1 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
9830 9831 9832 9833 9834 9835 9836 9837 9838 9839 9840 9841 9842 9843 9844 9845 9846 9847 9848 9849 9850 9851 9852 9853 9854 9855 9856 9857 9858 9859 9860 9861 9862 9863 9864 9865 9866 9867 9868 9869 9870 9871 9872 9873 9874 9875 9876 9877 9878 9879 9880 9881 9882 9883 9884 9885 9886 9887 9888 9889 9890 9891 9892 9893 9894 9895 9896 9897 9898 9899 9900 9901 9902 9903 9904 9905 9906 9907 9908 9909 9910 9911 9912 9913 9914 9915 9916 9917 9918 9919 9920 9921 9922 9923 9924 9925 9926 9927 9928 9929 9930 9931 9932 9933 9934 9935 9936 9937 9938 9939 9940 9941 9942 9943 9944 9945 9946 9947 9948 9949 9950 9951 9952 9953 9954 9955 9956 9957 9958 9959 9960 9961 9962 9963 9964 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974 9975 9976 9977 9978 9979 9980 9981 9982 9983 9984 9985 9986 9987 9988 9989 9990 9991 9992 9993 9994 9995 9996 9997 9998 9999
product1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
product3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
I created a (large) sparse matrix by a pivot table.
UserId ...
1 5.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
5 NaN NaN NaN NaN NaN 2.0 NaN NaN NaN NaN ...
... ... ... ... ... ... ... ... ... ... ... ...
6036 NaN NaN NaN 2.0 NaN 3.0 NaN NaN NaN NaN ...
6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
6040 3.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ...
MovieId 3943 3944 3945 3946 3947 3948 3949 3950 3951 3952
UserId
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ... ... ... ... ...
6036 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6037 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6038 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6039 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6040 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Now, I am looking for a way for, given a row index (e.g. 1) select all index whose values are > 4.0. Is there a simple way to do so?.
I tried the following
df.loc[1] >= 4.0
however what I get is
MovieId
1 True
2 False
3 False
4 False
5 False
...
3948 False
3949 False
3950 False
3951 False
3952 False
Name: 1, Length: 3706, dtype: bool
meaning I am almost there, but not quite. How do I extract the indices corresponding to True?
You can chain two loc selections, the first selects the rows based on label, the second will use a function to subset the columns based on your condition. Or you could use a single nested loc, where the columns mask also calls .loc
import numpy as np
import pandas as pd
np.random.seed(42)
df = pd.DataFrame(np.random.choice([1, np.NaN, 5], p=[.2, .7, .1], size=(2, 40)))
df.loc[1].loc[lambda x: x >= 4]
#or
df.loc[1, df.loc[1] >= 4]
#3 5.0
#10 5.0
#12 5.0
#15 5.0
#29 5.0
#Name: 1, dtype: float64
I have 2 Pandas Dataframes, totals and medal_counts. The head info is given below.
print(medal_counts.head())
NOC AFG AHO ALG ANZ ARG ARM AUS AUT AZE BAH ... URS URU \
Edition ...
1896 NaN NaN NaN NaN NaN NaN 2.0 5.0 NaN NaN ... NaN NaN
1900 NaN NaN NaN NaN NaN NaN 5.0 6.0 NaN NaN ... NaN NaN
1904 NaN NaN NaN NaN NaN NaN NaN 1.0 NaN NaN ... NaN NaN
1908 NaN NaN NaN 19.0 NaN NaN NaN 1.0 NaN NaN ... NaN NaN
1912 NaN NaN NaN 10.0 NaN NaN NaN 14.0 NaN NaN ... NaN NaN
NOC USA UZB VEN VIE YUG ZAM ZIM ZZX
Edition
1896 20.0 NaN NaN NaN NaN NaN NaN 6.0
1900 55.0 NaN NaN NaN NaN NaN NaN 34.0
1904 394.0 NaN NaN NaN NaN NaN NaN 8.0
1908 63.0 NaN NaN NaN NaN NaN NaN NaN
1912 101.0 NaN NaN NaN NaN NaN NaN NaN
[5 rows x 138 columns]
print(totals.head())
Edition
1896 151
1900 512
1904 470
1908 804
1912 885
Name: Grand Total, dtype: int64
When I try divide 'medal_counts' using 'totals' row-wise using divide method, why I am getting all NaNs though there are some clear values in medal_counts, such as in 1896 for AUS, AUT, USA & ZZX.
fractions = medal_counts.divide(totals, axis='rows')
print(fractions.head())
NOC AFG AHO ALG ANZ ARG ARM AUS AUT AZE BAH ... URS URU USA \
Edition ...
1896 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
1900 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
1904 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
1908 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
1912 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
NOC UZB VEN VIE YUG ZAM ZIM ZZX
Edition
1896 NaN NaN NaN NaN NaN NaN NaN
1900 NaN NaN NaN NaN NaN NaN NaN
1904 NaN NaN NaN NaN NaN NaN NaN
1908 NaN NaN NaN NaN NaN NaN NaN
1912 NaN NaN NaN NaN NaN NaN NaN
Appreciate clarifications.
Below transformation works.
totals = totals.values
fractions = medal_counts.divide(totals, axis='rows')
When you use pandas divide:
df.divide(other)
The type of other can be : scalar, sequence, Series, or DataFrame.
In your case, if you would specify a series it would work:
fractions = medal_counts.divide(totals['Edition'], axis='rows')
So, when should we use dataframe?
If you the other dataframe`s shape is the same as df.
For example:
df = pd.DataFrame({'angles': [0, 3, 4],
'degrees': [360, 180, 360]},
index=['circle', 'triangle', 'rectangle'])
df
angles degrees
circle 0 360
triangle 3 180
rectangle 4 360
you can do:
>>> df.divide(df+1, axis='index')
angles degrees
circle 0.00 0.997230
triangle 0.75 0.994475
rectangle 0.80 0.997230
Why converting to numpy array is not safe?
If your rows are shuffled you will get the wrong answer:
df
angles degrees
circle 0 360
triangle 3 180
rectangle 4 360
shuffle the angles column and create a new df:
df2 = df[['angles']].sample(frac=1)
df2
angles
triangle 3
circle 0
rectangle 4
The desired output:
>>> df.divide(df2['angles'], axis='rows')
angles degrees
circle NaN inf
rectangle 1.0 90.0
triangle 1.0 60.0
and the output using numpy array:
>>> df.divide(df2['angles'].values, axis='rows')
angles degrees
circle 0.0 120.0
triangle inf inf
rectangle 1.0 90.0
I have a .asc file where each line has 655 entries and looks somewhat like the following (note the leading whitespace)
-999 -999 -999 -999 -999 -999 -999 -999 -999 ... -999 -999
When I read the file using pandas read_fwf
data = pd.read_fwf('Users/.../file.asc', index_col=False, sep=' ', skiprows=6, header=None, na_values=[-999])
the first three columns are thrown into the 0 column such that I obtain the output
0 1 2 3 4 5 6 7 8 9 ... 641 \
0 -999 -999 -999 -999 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN
It seems like the function interprets my first 4 columns as an index. index_col=False didn't help fixing the problem. Also, I tried to let pandas create an index column but couldn't find this feature.
Looking forward to your solution. Thanks.
UPDATE2: using colspecs parameter when calling read_fwf()
In [83]: df = pd.read_fwf(fn, skiprows=6, header=None, na_values=[-999],
....: colspecs=[(5,6)] * 654)
In [84]: df.head()
Out[84]:
0 1 2 3 4 5 6 7 8 9 ... 644 645 646 647 648 649 650 651 652 653
0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
[5 rows x 654 columns]
UPDATE:
use read_csv() instead of read_fwf() and it'll work:
In [61]: fn = r'D:\download\BRD_8110_YY_GIS.asc'
In [62]: df = pd.read_csv(fn, skiprows=6, header=None, na_values=[-999], delim_whitespace=True)
In [63]: df.head()
Out[63]:
0 1 2 3 4 5 6 7 8 9 ... 644 645 646 647 648 649 650 651 652 653
0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
[5 rows x 654 columns]
Use sep='\s+'as keyword argument as stated in the current documentation for pandas - read_fwf to accept 1 or more white space characters as spearators for fields. I would be reluctant in supplying '\s*' as this means 0 or more which might get you into trouble ;-)