Python: Split CSV with character count - python

Need help in importing CSV file into python.
My CSV file
0,Donc, 2 jours, je me suis rendu compte que Musikfest est le lendemain de voir dmb, quel problème. Signifie que je ne peux pas aller ...
0,Le son est définitivement gâché.Noooooo mon bb
0,Il est le mien! Haha il me suit: ') m'aime et me veut.haha.i wana vivre en Amérique annie
I want to split the above file into 2 columns
Coloumn1 ---- Coloumn2
0 ---- Donc, 2 jours, je me suis rendu compte que Musikfest est le
lendemain de voir dmb, quel problème. Signifie que je ne peux pas
aller ...
0 ---- Le son est définitivement gâché.Noooooo mon bb
0 ---- Il est le mien! Haha il me suit: ') m'aime et me veut.haha.i wana
vivre en Amérique annie
Since my text has commas embedded and my value for the text is always the first character. Is it possible to read my CSV file with splitting first character and rest of the text?

You can use string.split() and specify a max split of 1. By this I mean, if you just want to split the line on the first comma, then do not read the file as a CSV. Instead read it line by line and split the line using string.split(',', 1)

You should use csv library to work with csv files: https://docs.python.org/3/library/csv.html#csv.reader
import csv
result = []
with open('test.csv') as csvfile:
csvreader = csv.reader(csvfile)
for row in csvreader:
result.append((row[0], ''.join(row[1:])))
print(result)

Related

Get last row in last column from a csv file using python

Hello I have a csv file that contains those columns :
index, text , author , date
i want to select the last column from the last inserted row
what i did so far :
inputFile = 'bouyguesForum_results.csv'
f1 = open(inputFile, "r")
last_line = f1.readlines()[-1]
f1.close()
print (last_line)
this code gets me the last inserted row but i want to select the last column which is the date column
code output :
9,"J'ai souscrit à un abonnement Bbox de 6€99 + 3€ de location de box, sauf que j'ai été prélevé de 19€99 ce mois-ci, sachant que je n'ai eu aucune consommation supplémentaire, ni d'appel, et je n'ai souscrit à rien, et rien n'est précisé sur ma facture. Ce n'est pas normal, et je veux une explication.",JUSTINE,17 novembre 2021
thank you for your time.
You can do this: if you want the very last row
with open('data.csv', 'r') as csv:
data = [[x.strip() for x in line.strip().split(',')] for line in csv.readlines()][-1][-1]
print(data)
or if you want all the last elements in each row
with open('data.csv', 'r') as csv:
data = [line.strip().split(',')[-1] for line in csv.readlines()]
print(data)
Since you got the last row, now you can just split it into a list. Sample-
last_line = last_line.strip("\n")
last_line = [x for x in last_line.split(",") if x!=""]
last_date = last_line[-1]

wrting to Excel file with excelwriter give no file

I have 9 sub directories which have three files and I want to write those files to an Excel file. I start by reading all sub directories and then I convert the file to list then to dataframe which I export to an Excel file using "to_excel" and "writer excel" but for a strange reasons, the code does not produces any file.
# Path to the different files
path = r"C:\Users\Emmanuelle\Documents\tal\retrotraduction\corpus_amazon\corpus_retraduit"
for root, subdirs, files in os.walk(path):
#print(root)
for file in files:
print(file)
f_name = file[:-7]
print(f_name)
#print(files)
print("-----File in processed :", file)
with open(os.path.join(root, file), "r", encoding='utf-8') as b_translate_file:
liste = [line.rstrip() for line in b_translate_file]
if liste[0] != 'Contenu':
#print(liste)
if len(liste) == 2020:
print("-------------")
print("-----File of freins category identified :" , len(liste))
print("-------------")
df = pd.DataFrame(liste)
print(df)
writer = pd.ExcelWriter(os.path.join(path, "/{}.xlsx".format(f_name)), engine ='xlsxwriter')
df.to_excel(writer, sheet_name = f_name)
I expected file with 2020 elements to be write to the excel file.
df looks like this
----File of freins category identified : 2020
-------------
0
0 Malheureusement, l'impression de violence, bie...
1 Tout cela ne me donne pas envie d'utiliser un ...
2 """Mettre 5 étoiles dans le pétrin pour cet al...
3 "c'est bien écrit, c'est fluide, la seule pris...
4 Oui, bien sûr, il y a la super introduction de...
... ...
2015 m'a plongé dans une nuit blanche pour ce roman...
2016 Ce disque n'est pas mauvais en soi, mais il ne...
2017 "En voulant changer l'esprit de la série, les ...
2018 "Voici le déclin et la décadence d'une ancienn...
2019 "C'est l'ensemble le plus complet, à ma connai...
Try simplifying this:
os.path.join(path, "/{}.xlsx".format(f_name)) into "{}.xlsx".format(f_name)
Also, how about trying:
df.to_excel(path_name, sheet_name=f_name) instead, without the use of ExcelWriter?

Read partially encoded file (each line encoded separately)

Given the following file:
b'Clay Regazzoni'
b"Gianclaudio Giuseppe Regazzoni, dit Clay Regazzoni, n\xe9 le \xe0"
b'Lucie de Syracuse'
b'Lucie de Syracuse ou sainte Lucie, vierge et martyre dont le nom est illustr\xe9'
How can I extract and decode each line separately?
Each line was separately encoded using utf-8, but the file was stored using the default encoding.
My attempt was
open('path','r').readlines()[1].decode('latin1')
which fails (str has no decode attribiute), as
secondline = 'b"Gianclaudio Giuseppe Regazzoni, dit Clay Regazzoni, n\xe9 le \xe0"'
and not
secondline = b"Gianclaudio Giuseppe Regazzoni, dit Clay Regazzoni, n\xe9 le \xe0"
The desired output is
>>>open('path','r').readlines()[1].decode('latin1')
Gianclaudio Giuseppe Regazzoni, dit Clay Regazzoni, né le à
Apply ast module as follows:
import ast
with open('x.txt','r') as f:
for line in f.readlines():
if line[0:2] == 'b"' or line[0:2] == "b'":
print(ast.literal_eval(line).decode('latin1'))
else:
print(line)
Output:
Clay Regazzoni
Gianclaudio Giuseppe Regazzoni, dit Clay Regazzoni, né le à
Lucie de Syracuse
Lucie de Syracuse ou sainte Lucie, vierge et martyre dont le nom est illustré

Append list of lists to dataframe display list errors

Good afternoon,
I am looking for a way to append a list of lists into a dataframe as column but I am not getting the result I expected. I have a directory with 12 files and for each file , I want to put it in a dataframe with the correct header but so far what I am doing, put all the lists, I get to the same column and I cannot change that.
The files are txt files and have mutliple rows. the small one has 200 lines and the long one has approx. 2020 lines.
path=r"C:\Use\Emmanu\Documents\tal\class\corpus"
files = os.listdir(path)
list_all = []
for file in files:
if file.endswith(".txt"):
if os.path.isfile(os.path.join(path,file)):
f=open(os.path.join(path,file),'r', encoding= 'utf-8')
#next(f)
f = [line.rstrip() for line in f]
list_all.append(f)
print(len(list_all))
print(len(list_all[7]))
df = pd.DataFrame()
df = pd.DataFrame(list_all).T.set_index(0).T
print(df.head(5))
df.columns = ['FR_IX', 'FR_IX_A', 'FR_IX_B', 'FR_OR', 'FR_A', 'FR_B',
'MOT_IX' 'MOT_IX_A', 'MOT_IX_B', 'MOT_OR', 'MOT_A', 'MOT_B']
Result is like this and I cannot put each list in a column with the respective header.
12
431
0 ce qui me dérange, c’est le tout connecté, avec les ondes \
1 Ce qui me dérange, c'est que tout est lié, ave...
2 Ce qui me dérange, c'est que tout est lié, ave...
3 Hélas, l'impression de violence, bien que très...
4 Hélas, l'impression de violence, bien que très...
5 Hélas, l'impression de violence, bien que très...
0 Toujours en partant du fait que… donc, qu’il y a cette intelligence et puis on va pouvoir éliminer une partie de ce qui est régul. Maintenant, si ce n’est pas le cas… euh… je n’arriverais pas… Chez nous, je ne vois pas l’intérêt du produit. \
1 Toujours à partir du fait que... donc, qu'il y...
2 Toujours à partir du fait que... donc, qu'il y...
3 Tout ça ne me donne pas envie d'utiliser un pi...
4 Tout cela ne me donne pas envie d'utiliser un ...
5 Tout cela ne me donne pas envie d'utiliser un ...

How to count the number of line in a tsv file which end with a specific string?

I have a tsv file with two columns seperate by tabulation. The first column is the colum of sentences and the second the column of label I want to count the number of sentences which are positive, negative or neutral in the file sa I read it and loop inside it. I come up with this small code but It does not work ? How can I improve it ?
tsv = ['jdmfreins', 'jdmconditions', 'jdmne', 'jdmmotivations']
for s in tsv:
c_pos = 0
c_neu = 0
c_neg = 0
path = os.path.join(fileDir, '/mnt/c/Users/Emmanuelle/Documents/Extraction_corpus/fichier_sorti_tsv', s + '.tsv')
with open(path, 'r', encoding='utf-8') as l_1:
next(l_1)
print(s, '\n ')
l_1 = [line.rstrip() for line in l_1]
for line in l_1:
print(line)
if line.strip().endswith('positif'):
c_pos =+ 1
elif line.strip().endswith('neutre'):
c_neu =+ 1
else:
c_neg =+ 1
print('nombre positif :', c_pos)
print('nombre négatif :', c_neg)
print('nombre neutre :', c_neu, '\n')
The file look like this :
"""""""J'avais adoré les deux premières, mais celui-ci n'est pas du tout à la hauteur.""" positif
Peter Criss et Ace Frehley trouvent davantage leur place dans le travail de composition et au chant (Hooligan / Shock Me) face à l'omniprésence de la paire Stanley/Simmons mais les tensions internes existent et conduiront aux 4 albums solos de 1978... positif
Le contexte est certes bien rendu, mais les rapports entre les héros sont exécrables. positif
Le sujet aurait pu faire un bon vaudeville avec un tant soit peu d'humour et de finesse, mais, la plus belle femme du monde ne peut donner que ce qu'elle a !!! positif
arnold est mauvais, il fait des blagues pas marrantes le mechant est simplement le meme que dans le 2 mais en plus balezes, nick stahl est mauvais : pour finir c'est pitoyable de voir ce que peut faire hollywood pour du fric! neutre
Oui mais... Excusez moi mais même si les sketch me font rire séparément, essayer de tous les avaler en une soirée, c'est comme essayer de manger des kilos de foie gras en un repas. neutre
Au risque de ne pas brosser la majorité dans le sens du poil, je vais donner un avis honnête, qui n'engage que moi mais qui est tellement différent de ceux que j'avais pu lire qu'il peut être utile à certains. positif
(oubliez les compils recentes qui n'ont de compils que le nom,mais n'ont pas oublié au passage le coté biseness négatif
Début long avant d'etre pris par un peu de suspens devant un personnage que l'on pense interessant ( psychothérapeute tueur !)mais elle nous amène vers d'autres personnages s'étendant sur leur séjour, leur rencontre que l'on s'imagine utile pour la fin mais il n'en est rien!! neutre
La charge est un peu cruelle, mais l’unicité du style des DA de Miyasaki finit par me lasser. positif
Bon et bien le premier n'était déjas pas une révélation du cinéma mais là on frise le délit d'abut de confience. positif
Peut être suis-je excessif dans mes propos, mais je crois qu'ils sont à la mesure de ma déception. positif
"""presque cristalline chante pour 2 minutes de Bonheur auditif après tant de déception: Pourquoi ne se lancerait elle pas plutôt dans l'opéra et le répertoire classique revisité???ses nouvelles fréquentations lui font probablement du bien au cœur mais feraient mieux de changer de métier et arrêter de pervertir son talent si mal exploité""""""" neutre
and the answer :
nombre positif : 0
nombre négatif : 0
nombre neutre : 1
I tried also : if line.split('\t') == 'positif': but same answer
You can use Counter from the collections module:
from collections import Counter
with open('file.txt','r') as f:
lines = f.read().splitlines()
count = Counter([l.split()[-1] for l in lines])
print(count)
Output:
Counter({'positif': 8, 'neutre': 4, 'négatif': 1})
If you want the results in a dictionary:
print(dict(count))
Output:
{'positif': 8, 'neutre': 4, 'négatif': 1}
Breaking it down. This part:
with open('file.txt','r') as f:
lines = f.read().splitlines()
will assign all the lines in file.txt to a list called lines. The newlines have already been taken care of by the read().splitlines(). This part:
[l.split()[-1] for l in lines]
is a list comprehension that will list all the last words from the lines in lines, where str.split() will return a list of strings that have been separated by a space, and [-1] means the last element of the list.

Categories

Resources