I have this string:
>>> str(row['letra'][0])
'<p>[Baviera]<br/>Menina, me d\xc3\xa1 sua m\xc3\xa3o, pense bem antes de agir<br/>Se n\xc3\xa3o for agora, te espero l\xc3\xa1 fora, ent\xc3\xa3o deixe-me ir<br/>Um dia te encontro nessas suas voltas<br/>Minha mente \xc3\xa9 m\xc3\xb3 confus\xc3\xa3o<br/>Solta a minha m\xc3\xa3o, que eu sei que c\xc3\xaa volta<br/>O tempo mostra nossa dire\xc3\xa7\xc3\xa3o</p>'
And i want to transform it to portuguese special characters, but when I try:
>>> unicode(str(row['letra'][0]).decode('utf-8')).encode('utf-8')
'<p>[Baviera]<br/>Menina, me d\xc3\xa1 sua m\xc3\xa3o, pense bem antes de agir<br/>Se n\xc3\xa3o for agora, te espero l\xc3\xa1 fora, ent\xc3\xa3o deixe-me ir<br/>Um dia te encontro nessas suas voltas<br/>Minha mente \xc3\xa9 m\xc3\xb3 confus\xc3\xa3o<br/>Solta a minha m\xc3\xa3o, que eu sei que c\xc3\xaa volta<br/>O tempo mostra nossa dire\xc3\xa7\xc3\xa3o</p>'
The characters doesn't came as I want.
How can I transform 'd\xc3\xa1' to 'dá', for example?
Related
I receive some data in one long string from my endpoint, and depending on the length of the string I'd like to split it up into paragraphs on the frontend.
One string might look like this:
"*1* No princípio Deus criou os céus e a terra.*2* Era a terra sem forma e vazia; trevas cobriam a face do abismo, e o Espírito de Deus se movia sobre a face das águas.*3* Disse Deus: \"Haja luz\", e houve luz.*4* Deus viu que a luz era boa, e separou a luz das trevas.*5* Deus chamou à luz dia, e às trevas chamou noite. Passaram-se a tarde e a manhã; esse foi o primeiro dia.*6* Depois disse Deus: \"Haja entre as águas um firmamento que separe águas de águas\".*7* Então Deus fez o firmamento e separou as águas que estavam embaixo do firmamento das que estavam por cima. E assim foi.*8* Ao firmamento Deus chamou céu. Passaram-se a tarde e a manhã; esse foi o segundo dia.*9* E disse Deus: \"Ajuntem-se num só lugar as águas que estão debaixo do céu, e apareça a parte seca\". E assim foi.*10* À parte seca Deus chamou terra, e chamou mares ao conjunto das águas. E Deus viu que ficou bom.*11* Então disse Deus: \"Cubra-se a terra de vegetação: plantas que dêem sementes e árvores cujos frutos produzam sementes de acordo com as suas espécies\". E assim foi.*12* A terra fez brotar a vegetação: plantas que dão sementes de acordo com as suas espécies, e árvores cujos frutos produzem sementes de acordo com as suas espécies. E Deus viu que ficou bom.*13* Passaram-se a tarde e a manhã; esse foi o terceiro dia.*14* Disse Deus: \"Haja luminares no firmamento do céu para separar o dia da noite. Sirvam eles de sinais para marcar estações, dias e anos,*15* e sirvam de luminares no firmamento do céu para iluminar a terra\". E assim foi.*16* Deus fez os dois grandes luminares: o maior para governar o dia e o menor para governar a noite; fez também as estrelas.*17* Deus os colocou no firmamento do céu para iluminar a terra,*18* governar o dia e a noite, e separar a luz das trevas. E Deus viu que ficou bom.*19* Passaram-se a tarde e a manhã; esse foi o quarto dia.*20* Disse também Deus: \"Encham-se as águas de seres vivos, e sobre a terra voem aves sob o firmamento do céu\".*21* Assim Deus criou os grandes animais aquáticos e os demais seres vivos que povoam as águas, de acordo com as suas espécies; e todas as aves, de acordo com as suas espécies. E Deus viu que ficou bom.*22* Então Deus os abençoou, dizendo: \"Sejam férteis e multipliquem-se! Encham as águas dos mares! E multipliquem-se as aves na terra\".*23* Passaram-se a tarde e a manhã; esse foi o quinto dia.*24* E disse Deus: \"Produza a terra seres vivos de acordo com as suas espécies: rebanhos domésticos, animais selvagens e os demais seres vivos da terra, cada um de acordo com a sua espécie\". E assim foi.*25* Deus fez os animais selvagens de acordo com as suas espécies, os rebanhos domésticos de acordo com as suas espécies, e os demais seres vivos da terra de acordo com as suas espécies. E Deus viu que ficou bom.*26* Então disse Deus: \"Façamos o homem à nossa imagem, conforme a nossa semelhança. Domine ele sobre os peixes do mar, sobre as aves do céu, sobre os animais grandes de toda a terra e sobre todos os pequenos animais que se movem rente ao chão\".*27* Criou Deus o homem à sua imagem, à imagem de Deus o criou; homem e mulher os criou.*28* Deus os abençoou, e lhes disse: \"Sejam férteis e multipliquem-se! Encham e subjuguem a terra! Dominem sobre os peixes do mar, sobre as aves do céu e sobre todos os animais que se movem pela terra\".*29* Disse Deus: \"Eis que lhes dou todas as plantas que nascem em toda a terra e produzem sementes, e todas as árvores que dão frutos com sementes. Elas servirão de alimento para vocês.*30* E dou todos os vegetais como alimento a tudo o que tem em si fôlego de vida: a todos os grandes animais da terra, a todas as aves do céu e a todas as criaturas que se movem rente ao chão\". E assim foi.*31* E Deus viu tudo o que havia feito, e tudo havia ficado muito bom. Passaram-se a tarde e a manhã; esse foi o sexto dia.",
Whereas another string is way shorter:
"*1* Assim foram concluídos os céus e a terra, e tudo o que neles há.*2* No sétimo dia Deus já havia concluído a obra que realizara, e nesse dia descansou.
Obviously, the second string wouldn't need any splitting up seeing as it only has two "sections" (notice the *1* and *2* , but the first one goes from *1* all the way up to *29*
Not exactly sure what kind of logic I'm after, but maybe something along the lines of
For every *10*th section, add a linebreak evenly across the entire string.
Not exactly sure what kind of logic I'm after
Take loot at textwrap.fill function from built-in module textwrap. Most basic usage is providing text and giving width, for example
import textwrap
text = "Some very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very long text"
text_with_breaks = textwrap.fill(text, 50)
print(text_with_breaks)
output
Some very very very very very very very very very
very very very very very very very very very very
very very very very very very very very very very
very very very long text
But it does have also many options which you can tweak, see textwrap.TextWrapper docs.
A good starting point might be using regular expressions.
The following method assumes that every section begins with the pattern "*integer* " and each section does not contain this pattern as content.
import re
# your long string
string = ""
# regular expression
pattern = "(\*\d+\* .+?)(?=\*\d+\*|$)"
# using the regular expression to find all sections
sections = re.findall(pattern, string)
# now you can loop over all sections like
for section in sections:
pass
# and let the fronted handle the display
I have an list of sentences like this:
['Circula hoje o caderno especial "Folha Rock". Ele traz todas as informações para quem vai ao
M2.000 Summer Concerts, que começa hoje, e ao Hollywood Rock, a partir do dia 14. Mais de 30
bandas se apresentam nos dois festivais. O reggae domina a primeira noite do M2.000.',
'O delegado Nélson Guimarães, que apura a morte do sindicalista Oswaldo Cruz Júnior, não descarta
"motivações políticas" para o crime. O enterro foi marcado pela disputa da sucessão. Um grupo
apoiou o irmão de Oswaldo. Outro quer Cícero Bezerra da Silva, ligado a José Benedito de Souza,
suspeito do crime que está foragido. Brasil']
And i need that list like this:
['Circula hoje o caderno especial "Folha Rock". Ele traz todas as informações para quem vai ao
M2.000 Summer Concerts, que começa hoje, e ao Hollywood Rock, a partir do dia 14. Mais de 30
bandas se apresentam nos dois festivais. O reggae domina a primeira noite do M2.000.
O delegado Nélson Guimarães, que apura a morte do sindicalista Oswaldo Cruz Júnior, não descarta
"motivações políticas" para o crime. O enterro foi marcado pela disputa da sucessão. Um grupo
apoiou o irmão de Oswaldo. Outro quer Cícero Bezerra da Silva, ligado a José Benedito de Souza,
suspeito do crime que está foragido. Brasil']
You want to convert all elements of a list into a single string right ?
This might help you.
it will give you a single string variable
yourlist = ['Circula hoje o caderno especial "Folha Rock". Ele traz todas as informações para quem vai ao M2.000 Summer Concerts, que começa hoje, e ao Hollywood Rock, a partir do dia 14. Mais de 30 bandas se apresentam nos dois festivais. O reggae domina a primeira noite do M2.000.',
'O delegado Nélson Guimarães, que apura a morte do sindicalista Oswaldo Cruz Júnior, não descarta"motivações políticas" para o crime. O enterro foi marcado pela disputa da sucessão. Um grupo apoiou o irmão de Oswaldo. Outro quer Cícero Bezerra da Silva, ligado a José Benedito de Souza, suspeito do crime que está foragido. Brasil']
str = ""
for x in yourlist:
str = str + x
print(str)
you can do
yourlistname = ['Circula hoje o caderno especial "Folha Rock". Ele traz todas as informações para quem vai ao
M2.000 Summer Concerts, que começa hoje, e ao Hollywood Rock, a partir do dia 14. Mais de 30
bandas se apresentam nos dois festivais. O reggae domina a primeira noite do M2.000.',
'O delegado Nélson Guimarães, que apura a morte do sindicalista Oswaldo Cruz Júnior, não descarta
"motivações políticas" para o crime. O enterro foi marcado pela disputa da sucessão. Um grupo
apoiou o irmão de Oswaldo. Outro quer Cícero Bezerra da Silva, ligado a José Benedito de Souza,
suspeito do crime que está foragido. Brasil']
output = '\n'.join(yourlistname)
this will give you what you want
you can chose any seperator other than \n
I think this will help you:
s = ['My name is', 'XYZ', 'I am from X']
sen = ' '.join([i for i in s])
sen
'My name is XYZ I am from X'
Just a quick question guys... I would like to recover the content of a formatted .txt file in one line. for instance consider the following content of a .txt file:
Me encanta todos los electrodomésticos LG, ya que últimamente se han actualizado en un 200% en tecnología de punta respecto de las demás marcas que lo aventajaban antiguamente, sus repuestos son fáciles de encontrar en caso de defectos y mas económicos de otros, es una excelente secadora, gran capacidad de ropa y lo mas importante es que reúne las dos grandes funciones, lavar y secar en un sólo producto y cualquier persona la puede hacer funcionar, ya que su panel es muy sencillo y además no es ruidosa, se las recomiendo a todos.
Además, posee una gran característica que es, que si es que no quisieras utilizar todas las funciones, puedes seleccionar sólo las que desees, por ejemplo si es quires sólo lavar, se programa para esa función en específico y si es deseas todo el proceso menos secar, por ejemplo, de igual forma se selecciona las funciones requeridas.
I would like to recover it in one line like this:
Me encanta todos los electrodomésticos LG, ya que últimamente se han actualizado en un 200% en tecnología de punta respecto de las demás marcas que lo aventajaban antiguamente, sus repuestos son fáciles de encontrar en caso de defectos y mas económicos de otros, es una excelente secadora, gran capacidad de ropa y lo mas importante es que reúne las dos grandes funciones, lavar y secar en un sólo producto y cualquier persona la puede hacer funcionar, ya que su panel es muy sencillo y además no es ruidosa, se las recomiendo a todos. Además, posee una gran característica que es, que si es que no quisieras utilizar todas las funciones, puedes seleccionar sólo las que desees, por ejemplo si es quires sólo lavar, se programa para esa función en específico y si es deseas todo el proceso menos secar, por ejemplo, de igual forma se selecciona las funciones requeridas.
So far I tried this:
with open('/path/test_text.txt', 'r') as content_file:
content1 = content_file.read().splitlines()
print content1
Then, this is the output:
['Me encanta todos los electrodom\xc3\xa9sticos LG, ya que \xc3\xbaltimamente se han actualizado en un 200% en tecnolog\xc3\xada de punta respecto de las dem\xc3\xa1s marcas que lo aventajaban antiguamente, sus repuestos son f\xc3\xa1ciles de encontrar en caso de defectos y mas econ\xc3\xb3micos de otros, es una excelente secadora, gran capacidad de ropa y lo mas importante es que re\xc3\xbane las dos grandes funciones, lavar y secar en un s\xc3\xb3lo producto y cualquier persona la puede hacer funcionar, ya que su panel es muy sencillo y adem\xc3\xa1s no es ruidosa, se las recomiendo a todos.', 'Adem\xc3\xa1s, posee una gran caracter\xc3\xadstica que es, que si es que no quisieras utilizar todas las funciones, puedes seleccionar s\xc3\xb3lo las que desees, por ejemplo si es quires s\xc3\xb3lo lavar, se programa para esa funci\xc3\xb3n en espec\xc3\xadfico y si es deseas todo el proceso menos secar, por ejemplo, de igual forma se selecciona las funciones requeridas.']
The issue with the above code is that I get a comma separation from the newline: se las recomiendo a todos.', 'Adem\xc3\xa1s,. Is there any way to remove this type of special characters from the output?
Thanks in advance guys.
Try using join.
with open('/path/to/file') as f:
string = f.read().splitlines()
oneline = ''.join(string)
# do something with oneline
What you have is a list of values, where each value is a line. By joining them with no separator, you can get your one-line file.
How can i stem all spanish words in the following list with nltk snowballstemer?. This is what i tried:
# coding=utf-8
from sklearn.feature_extraction.text import CountVectorizer
import nltk.stem
vectorizer= CountVectorizer(min_df=1)
opinion = ["""
Hola compis!
No sabÌa como se ponÌa una lavadora hasta que conocÌ
esta y es que es muy sencilla de utilizar! Todo un gustazo
cuando estamos aprendiendo para emanciparnos, que si nos
ponen facilidad con las tareas de la casa pues mejor que mejor.
Antes de esta tenÌamos otra de la marca Otsein, de estas
que van incluidas en el mobiliario y adem·s era de carga superior,
pero tan antigua que seg˙n mi madre, nadie la podÌa tocar porque
solo la entendÌa ella.
Esta es de la marca Aeg y dentro de este tipo de lavadoras de
esta marca las habÌa m·s caras o m·s baratas y est· digamos que
est· en el punto medio. Es de color blanco y tiene carga frontal,
con una capacidad de 6kg. En casa a pesar de ser cuatro,
se ponen lavadoras casi todos o todos los dÌas.
En su parte de arriba encontramos la ";zona de mandos";,
donde se puede echar el detergente, aunque en nuestro caso
lo al ser gel lo ponemos directamente junto con la ropa.
Luego tiene la rueda para elegir el programa y los intermitentes
que indican en que paso del programa estaba.
Como todas tiene programas m·s cortos y m·s largos, incluso
un programa que seria como lavar a mano y otro ideal para
estores, que salen casi secos y planchaditos para colgar y
ya est·. Es muy f·cil de aprenderla y adem·s tiene indicador
por sonido de cuando acaba, lista para abrir y tender.
Saludillos!
"""]
spanish_stemmer = nltk.stem.SnowballStemmer('spanish')
print "\n these are the stems of opinion",
opinion = [[spanish_stemmer(word) for word in sentence.split(" ")]for sentence in opinion]
the problem with that aproach is the following this is the output:
Traceback (most recent call last):
these are the stems of opinion
File "/Users/user/PycharmProjects/untitled/prueba stem.py", line 47, in <module>
opinion = [[spanish_stemmer(word) for word in sentence.split(" ")]for sentence in opinion]
TypeError: 'SnowballStemmer' object is not callable
How can i return the list of stems given the list (opinion)? and how to lowercase the complete opinion?
>>> from nltk import word_tokenize
>>> from nltk.stem import SnowballStemmer
>>> stemmer = SnowballStemmer('spanish')
>>>
>>> stemmer.stem('cuando')
u'cuand'
>>> stemmer.stem('apprenderla')
u'apprend'
>>>
>>> text = 'En su parte de arriba encontramos la ";zona de mandos";, donde se puede echar el detergente, aunque en nuestro caso lo al ser gel lo ponemos directamente junto con la ropa.'
>>> stemmed_text = [stemmer.stem(i) for i in word_tokenize(text)]
>>> stemmed_text
[u'en', u'su', u'part', u'de', u'arrib', u'encontr', u'la', u'``', u';', u'zon', u'de', u'mand', u"''", u';', u',', u'dond', u'se', u'pued', u'echar', u'el', u'detergent', u',', u'aunqu', u'en', u'nuestr', u'cas', u'lo', u'al', u'ser', u'gel', u'lo', u'pon', u'direct', u'junt', u'con', u'la', u'rop', u'.']
Try to change last line to this:
...
opinion = [[spanish_stemmer.stem(word) for word in sentence.split(" ")]for sentence in opinion]
...
PAttern is working ok with test subject containing no accentuated char like á é í ã õ ñ
But simply returns no matches when I try it over the actual Portuguese-BR accentuated text.
Tried change encodings but got nothing.. Any help?
EDIT: Regex complete info here
HEX sample imput: 50:72:6f:63:65:73:73:6f:20:31:30:35:36:39:32:32:2d:38:34:2e:32:30:31:33:2e:38:2e
:32:36:2e:30:31:30:30:20:2d:20:45:78:65:63:75:c3:a7:c3:a3:6f:20:64:65:20:54:c3:a
d:74:75:6c:6f:20:45:78:74:72:61:6a:75:64:69:63:69:61:6c:20:2d:20:45:73:70:c3:a9:
63:69:65:73:20:64:65:20:43:6f:6e:74:72:61:74:6f:73:20:2d:20:4d:4f:42:49:4c:49:4e
:53:20:46:4f:52:4d:41:c3:87:c3:83:4f:20:50:52:4f:46:49:53:53:49:4f:4e:41:4c:20:4
5:4d:20:42:45:4c:45:5a:41:20:4c:54:44:41:2e:20:2d:20:4a:55:4c:49:41:4e:41:20:4d:
41:52:41:4e:48:c3:83:4f:20:50:4f:52:54:4f:20:44:41:20:53:49:4c:56:45:49:52:41:20
:2d:20:56:69:73:74:6f:73:2e:20:44:65:66:69:72:6f:20:6f:20:70:65:64:69:64:6f:20:7
0:61:72:61:20:61:20:70:65:73:71:75:69:73:61:20:64:65:20:62:65:6e:73:20:64:61:20:
70:61:72:74:65:20:72:65:71:75:65:72:69:64:61:20:4a:55:4c:49:41:4e:41:20:4d:41:52
:41:4e:48:c3:83:4f:20:50:4f:52:54:4f:20:44:41:20:53:49:4c:56:45:49:52:41:2c:20:4
3:50:46:20:30:33:30:2e:37:39:37:2e:35:36:34:2d:39:35:20:28:64:65:63:6c:61:72:61:
c3:a7:c3:a3:6f:20:64:6f:73:20:63:69:6e:63:6f:20:c3:ba:6c:74:69:6d:6f:73:20:65:78
:65:72:63:c3:ad:63:69:6f:73:29:2c:20:6f:20:71:75:61:6c:20:c3:a9:20:72:65:61:6c:6
9:7a:61:64:6f:2c:20:6e:65:73:74:61:20:64:61:74:61:2c:20:70:6f:72:20:6d:65:69:6f:
20:64:65:20:6f:66:c3:ad:63:69:6f:20:65:6e:76:69:61:64:6f:20:c3:a0:20:52:65:63:65
:69:74:61:20:46:65:64:65:72:61:6c:2c:20:70:72:6f:74:6f:63:6f:6c:61:64:6f:20:65:6
c:65:74:72:6f:6e:69:63:61:6d:65:6e:74:65:2c:20:70:6f:72:20:69:6e:74:65:72:6d:c3:
a9:64:69:6f:20:64:6f:20:73:69:73:74:65:6d:61:20:49:4e:46:4f:4a:55:44:2e:20:49:6e
:74:69:6d:65:2d:73:65:2e:20:2d:20:41:44:56:3a:20:4d:41:54:48:45:55:53:20:44:45:2
0:4f:4c:49:56:45:49:52:41:20:54:41:56:41:52:45:53:20:28:4f:41:42:20:31:36:30:37:
31:31:2f:53:50:29:50:72:6f:63:65:73:73:6f:20:31:30:35:36:39:32:32:2d:38:34:2e:32
:30:31:33:2e:38:2e:32:36:2e:30:31:30:30:20:2d:20:45:78:65:63:75:c3:a7:c3:a3:6f:2
0:64:65:20:54:c3:ad:74:75:6c:6f:20:45:78:74:72:61:6a:75:64:69:63:69:61:6c:20:2d:
20:45:73:70:c3:a9:63:69:65:73:20:64:65:20:43:6f:6e:74:72:61:74:6f:73:20:2d:20:4d
:4f:42:49:4c:49:4e:53:20:46:4f:52:4d:41:c3:87:c3:83:4f:20:50:52:4f:46:49:53:53:4
9:4f:4e:41:4c:20:45:4d:20:42:45:4c:45:5a:41:20:4c:54:44:41:2e:20:2d:20:4a:55:4c:
49:41:4e:41:20:4d:41:52:41:4e:48:c3:83:4f:20:50:4f:52:54:4f:20:44:41:20:53:49:4c
:56:45:49:52:41:20:2d:20:56:69:73:74:6f:73:2e:20:31:29:20:43:69:c3:aa:6e:63:69:6
1:20:64:61:20:72:65:73:70:6f:73:74:61:20:64:6f:20:6f:66:c3:ad:63:69:6f:20:65:78:
70:65:64:69:64:6f:20:c3:a0:20:52:65:63:65:69:74:61:20:46:65:64:65:72:61:6c:2c:20
:66:69:63:61:6e:64:6f:20:6f:73:20:64:61:64:6f:73:20:73:69:67:69:6c:6f:73:6f:73:2
0:61:72:71:75:69:76:61:64:6f:73:20:65:6d:20:70:61:73:74:61:20:70:72:c3:b3:70:72:
69:61:2e:20:32:29:20:50:6f:72:20:63:6f:6e:73:65:67:75:69:6e:74:65:2c:20:61:20:70
:61:72:74:65:20:65:78:65:71:75:65:6e:74:65:20:64:65:76:65:20:6d:61:6e:69:66:65:7
3:74:61:72:2d:73:65:2c:20:65:6d:20:63:69:6e:63:6f:20:64:69:61:73:2e:20:4e:6f:20:
73:69:6c:c3:aa:6e:63:69:6f:2c:20:61:6f:20:61:72:71:75:69:76:6f:2e:20:49:6e:74:69
:6d:65:2d:73:65:2e:20:2d:20:41:44:56:3a:20:4d:41:54:48:45:55:53:20:44:45:20:4f:4
c:49:56:45:49:52:41:20:54:41:56:41:52:45:53:20:28:4f:41:42:20:31:36:30:37:31:31:
2f:53:50:29:50:72:6f:63:65:73:73:6f:20:31:30:35:37:32:38:30:2d:31:35:2e:32:30:31
:34:2e:38:2e:32:36:2e:30:31:30:30
This has nothing to do with accented characters. The answer provided to you doesn't work because:
In the new input the word Process was replaced with Processo.
The new input has several instances of the regular expression pattern, so re.findall should be invoked, rather than re.match (in fact, since the old input has several instances as well, that solution won't work perfectly there either).
Therefore, here is the correct solution:
>>> print input
Processo 1056922-84.2013.8.26.0100 - Execução de Título Extrajudicial - Espécies de Contratos - MOBILINS FORMAÇÃO PROFISSIONAL EM BELEZA LTDA. - JULIANA MARANHÃO PORTO DA SILVEIRA - Vistos. Defiro o pedido para a pesquisa de bens da parte requerida JULIANA MARANHÃO PORTO DA SILVEIRA, CPF 030.797.564-95 (declaração dos cinco últimos exercícios), o qual é realizado, nesta data, por meio de ofício enviado à Receita Federal, protocolado eletronicamente, por intermédio do sistema INFOJUD. Intime-se. - ADV: MATHEUS DE OLIVEIRA TAVARES (OAB 160711/SP)Processo 1056922-84.2013.8.26.0100 - Execução de Título Extrajudicial - Espécies de Contratos - MOBILINS FORMAÇÃO PROFISSIONAL EM BELEZA LTDA. - JULIANA MARANHÃO PORTO DA SILVEIRA - Vistos. 1) Ciência da resposta do ofício expedido à Receita Federal, ficando os dados sigilosos arquivados em pasta própria. 2) Por conseguinte, a parte exequente deve manifestar-se, em cinco dias. No silêncio, ao arquivo. Intime-se. - ADV: MATHEUS DE OLIVEIRA TAVARES (OAB 160711/SP)Processo 1057280-15.2014.8.26.0100
>>> regex = re.compile('(Processo \\d{7}\\-\\d{2}\\.\\d{4}\\.\\d+\\.\\d{2}\\.\\d{4}.*?)(?=Processo)|(Processo \\d{7}\\-\\d{2}\\.\\d{4}\\.\\d+\\.\\d{2}\\.\\d{4}.*)')
>>> regex.findall(y)
[('Processo 1056922-84.2013.8.26.0100 - Execu\xc3\xa7\xc3\xa3o de T\xc3\xadtulo Extrajudicial - Esp\xc3\xa9cies de Contratos - MOBILINS FORMA\xc3\x87\xc3\x83O PROFISSIONAL EM BELEZA LTDA. - JULIANA MARANH\xc3\x83O PORTO DA SILVEIRA - Vistos. Defiro o pedido para a pesquisa de bens da parte requerida JULIANA MARANH\xc3\x83O PORTO DA SILVEIRA, CPF 030.797.564-95 (declara\xc3\xa7\xc3\xa3o dos cinco \xc3\xbaltimos exerc\xc3\xadcios), o qual \xc3\xa9 realizado, nesta data, por meio de of\xc3\xadcio enviado \xc3\xa0 Receita Federal, protocolado eletronicamente, por interm\xc3\xa9dio do sistema INFOJUD. Intime-se. - ADV: MATHEUS DE OLIVEIRA TAVARES (OAB 160711/SP)', ''), ('Processo 1056922-84.2013.8.26.0100 - Execu\xc3\xa7\xc3\xa3o de T\xc3\xadtulo Extrajudicial - Esp\xc3\xa9cies de Contratos - MOBILINS FORMA\xc3\x87\xc3\x83O PROFISSIONAL EM BELEZA LTDA. - JULIANA MARANH\xc3\x83O PORTO DA SILVEIRA - Vistos. 1) Ci\xc3\xaancia da resposta do of\xc3\xadcio expedido \xc3\xa0 Receita Federal, ficando os dados sigilosos arquivados em pasta pr\xc3\xb3pria. 2) Por conseguinte, a parte exequente deve manifestar-se, em cinco dias. No sil\xc3\xaancio, ao arquivo. Intime-se. - ADV: MATHEUS DE OLIVEIRA TAVARES (OAB 160711/SP)', ''), ('', 'Processo 1057280-15.2014.8.26.0100')]
If both inputs are legal (i.e. the input may contain the word Process and may contain the word Processo), then this regular expression should be used:
>>> regex = re.compile('(Processo? \\d{7}\\-\\d{2}\\.\\d{4}\\.\\d+\\.\\d{2}\\.\\d{4}.*?)(?=Processo?)|(Processo? \\d{7}\\-\\d{2}\\.\\d{4}\\.\\d+\\.\\d{2}\\.\\d{4}.*)')