Szerkesztő:BinBot/munka/vegyes
Gyakoribb helyesírási javításaim BinBot segítségével
[szerkesztés]A javítások kulisszatitkairól részletesebben olvashatsz a Szerkesztő:Bináris/Bottal végzett helyesírási javítások lapon. A fő tudnivalók kivonata a dobozban látható. |
---|
|
Munkanapló • Vegyes helyesírási javítások • Dátumintervallumok • Dátumok általános javítása • Számok, évszámok névelője • -ít végű igék • Kora/késő különírása • Égtájak kötőjelmentesítése • Standard kivételek • Egyéb javítócsomagok
Vegyes helyesírási javítások
[szerkesztés]Ez egy eredetileg igen összetett javítócsomag, amelynek nagyon hosszú volt a futásideje, és sok esetben vezetett konfliktushoz (azaz javítandó hibákra és hamis találatokra is illeszkedett egy cikken belül – ilyenkor csak kézzel lehet szerkeszteni a szócikket). Ezért jelenleg tizenegy részre bontva fut. Ezáltal csökken a konfliktusok és az egyszerre kigyűjtött lapok száma és a botgazdára eső lelki terhelés. A tesztelések során sikerült a hamis találatok arányát egész jól használható szintre csökkenteni, amint a munkanaplóban is látható. Az itt olvasható változat a 2012 nyári állapotnak felel meg. Az egyes fixeken belül a 'munka' szótárak egyedi fejlesztést használnak, a munkanapló frissítésére valók, csak lusta voltam törölni őket a közzétett változatból.
Voltaképpen ezek az általános, sokféle hibát javító csomagok; ezeken kívül számos speciális célú, szűkebb körre fókuszáló csomagot is használok.
Íme, egy áttekintő lista a vegyes javítócsomagok feladatáról:
# ***********************************************
# Tartalomjegyzék
# ***********************************************
#
#vegyesjav1: vegyes kis-nagybetűérzékeny javítások
#vegyesjav2a: számok toldalékolása
#vegyesjav2b: mértékegységek és % jelek toldalékolása, % tapadása
#vegyesjav3: i/í
#argentin: i/í
#vegyesjav4: u/ú, ü/ű
#vegyesjav5: o/ó, ö/ő
#vegyesjav6: rövid/hosszú mássalhangzók
#vegyesjav7: egybeírás/különírás
#vegyesjav8: j/ly és az egyebek
#repeta: a többsége beépítendő a 3-4-5-ösbe
Ezek a függvények még a fixes szótáron kívül vannak! / First some functions defined before fixes, see Szerkesztő:Bináris/Fixes and functions HOWTO.
def vegyesjav1_Tri(m):
if m.group(1):
if m.group(2):
return m.group() #
else:
return m.group(1) + u'trianoni' #
else:
return 'trianoni'
def vegyesjav1_Kelvin(m):
#Keresett kif: ur'[Kk]elvin\s*\-*\s*fok(?P<ket>\]\])?(o(n|s|t)|kal|ban|tól|nál|ra|ról)?'
told = m.group(2)
k = u'kelvin'
if m.group('ket'):
k = u'kelvin]]'
if not told:
return k #Nincs keresett toldalék, lehet pl. -ig
elif told in ('on','os'):
return k + 'e' + m.group(3)
elif told == 'ot':
return k + 't'
elif told == 'kal':
return k + 'nel'
elif told == 'ban':
return k + 'en'
elif told == u'tól':
return k + u'től'
elif told == u'ról':
return k + u'ről'
elif told == 'ra':
return k + 're'
elif told == u'nál':
return k + u'nél'
else:
print '******* Hiba van a Kelvin körül! Folytatom.'
pywikibot.output(told)
return k
def vegyesjav5_video(m):
#A videóval kezdődő összetett szavak elválasztása a ragozottaktól
v = m.group()[5:]
r = re.compile(ur'(?L)(k|i|t|ja|jukkal|ját|in|inak|kat|kkal|it|jával)\b')
#A ?L kapcsoló a locale használatához kell, különben szóhatárnak veszi az á-t,
#és átugorja a videótámogatással, videótárban stb. szavakat is.
r2 = re.compile(ur'(juk|ján|j[áa]ba|jából|ink)')
r3 = re.compile(ur'\W')
if r.match(v) or r2.match(v) or r3.match(v):
pywikibot.output(m.group()) #debug
return m.group()
else:
return m.group(1) + u'ideo' + m.group(2)
Ez pedig a tényleges javítócsomag: / These are the fixes themselves:
# ***********************************************************************************************************
# *** ***
# *** Itt kezdődnek a vegyes javítások. A korábbi egybeépített vegyesjav hatékonysági okból megszűnt! ***
# *** ***
# ***********************************************************************************************************
# ***********************************************
# Tartalomjegyzék
# ***********************************************
#
#vegyesjav1: vegyes kis-nagybetűérzékeny javítások
#vegyesjav2a: számok toldalékolása
#vegyesjav2b: mértékegységek és % jelek toldalékolása, % tapadása
#vegyesjav3: i/í
#argentin: i/í
#vegyesjav4: u/ú, ü/ű
#vegyesjav5: o/ó, ö/ő
#vegyesjav6: rövid/hosszú mássalhangzók
#vegyesjav7: egybeírás/különírás
#vegyesjav8: j/ly és az egyebek
#repeta: a többsége beépítendő a 3-4-5-ösbe
'vegyesjav1': {
# **************** Ennek van egy függvénye a fixes szótár előtt! ****************
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (1. csoport: vegyes kis-nagybetűérzékeny jav.)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'1. csoport: vegyes nagybetű-<br>érzékenyek',
},
'replacements': [
#Kis/nagybetűérzékeny javítások
(ur'Tíbor', ur'Tibor'),
(ur'GySEV', ur'GYSEV'),
(ur'(k|K)ülső H[ií]vatkozások', ur'Külső hivatkozások'), #Szócikknévtérben biztosan jó, máshol gond lehet.
(ur'((\*|#|==)? *(\[\[)?)Trianoni(?! béke(szerződés|diktátum)?\||g)', vegyesjav1_Tri), #Így a linkekben a vonal előtti részt nem javítja.
#Most ki vannak zárva a *, #, == utáni Trianoni és [[Trianoni esetek.
#Ld. még: Wikipédia:Kocsmafal (helyesírás)#Trianoni kereszt, 2011. július 10. (eredmény: kis t)
(ur'(1\.|2\.|3\.|I+\.) ?Világhábor[uú]', ur'\1 világháború'),
(ur'\bUSÁ\-?([^\]])', ur'USA-\1'), #Ne tegyen - jelet a hivatkozáson belülre
(ur'\bUSÁ\]\]\-?', ur'USA]]-'), #De javítsa ki hivatkozáson belül is
(ur'\b(EL|JA|SO|JP|SZ|GA)TÉ\-?([^\]])', ur'\1TE-\2'), #Ne tegyen - jelet a hivatkozáson belülre
(ur'\b(EL|JA|SO|JP|SZ|GA)TÉ\]\]\-?', ur'\1TE]]-'), #De javítsa ki hivatkozáson belül is
(ur'[Áá]rpád\-?(ház|kor)', ur'Árpád-\1'),
#Hannibál egyelőre vitatott
#Wikipédia:Kocsmafal (helyesírás)/Archív70#A füredi Hanni-bálon szól a zeneszó
# (ur'(?<!Babszem |Szegény )Hannibál(?! tanár úr| feltámasztása| \(egyértelműsítő lap\)| élete és kora)', ur'Hannibal'),
(ur'[Cc]elsius\s*\-*\s*fok', ur'Celsius-fok'),
(ur'[Kk]elvin\s*\-*\s*fok(?P<ket>\]\])?(o(n|s|t)|kal|ban|tól|nál|ra|ról)?', vegyesjav1_Kelvin), #fokon, fokos, fokot, fokkal; fokban -> kelvinen
(ur'(v|V)lagyimír', ur'\1lagyimir'), #Vlagyimir, vlagyimiri (itt kisebb eséllyel okoz konfliktust, mint a 3-asban)
(ur'(\d) *Gigabit Ethernet', ur'\1 gigabites Ethernet'), #Előkészíti a következő sort, ne ott jöjjön ki
#Wikipédia:Kocsmafal (helyesírás)#Gigabit Ethernet, 2011. július 10.
(ur'((\d) *(?P<nb> )?(?P<bra>\[\[)?)(?P<unit>Volt|Newton|Hertz|Amper|Ohm|Pascal|Joule|Watt|Farad|Kandela|Mól|Siemens|Coulomb|Angström|Kelvin|Radián|Mérföld|Mega|Giga|Kilo|Tera|Deka|Deci|Centi|Milli|Mikro)(?P<ket>[^\[]*?\|.*?\]\])?',
lambda m:m.group(2) + (' ' if m.group('nb') else ' ') + ('[[' if m.group('bra') else '') + (m.group('unit')+m.group('ket') if m.group('ket') else m.group('unit').lower())),
# (ur' (?P<bra>\[\[)?(?P<had>(Tatárjárás|Honfoglalás))',
# lambda m:(' [[' if m.group('bra') else ' ') + m.group('had').lower()),
# A Honfoglalás javításakor szóköz volt előtte, de mi van, ha | után áll a linkben?
(ur'(?P<bra>\[\[)?(?P<had>(Tatárjárás|Honfoglalás))',
lambda m:('[[' if m.group('bra') else '') + m.group('had').lower()),
#TODO:
#Tatárjárás/Trianon/Honfoglalás/világháborúk? egységes kezelése
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside': [
#Egyebek:
ur'\d *Million', #Angol nyelvű részletek, forráshivatkozások miatt, pl. [[Janet Jackson]]
ur'(662 Newtonia|464 Megaira|1693 Hertzsprung|1798 Watts|2659 Millis)',
ur'(5440 Terao|4500 Pascal|3142 Kilopi|5676 Voltaire|8003 Kelvin|8208 Volta)',
ur'(10183 Ampere|12759 Joule|15034 Decines)', #Kisbolygók
u'Me 323 Gigant', #német repülő
u'3 Megatrans', #autóbusz
u'Fájl:GySEV',
ur'(?i)\{\{fordítás\|de\|GYSEV',
ur'\[\[Honfoglalás\|', # link előtagja
ur'(\*|#|==) *(\[\[)?(Tatárjárás|Honfoglalás)', # felsorolásban, címben
ur'\[\[Honfoglalás \(.*?\)\|.*?\]\]', # zárójeles link utótagja, pl. film (Mégis megtalálja!)
# ur'\[\[Tatárjárás[^\]]*\|', # link első részében, szakaszcímmel se
# (nem tudom, miért rossz! Pont a | előttit javítja, és utána nem!)
# Helyette:
ur'\[\[Tatárjárás.*?\|', # link első részében, szakaszcímmel se
# [[Tatárjárás Poroszországban]] se -- ezt magában csak * után látom, egyelőre függ
# [[Tatárjárás (film, 1917)|Tatárjárás]] is van!
ur'\[\[Tatárjárás \(operett\)\|Tatárjárás', # Nem igaz, ez se jó, megtalálja!
ur'(?i)\{\{(fő|bővebben)\|(Tatárjárás|Honfoglalás)\}\}', #Ilyen kéne Trinaonhoz is
# Javítani kéne még a honfoglalás]]? kori / -kori alakokat is.
# Kizárandó: {{commonskat|GySEV 1047}}, GySEV és az átirányítások: #ÁTIRÁNYÍTÁS [[Trianoni békeszerződés]]
# - * '''Harmatta János''': ''Iráni nyelvek hatása az ősmagyar nyelvre'' - Honfogalás és nyelvészet (Balassi Kiadó, Budapest 1997) ISBN
],
'title': [ #Ezeket kizárjuk a többi javításból is, nem nagy kockázat
# ur'^Hannibál \(egyértelműsítő lap\)$',
# ur'^Hannibál$', #keresztnév
ur'Honfoglalás \(.*?\)', # film / album / egyértelműsítő
ur'^Kelvin$',
ur'^Ariszteasz$',
ur'^Budakeszi$',
ur'^Honfoglalás$',
ur'^Mifune Tosiró$',
ur'^Hóstát \(Kolozsvár\)$',
ur'^Kálmán Imre$',
ur'^Reizner János$',
ur'^Budaliget$',
ur'^222-es busz \(Budapest\)$',
ur'^157-es busz \(Budapest\)$',
ur'^Pokolba tartó vonat$',
],
'include': BaseExceptions,
}
},
'vegyesjav2a': {
#Ezt érdemes gyakran futtatni a sportcikkek borzalmas állapota miatt
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (2/a csoport: számok toldalékolása)]] kézi ellenőrzéssel. Lásd még: [[WP:SZÁM]]',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'2/a csoport: számok toldalékolása',
},
'replacements': [
#Toldalékolási hibák -- csak a számok maradtak, hogy gyorsabban fusson (igazából %-ból volt nagyon sok)
#Ez így most szép sebességgel fut, és gyorsan javítható is. :-)
#A mozdonyokkal és bibliai utalásokkal sajnos nem nagyon lehet mit csinálni.
(ur'2-őt', ur'2-t'),
#Az alábbi sorban elvileg simán a (\D)0-át, \g<1>-t is működnek, de csak elvileg.
(ur'(?P<tipp>\D)0-?át', ur'\g<tipp>0-t'), #Ez \D nélkül az aug. 20-átólt aug. 20-tólra javítaná.
(ur'\b0-?át', ur'0-t'), #Ez most javítja: "0-át", "1.0-át", de nem találja meg: "20-át, 00-át", (ur'0-?ás', ur'0-s'), #még az M0-s is, külön benne van a szótárban a nullánál
#Előbb a közönséges törtek jönnek, szerencsés esetben egyjegyű nevezővel
#Még jó, hogy egyjegyű, de bővítésnél ezt talán úgy lehetne megfogni, hogy nem szóköz van a szám előtt
#>>> Gloster E.28/39 <<<
#- Ezen túlmenöen az E.28/39-el végzett próbák kikövezték
#+ Ezen túlmenöen az E.28/39-cel végzett próbák kikövezt
(ur'\/(4|5|9)-el\b', ur'/\1-del'),
(ur'\/(8|6|3)-al\b', ur'/\1-dal'),
#Most jönnek a tizedestörtek, mondjuk három tizedesig. Akkor már legyen öt, az ugyanannyi munka.
#Egyelőre azonban nem jönnek, amíg olyan számok vannak a Wikipédiában, hogy 9,345,300 :-(
#Na jó, amelyik nem végződik nullára, arról tételezzük fel, hogy tizedestört! Különben is ezek közül csak a 3 tizedesnél probléma ez!
#1,4,5 tizedes; a tárgyragnál vagy magánhangzó, vagy - legyen a t előtt, különben a tonnákat is javítja!
(ur'(\d),(\d{1}|\d{4,5})\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2-del'),
(ur'(\d),(\d{1}|\d{4,5})\s*-*[eöőoa]t\b', ur'\1,\2-et'),
(ur'(\d),(\d{1}|\d{4,5})\s*-t\b', ur'\1,\2-et'),
#3 tizedes, nem nullára végződik
#Ezek sajnos hamis találatot adnak a mozdonyos szócikkekben, jó lenne csak ezt szűrni a MÁV szóra. :-(
#Nem javítottam az autóversenyes szócikkekben az ezredmásodperceket, az élőbeszédhez igazodva. Véleményes.
(ur'(\d),(\d{2})([1-9])\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2\3-del'),
(ur'(\d),(\d{2})([1-9])\s*-*[eöőoa]t\b', ur'\1,\2\3-et'),
(ur'(\d),(\d{2})([1-9])\s*-t\b', ur'\1,\2\3-et'), #a tonnák miatt, lásd fent
#2 tizedes
(ur'(\d),(\d{2})\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2-dal'),
(ur'(\d),(\d{2})\s*-*[eöőoa]t\b', ur'\1,\2-ot'), ######### ide tegyük be a 4,51-est
(ur'(\d),(\d{2})\s*-t\b', ur'\1,\2-ot'), #a tonnák miatt, lásd fent
# >>> KCSV6 <<<
# - *Tömeg: 31,6 t
# + *Tömeg: 31,6-et (Na ez most elvileg ki van zárva.)
#Íme, jó esetben az egész számok maradtak, kivéve persze, ami nem. :-)
(ur'1-?g?y?el\b', ur'1-gyel'), #g és y külön, nem nagy a kockázat
(ur'4-?g?y?el\b', ur'4-gyel'),
(ur'5-?t?el\b', ur'5-tel'),
(ur'9-?c?el\b', ur'9-cel'),
(ur'8-?c?al\b', ur'8-cal'),
(ur'6-?t?al\b', ur'6-tal'),
(ur'3-?m?al\b', ur'3-mal'),
(ur'10-?z?el\b', ur'10-zel'),
#(ur'1000-?r?el\b', ur'1000-rel'), #Ez a visszaállítható eredeti, ha a következő sor nem működne.
(ur'(?P<tipp>[1-9])000-?r?el\b', ur'\g<tipp>000-rel'), #Elvileg minden ezresre jó. *nincs tesztelve
(ur'20-?s?z?al\b', ur'20-szal'),
(ur'30-?c?al\b', ur'30-cal'),
(ur'(?P<tipp>[4579])0-?n?el\b', ur'\g<tipp>0-nel'), #40-, 50-, 70-, 90-nel
(ur'(?P<tipp>[68])0-?n?al\b', ur'\g<tipp>0-nal'), #60-, 80-nal
#(ur'100-?z?al\b', ur'100-zal'), #Ez a visszaállítható eredeti, ha a következő sor nem működne.
(ur'(?P<tipp>[1-9])00-?z?al\b', ur'\g<tipp>00-zal'), #Elvileg minden százasra jó.
#Elvileg ez most a maradék tárgyragot stb. kötőjelezi meg számjegy után, t kizárva a tonnák miatt.
#Ez dátumoknál nem mindig jó, de jobb, mint volt.
#2011. aug.: az -es/-os/-ös kötőjelezése tette ki a találatok majdnem 40%-át.
(ur'(\d)([aeoö][ts]|h[oeö]z|[trb][óő]l|[öeo]n|b[ae]n?|r[ae]|n[ae]k|kor|ért|sz[oeö]r)\b', ur'\1-\2'),
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside': [
r'Se7en', #Ez egy film címe, sok van belőle
r'Th[i1]r[1t]3en', #Ez egy film és egy lemez címe, sok van belőle
r'#[a-fA-F0-9]{6}', #Színkódok, pl. ba, be végződéssel
'Tr1be Records',
u'Az erdélyi reformata anyaszentegyház névkönyve 1863ra',
],
'title': [
ur'MÁV [VM]?\d', # mozdonyos cikkek (nem ^, OMÁV is van)
ur'^KkStB 95 sorozat$',
ur'^Greenwich kerület$',
ur'^NGC 6946$',
ur'^Camille Saint-Saëns$',
ur'^Sablon:Rúnák Unicode táblája$',
ur'(?i)^\(Újasszír )?ékjelek listája$',
ur'^Kolozsvár várfalai és bástyái$',
ur'^Torony \(Kolozsvár\)$',
ur'^Hit szava$',
ur'^Buggenhout$',
],
'include': BaseExceptions,
}
},
'vegyesjav2b': {
#Kéne: m2 -> m², tapadás (m3, km2), informatikai mértékegységek elé is szóköz
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (2/b csoport: százalékok és mértékegységek toldalékolása, % tapad)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'2/b csoport: százalékok, mérték-<br>egységek',
},
'replacements': [
#Toldalékolási hibák -- kivettem a százalékokat és velük a mértékegységeket, hogy gyorsabb legyen.
#Futtatás előtt lásd az utolsó sort.
#Mellesleg ezt hatékonyan lehetne kombinálni a %, kg, km előtti tizedespontok javításával is.
(ur'km-ert', ur'km-t'),
(ur'km-er\b', ur'km'),
(ur'km-er\B', ur'km-'),
#Ajjajj!
#>>> Versailles-i békeszerződés <<<
#tett, hogy 50-50km-eres körzetben n
#tett, hogy 50-50kmes körzetben nem
(ur'km-el', ur'km-rel'),
(ur'kg-al', ur'kg-mal'),
(ur'kg-t\b', ur'kg-ot'), #kg-tól nem!
(ur'(\d)\s*m-el', ur'\1 m-rel'),
(ur'(\d) *%-*\s*al\b', ur'\1%-kal'), #számjegy után ne legyen szóköz; \b: % align= kivétel, sok táblázatban van, meg 50% alatti
(ur'%\s*-*\s*al\b', ur'%-kal'), #pl. száz %-kal -- szöveges számnál nem irtjuk a szóközt
(ur'(\d)\s*%-*\s*(kal(?!cium)|os(?!zt)|ot|át|tól|ban|ig(?!en)|áig|uk(?!r))', ur'\1%-\2'), #számhoz tapad a %
(ur'%\s*-*\s*(kal(?!cium)|os(?!zt)|ot|át|tól|ban|ig(?!en)|áig|uk(?!r))', ur'%-\1'), #betűhöz nem tapad a %
#Az előző kettőből kiemeltem azt az esetet, amikor a toldalék csak egy a betű.
#hibák: % igen, % kalcium, % osztrák/osztalék, % ukrán, % bangladesi/banki
# (os, uk nem csak a szó végén lehet!)
#
#Nagyon gyakori, hogy a "% a" helyes, mert az a névelő, ez automatikusan nem különíthető el.
#Ezért a javítás során érdemes lehet ezt a két sort külön futtatni (bár a keresésnél mehet együtt).
#Ezt többé nem érdemes futtatni, lásd lent a statisztikát. A "% a" minden esetben névelőnek bizonyult.
#(ur'(\d)\s*%-*\s*a\b', ur'\1%-a'), #számhoz tapad a %
#(ur'%\s*-*\s*a\b', ur'%-a'), #betűhöz nem tapad a %
#Helyette csak meglévő kötőjel esetén javítunk (volt felesleges szóköz és két kötőjel is)
#Még így se tökéletes: >>> Szajk <<<
#"módosítja az, hogy közülük igen magas - mintegy 50% - a szakmunkások aránya."
(ur'(\d)\s*%-+\s*a\b', ur'\1%-a'), #számhoz tapad a %
(ur'%\s*-+\s*a\b', ur'%-a'), #betűhöz nem tapad a %
#Kivétel a JavaServer Pages cikkben!
#Elgondolkodás: Lehet, hogy egyszerűbb lenne tetszőleges betűt keresni a fenti toldalékok helyett is?
#
#
#
#Most jön a % tapadása a számjegyekhez toldaléktól függetlenül. Nagyon gyakori.
#Már csak az ütközések elkerülése végett is érdemes előre külön futtani. Akár automatikusan is.
#Módszer: kigyűjtés egyben, futtatás külön előre.
#Utána a fenti két %-a sor kikommentezésével a többi könnyen, gyorsan, vidáman fut.
#Harmadik menet: csak az a két maradék sor.
#
#Lehetséges problémák automatikus futtatásnál:
# - ha a % műveleti jel (programozási cikkekben)
# - ha a belső vagy külső linkek rossz kódolással vannak megadva, és a %hexa... ékezetes betűt jelöl
#
#Az automatikus futtatás eredménye 2009. október 28-án:
#
#Hibát okozott ezekben a cikkekben:
#[[Windows XP-parancsok listája]]
#http://hu.wikipedia.org/w/index.php?title=Windows_XP-parancsok_list%C3%A1ja&diff=prev&oldid=6440519
#[[Mesg]] (http://hu.wikipedia.org/w/index.php?title=Mesg&diff=prev&oldid=6440672)
#Ezeken már van {{sl|sicc}} sablon.
#
#Statisztika: a teljes vegyesjav2b által kigyűjtött 536 szócikkből javított 329-et (61%)
#Ebből hibás javítás: 2. Futásidő: 65 perc
#2. menet a %-a sorok nélkül: kézi javítással 77 igen, 14 nem. 445 átugorva.
#3. menet, %-a: kézi javítással 4 igen, 106 nem (abból 4-5 rossz, de nem javítható a bottal). 426 átugorva.
#A 4 javított: van kötőjel, de előtte vagy utána szóköz, illetve két kötőjel volt.
#
(ur'(\d)\s*%', ur'\1%'),
#
#
#
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'title': [
],
'include': BaseExceptions,
}
},
'vegyesjav3': {#Ez a legnagyobb javítócsomag!
# De az argentinok kipakolása és a nyilván/dicsér/mindig külön
# futtatása után már egészen könnyed!
#
#Függőben van, sok előfordulással:
#Taracvizi járás és Szépvizi járás
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (3. csoport: i/í)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'3. csoport: i/í',
},
'replacements': [
#i/í
(ur'(t|T)izes', ur'\1ízes'),
(ur'(t|T)izet', ur'\1ízet'),
(ur'(v|V)ízes([^é])', ur'\1izes\2'),# nem vízesés
(ur'(v|V)ízet', ur'\1izet'),
(ur'(v|V)[ií]zit[uú]r(a|á)', ur'\1ízitúr\2'),
(ur'(v|V)izigény', ur'\1ízigény'), #A piszok (POV!) vizigótok miatt kell külön venni.
(ur'(v|V)izi([^tog ])', ur'\1ízi\2'), #vizit kizárva, vízitelep IJ :-), mellékhatás: televizió :-)
(ur'(v|V)izi ([^E])', ur'\1ízi \2'), #Vizi E. Szilveszter miatt a szóközösök külön sorban vannak. Lehetne (?!E. Szi)
#Valamint a vizigót, a revizionista és a vizionál is kizárva, a víziorgona meg IJ.
#HIBA! Kimarad a vízió, víziója stb. is!
(ur'(v|V)ízig[oó]t', ur'\1izigót'), #Ezt meg visszafelé javítjuk (nyugati gót).
#Hahó! Ebben van a valószínű is, az is elég sok!
(ur'sz[ií]n[üű](?!k)', ur'színű'), #színű, valószínű, de a színük nem; mondat elején nem keressük
(ur'(s|S)z[ií]n[üű]k(?!ént)', ur'\1zínük'), #színük
(ur'(s|S)zervíz', ur'\1zerviz'),
(ur'(f|F)ínom', ur'\1inom'),
(ur'\b(s|S)iít', ur'\1íit'), #síiták
(ur'(s|S)íma(?!szk)', ur'\1ima'),
(ur'(s|S)ímán', ur'\1imán'),
(ur'(s|S)zelid', ur'\1zelíd'),
(ur'(k|K)irgíz(?!i[aá])', ur'\1irgiz'), #Kirgízia/ában hosszú! (OH)
(ur'(k|K)isér', ur'\1ísér'),
(ur'(k|K)[ií]vál+', ur'\1ivál'),
(ur'(k|K)iván(?!d|szor)', ur'\1íván'), #kivándorlás, -szorgás nem
(ur'(h|H)írdet', ur'\1irdet'),
(ur'(f|F)ívér', ur'\1ivér'),
(ur'(a|A)noním', ur'\1nonim'),
(ur'(h|H)ída(t|k)', ur'\1ida\2'), #A párja az útat, de az nem jó, sok a fals régies
(ur'(h|H)ívatk', ur'\1ivatk'),
(ur'(b|B)íztat', ur'\1iztat'),
(ur'(b|B)íztos', ur'\1iztos'),
(ur'(f|F)elírat(?!ás|ta|ni)', ur'\1elirat'), #gyakori, érdemes külön futtatni!
#Csak főnévi alakban rövid, igeként hosszú! Pl. felíratás a Sárrétudvari cikkben.
(ur'(e|E)mpírikus', ur'\1mpirikus'),
(ur'(e|E)llenőríz', ur'\1llenőriz'),
(ur'(?<!Atró)(m|M)itosz(?!óm[aá])', ur'\1ítosz'), # Atrómitosz: sportklub
(ur'(n|N)aív', ur'\1aiv'),
(ur'(i|I)rígy', ur'\1rigy'), #mirigyre is jó :-)
(ur'(a|A)mbíci[oó]nál', ur'\1mbicionál'), #ambíció, de: ambiciózus, -onál
(ur'(a|A)mbíci[oó]zus', ur'\1mbiciózus'),
(ur'(b|B)[ií]rk[oó]z', ur'\1irkóz'),
(ur'(d|D)ef[ií]n[ií]ció', ur'\1efiníció'),
(ur'(d|D)ef[ií]n[ií]ál', ur'\1efiniál'),
(ur'(k|K)ondici[oó](?!nál|nali)', ur'\1ondíció'),
# kondicionalizmus, -sták (Pokol szócikk)
(ur'(k|K)ondícionál', ur'\1ondicionál'),
#
# Itt jönnek kigyűjtve a leggyakoribbak, amiket érdemes előre megcsinálni.
#
#Nyílván javítása: érdemes külön futtatni, automatikusan!
#(sok van, szó közepén is! -- 2009. okt. 16.: 282 lap! Ebből 1 nem hibás. :-))
# KIVÉTEL: Haydn: A Teremtés
# (ur'(n|N)yílván', ur'\1yilván'),
# (ur'(d|D)ícsér', ur'\1icsér'), #Sok van, érdemes lehet külön futtatni.
# (ur'(m|M)indíg', ur'\1indig'), #Sok van, érdemes lehet külön futtatni. (Együtt is.)
#Statisztika 2009. október 29-én:
#A nyílván, mindíg, dícsér külön javítása után maradt 1767 lap.
#
#Szó elejiek
(ur'izület', ur'ízület'),
(ur'Izület', ur'Ízület'),
(ur'\bigy\b', ur'így'), #imigyen és igyekez* kizárása (az utóbbira rengeteg találat van)
(ur'\bIgy\b', ur'Így'), #És az igyon, igyunk stb. is. Bőven elég ez szóvégjelekkel.
# Argentína: kiemelve az argentin fixbe
# Írtás: nem kell ide, lásd a megszunik fixet, ott rendezve van.
],
'exceptions': {
'inside': [
r'Szelidi-t',
ur'Hévizi (Ottó|Éva)',
r'heviziensis',
r'[tT]elevizij',
ur'ászkisér',
ur'[hH]elyszínül',
ur'színü(ltig|gy)',
ur'[Dd]ivizia',
ur'Beovizij[aá]',
# Vezetéknév és zenekar / Füzegy vajdasági település szerb neve
ur'Vizi[nć]',
ur'(?i)Vizier',
ur'\bvizir\b', # heraldikai szó
ur'Vizi privati', # A Magánbűnök, közerkölcsök másik címe
ur'\bAvizi\b',
ur'Prodavizi', # Valami régi nemescsalád
ur'Vizi [A-Z]', # Több név: László, Mária, György, Imre, Dávid, Balázs
ur'Tizeshonvéd utc[aá]', # Miskolci utca
ur'Kiváncsi Fáncsi', # Ezzel még futni kéne egy kört, de úgy tűnik
],
'title': [
# A dícsér/nyílván/mindíg hármashoz:
ur'Tíz-sorosok mestere$',
ur'Középkori magyar irodalom$',
ur'^Az ember tragédiája$',
ur'Haydn: A Teremtés$',
ur'Márssal társalkodó Murányi Venus$',
#
ur'^Báthory Gábor$',
ur'^Magyar névnapok betűrendben$',
ur'^WYSIWYG$',
ur'^Téglás$',
ur'^Higany$',
ur'^Gyóni Géza$',
ur'^Ómagyar Mária-siralom$',
ur'^Csík vármegye$',
ur'^Vizi E\. Szilveszter$',
ur'^Hőgyes Endre$',
ur'^Közalapítvány$',
ur'^Ádám Veronika$',
ur'^Zsira$',
ur'^Jászkisér$',
ur'^Galgahévíz$',
ur'^Tiszasüly$',
ur'^Kisnémedi$',
ur'^Tura$',
ur'^Than Károly$',
ur'^II\. Lipót magyar király$',
ur'^I\. (Béla|Ferenc) magyar király$',
ur'^Orosz irodalom$',
ur'^Gegő Elek$',
ur'^Ándhra Prades$',
ur'^Házityúk$',
ur'^Ah, hol vagy, magyarok tündöklő csillaga$',
ur'^Tolvajnyelv$',
ur'^Somlói vár$',
ur'^Sisa Pista$',
ur'^Habsburg–Lotaringiai Rudolf koronaherceg$',
ur'^12 pont$',
ur'^Betelepülések és betelepítések Magyarországra$',
ur'^Istvántelek$',
ur'^Homoródszentmártoni Bíró Sámuel$',
ur'^Daktilus$',
ur'^Szkülla \(Phorküsz leánya\)$',
ur'^Eadwig wessexi király$',
ur'^Rómeó és Júlia$',
ur'^Ferrovie dello Stato$',
ur'^Kovács János \(mérnök\)$',
ur'^Áprilisi törvények$',
ur'^Aszklépiadészi sor$',
ur'^Ferbli$',
ur'^Egyszerű mondatok a román nyelvben$',
ur'^Szelidi-tó$',
ur'^Nemességi igazolás$',
ur'^Adorján Boldizsár$',
ur'^Anyegin$',
ur'^Kendeffy-ház$',
ur'^Almásmálom$',
ur'^Rákóczi-vár \(Gyimesbükk\)$',
ur'^Komárom története$',
ur'^Szentes város- és határrészei$',
ur'^Postai bélyegző$',
ur'^Sréter család$',
ur'^Nagysomlyó-hegy$',
ur'^Pinczési Judit$',
ur'^Toyen$',
ur'^Jónás könyve$',
ur'^Dávid magyar királyi herceg$',
ur'^Elek Ferenc$',
ur'^1764–65-ös pozsonyi országgyűlés$',
ur'^Lilit$',
ur'^Sablon:Isère$',
ur'^Kolozsvári Tízes Szervezet$',
ur'^Verancsics-évkönyv$',
ur'^Erkel Ferenc hangszeres műveinek listája$',
ur'^Breznai kiáltvány$',
],
'include': BaseExceptions,
},
},
'argentin': {
# Kiemelve a vegyesjav3-ból. A sok angol szöveg miatt érdemes külön hagyni.
# 2012. március: egész napos program, de most már talán elég jók a kivételek
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (Argentína és az argentinok)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'i/í: argentinok',
},
'replacements': [
# Ebből a három argentin sor futtatása: 147 javítva, 199 nem javítva, sok konfliktus
# {{flagicon|[aA]rgentina}} és a képek kizárása negatív előreolvasással
# División Argentina kizárása itt, mert ott viszont rövidre kell javítani
(ur'(?<!Divisi[oó]n )(a|A)rgentin(a|á)(?!\}|\.svg|\.gif|\.png|\.jpg)', ur'\1rgentín\2'),
(ur'Divisi[oó]n Argent[ií]na', ur'División Argentina'),
(ur'(a|A)rgentínok', ur'\1rgentinok'),
(ur'(a|A)rgentín\b', ur'\1rgentin'),
],
'exceptions': {
'inside': [
# 469 A.: kisbolygó
# A vége a "Teatro Argentinában", Argentinának stb. miatt levágva
# Industria: Representando a la Industria Argentina de la Música
ur'(Teatro|Rep[uú]b+lica|Tetã|Valle|Rally|Live [iI]n|469|Wikimedia|LAN|Industria|of| en|from|de|to|Aventura|Imagining|Divisi[oó]n|Perosa) Argentin',
ur'(?i)Don[’\']t Cry for (Queen|Me)\,? Argentina',
ur'(?i)Reformed Churches in Argentina',
ur'Argentina Menis', # román diszkoszvetőnő
ur'Fuerza A[eé]rea Argentina',
ur'Argentina Top 40 Singles',
ur'Argentina national football team logo.gif',
u'(Malvinas|Aerolíneas) Argentinas',
u'Academia Argentina de Letras',
ur'(?i)(columba|Triathalassothia|Squatina|cinerea|Cucullia) argentina',
ur'Argentina anserina',
ur'BMG Ariola Argentina',
ur'High School Musical Argentina', #van Viva ~ meg anélkül is
ur'Miss (Mundo|Universo) Argentina',
],
'title': [
ur'^Időzóna$',
ur'^Chile$',
ur'^Number Ones$',
ur'^Antoine de Saint-Exupéry$',
ur'^Real Madrid CF$',
ur'^2006-os labdarúgó-világbajnokság$',
ur'^¿Dónde están los ladrones?$',
ur'^Laundry Service$',
ur'^Zsiráf csillagkép$',
ur'^Thalía$',
ur'^Boeing 737$',
ur'^\.ar$',
ur'^Led Zeppelin-diszkográfia$',
ur'^Autóstop$',
ur'^Giulietta Masina$',
ur'^Panini Comics$',
ur'^Henry Kissinger$',
ur'^1961-es cannes-i filmfesztivál$',
ur'^Horvátok$',
ur'^Meiolania$',
ur'^Il Gesù$',
ur'^Formula Renault$',
ur'^Nemzetközi Kinológiai Szövetség$',
ur'^Cueva de las Manos$',
ur'^Kapibaraformák$',
ur'^Playboy$',
ur'Róma történelmi központja$', # cikk + sablon
ur'^CA Boca Juniors$',
ur'^Celeste$',
ur'^José Froilán González$',
ur'^Miss Earth-versenyzők listája$',
ur'^Apia International Sydney$',
ur'^Udo Jürgens$',
ur'^Indás pimpó$',
ur'^Euphorbia-fajok listája$',
ur'^August Grisebach$',
ur'^Patagónia$',
ur'^Buenos Aires–Rosario–Córdoba nagysebességű vasútvonal$',
ur'^Sablon:Torino megye települései$',
ur'^1970-es európai Formula–2-es bajnokság$',
ur'^Krassovánok$',
ur'^Argentína vasúti közlekedése$',
ur'^2009-es észak-koreai nukleáris kísérlet$',
ur'^Juan Carlos Cáceres$',
ur'^Illyés Géza \(orvos\)$',
ur'^Nemzetközi férfinap$',
ur'^2001-es ifjúsági labdarúgó-világbajnokság$',
ur'^Italo Calvino$',
ur'^Argentin válság \(1998–2003\)$',
ur'^CE Sabadell FC$',
ur'^Sebezhető állatfajok listája$',
ur'^Megatherium$',
ur'^Anaglif képek$',
ur'^Evanescence$',
ur'^Madtsoiidae$',
ur'^A labdarúgó-világbajnokságok hivatalos dalai$',
ur'^Bordighera$',
ur'^Ezüstgalamb$',
ur'^Protypotherium$',
ur'^Lovaspóló$',
ur'^Csejtei Dezső$',
ur'^Elops machnata$',
# Ne legyen előtte kalapjel!
ur'Formula–1 argentin nagydíj$', # Ebből sok van, pl. 1995-ös ~
ur'^Sablon:Évfordulók/\'0, \'5/11-24$',
ur'Sablon:Zászló/Argentína2?$', # Beillesztve a zászló sablonba
ur'Sablon:Zászló/Tűzföld tartomány$',
ur'Sablon:Napképe/2007-07-27$',
ur'Sablon:Argentína fj$',
],
'include': BaseExceptions,
},
},
'vegyesjav4': {
# Elég alacsony hatásfokú javítás.
# A kívűl/rendkívűl/megszűntet/tüzijáték elég gyakori és
# konfliktusmentes, érdemes lehet külön is futtatni.
# Elhúnyt/húnyt el: konfliktusos, de gyakori.
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (4. csoport: u/ú, ü/ű)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'4. csoport: u/ú, ü/ű',
},
'replacements': [
#u/ú, ü/ű
(ur'(s|S)űrgős', ur'\1ürgős'),
(ur'(h|H)uszas', ur'\1úszas'),
(ur'(h|H)uszat', ur'\1úszat'),
(ur'(i|I)ndúl', ur'\1ndul'),
#Ez a Julius-dolog még így is _nagyon_sok_ fals találatot (neveket) ad, <s>talán</s> csak kisbetűvel kéne keresni.
#Julius keresztnevűek kizárása: ha szóköz, akkor nem nagybetű (Caesaron kívül is sok van)
# Christian Julius de Meza/de Geyter nem, július derekán igen
# \r nélkül, csak \n hatására a sor végieket nem találja meg.
(ur'(j|J)u([nl])ius( |\r\n) *(?![A-Z]|v[ao]n|de )', ur'\1ú\2ius\3'),
# Ez volt a régi, bibis, időnként sortöréseket tüntetne el! Helyette a fenti.
# (ur'(j|J)u([nl])ius\s+(?![A-Z]|von|de )', ur'\1ú\2ius '), #Julius keresztnevűek kizárása: ha szóköz, akkor nem nagybetű (Caesaron kívül is sok van)
(ur'(j|J)u([nl])ius\B(?!z)', ur'\1ú\2ius'), #vagy ne legyen szóhatár, és ne Juliusz legyen
# >>> Jorge Garcia <<<
# - * ''[[Columbo]]: Columbo legveszélyesebb éjszakája / Columbo: Columbo Likes th
# e Nightlife'' (2003) - Julius
# + * ''[[Columbo]]: Columbo legveszélyesebb éjszakája / Columbo: Columbo Likes th
# e Nightlife'' (2003) - Július * ''The Slow and the Cautious'' (2002) - Teddy
# - * ''The Slow and the Cautious'' (2002) - Teddy
(ur'(k|K)ívűl', ur'\1ívül'),
(ur'(s|S)zűntet', ur'\1züntet'),
(ur'(s|S)zűntelen', ur'\1züntelen'),
(ur'(t|T)üzi', ur'\1űzi'),
(ur'(h|H)ug(a\b|át|ának|ával)', ur'\1úg\2'), # 2012. márc: 15 (unoka)hugát, 5 (unoka)hugának, 15 (unoka)hugával
(ur'(e|E)lhúnyt', ur'\1lhunyt'),
(ur'(h|H)únyt el', ur'\1unyt el'),
(ur'(g|G)yanu', ur'\1yanú'),
(ur'gyepü', ur'gyepű'), #T elepülésnevekben ne, vegyesen vannak ü/ű-vel
# Készűl: szó közepén is, automatikusan is, rengeteg van! (2009. 10. 15-én futott)
(ur'(k|K)észűl', ur'\1észül'), # kivétel a Botond-monda cikkben
(ur'\b(a|A)múr', ur'\1mur'), # Szóhatár legyen, pl. "kétáramúra" ne
(ur'(t|T)úri(szt|zm|sta|stá)', ur'\1uri\2'), #A túristvándi vízimalom nem. :-)
(ur'(t|T)űzér(?!zékel)', ur'\1üzér'),
(ur'(k|K)űzd', ur'\1üzd'),
(ur'(k|K)özűl', ur'\1özül'), #Közűl, közűlük, 2009. dec.: 20 találatból 13 javítás, a többi idézet (főleg bibliai)
(ur'(k|K)ultúrál', ur'\1ulturál'),
#Szó elejiek
(ur'[uú]j+on+an+', ur'újonnan'), #Zseniális, láttam az AÜ-n ezt a szót egyszerre három hibával! :-) Sőt, szócikkben is... De összesen négy lehet. :-)
(ur'[UÚ]j+on+an+', ur'Újonnan'),
(ur'[uú]j+ab+', ur'újabb'), # sok hamis
(ur'[UÚ]j+ab+', ur'Újabb'),
#Uj kezdetűből rengeteg régies alak, tulajdonnév, nem magyar szó van, elég rossz a találati arány!
#Érdemesebb a következő két sort kikommentezni és egyáltalán nem használni, lásd a 2009. okt. 24-i naplót.
#(ur'\buj([^jg])', ur'új\1'), #ujgurok és ujjong kizárva, újgörög és újít IJ
#(ur'\bUj(?!j|gur|ház|vári|váry|lak|hely|fal|szász)', ur'Új'), #Jellemző tulajdonnevek kizárása
(ur'\bugy( |is|se|hogy)', ur' úgy\1'),
(ur'\bUgy( |is|se|hogy)', ur' Úgy\1'),
# Utat, utak, kutak és egyebek rövid u-val:
# abszolútak: hosszú! Talált egy óramútatót és egy gyapjútakarót is. :-)
# Külön futtatás, 2009. nov.: 132 kigyűjtött cikkből 105 találat (azt hiszem, csupa kisbetűs)
(ur'(?<!bszol)úta(t|k)(?!adály)', ur'uta\1'), #útakadály kizárva
(ur'Úta(t|k)', ur'Uta\1'),
(ur'únió', ur'unió'),
(ur'Únió', ur'Unió'),
# (ur'( |[a-r]|[t-z])útál', ur'\1utál'), #vasútállomás kizárása; a kisbetűs előtt feltehető szóköz vagy betű
(ur'útál(?!lomás)', ur'utál'), #Új koncepció: a végét nézzük, "útállomás" is van néhány
(ur'Útál', ur'Utál'),
#Ennek mindegy
(ur'értelmü([^kn])', ur'értelmű\1'),
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'title': [
ur'^Adjekció$',
ur'^Áldozati ünnep$',
ur'^Amaury Nolasco$',
ur'^Antal Géza \(teológus\)$',
ur'^Aranka György \(író\)$',
ur'^Barbie Lajos$',
ur'^Cserei Mihály \(1667\–1756\)$',
ur'^Entz Ferenc$',
ur'^Erkel Ferenc hangszeres műveinek listája$',
ur'^Habsburg\–Lotaringiai Rudolf koronaherceg$',
ur'^Hollán Ernő$',
ur'^Hőgyes Endre$',
ur'júdai király$', # Az összesben ugyanaz a régi forrás
ur'^Julián dátum$',
ur'^Juliánusz$',
ur'^Karsai Elek$',
ur'^Kástu$',
ur'^Kemény Dénes \(politikus\)$',
ur'^Kereskényi Gyula$',
ur'^Kessler Hubert$',
ur'^Kossuth Lajos$',
ur'^Lendvay Márton, id.$',
ur'^Ludwig Polzer\-Hoditz$',
ur'^Margit\-sziget$',
ur'^Mészkő \(kőzet\)$',
ur'^Nemesnépi Zakál György$',
ur'(Kodolányi|Bolyai) János$', #Idézetek
ur'^Sósmező$',
ur'^Széll\-kastély \(Rátót\)$',
ur'^Szózat$',
ur'^Tóth Kálmán \(költő\)$',
ur'^Zsigmondy Vilmos$',
],
'inside': [
u"Lovas Sándor: \'*A legujabb állami telepitések Magyarországon",
u'falujabeli',
],
'include': BaseExceptions,
}
},
'vegyesjav5': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (5. csoport: o/ó, ö/ő)]] kézi ellenőrzéssel',
# 'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (5. csoport: o/ó, ö/ő)]] kézi ellenőrzéssel: pár ezer videós szóösszetétel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'5. csoport: o/ó, ö/ő',
},
'replacements': [
#o/ó, ö/ő
(ur'(e|E)l[öő]ss?z[öő]r', ur'\1lőször'),
(ur'\b(e|E)l[öő]l?r[öő]l\b', ur'\1lölről'), #Magyarázat fent az 'elolrol' fixben.
#Ezeket is érdemes lehet külön futtatni; 2009 novemberében több névtérben futtatva
#24 "elöbb" és 248 "elött" cikket javított. Talált egy "lelötték"-et is. :-)
(ur'(e|E)lö(bb|tt)', ur'\1lő\2'), #elöbb, elött
(ur'\b(u|U)tól([^a])', ur'\1tol\2'), #(f)utólag(os) kizárva, csak szó elején (falutól stb.)
(ur'(a|A)utó(ma|gén|imm|gr|mob|rit)', ur'\1uto\2'), #autómosó, -motor stb.
#(ur'(a|A)ut[oó]n[oó]m(?!ikus)', ur'\1utonóm'), #rengeteg fals! Lásd a naplót, 2009. október 20.
(ur'(a|A)ut[oó]tr[oó]f', ur'\1utotróf'),
(ur'(k|K)[őö]r[úu]ta', ur'\1öruta'),
(ur'(k|K)[őö]r[úu]t([^a])', ur'\1örút\2'), #körutak, körutat kimarad
#(ur'kőr', ur'kör'), # nem jó, likőr, Kiskőrös, kőris, Törökőr; sok galiba
(ur'(k|K)iló(méter|gramm)', ur'\1ilo\2'),
(ur'(k|K)atasztrófális', ur'\1atasztrofális'), #-an, -ra: 37 javítás (2010. jan.)
(ur'(p|P)óst', ur'\1ost'),
#Video: érdemesebb a külön video fixet futtatni. 2009. jan. 11-i javítás után okt. 17-én 84 db. hibás cikk volt.
# (ur'(?<!Monte)(v|V)ideó-?([^\s\}\]\)\|\.\n]{4,})', vegyesjav5_video),
(ur'(v|V)ideójáték', ur'\1ideojáték'),
(ur'(v|V)ide[oó]klip+(?!el|é)', ur'\1ideoklip'), #klippel, klippé marad
(ur'(v|V)ide[oó]klipp(el|é)', ur'\1ideoklipp\2'), #klippel, klippé is legyen rövid o-val
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside': [
ur'Pósta (Sándor|Béla[aá])', #Személynevek
u'[Pp]óstelek',
u'Videoton',
u'autómatric',
ur'autómat$', # Zodiákus gyilkos
u'érzékelőszőr',
],
'title': [
u'Pósta Sándor',
#Ebben a háromban szándékosan rossz körút/posta van:
ur'^Magyar helyesírás$',
ur'^Adjekció$',
ur'^Ingadozó kiejtésű és a kiejtéstől eltérő írásmódú magyar köznevek listája$',
ur'^Nagyvárad$',
ur'^Spanyol (nyelv|hangtan)$',
ur'^Burgosi katedrális$',
],
'include': BaseExceptions,
},
},
'vegyesjav6': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (6. csoport: rövid/hosszú mássalhangzók)]] kézi ellenőrzéssel',
# 'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások: milliméter és barátai hosszú l-lel]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'6. csoport: mássalhangzók',
},
'replacements': [
#Rövid/hosszú mássalhangzók
(ur'(l|L)essz\b', ur'\1esz'),
(ur'(l|L)ehell(?!el\b)', ur'\1ehel'),
(ur'(k|K)issebb', ur'\1isebb'), #Sok szócikkben szerepel idézetben!
(ur'((j|J))átsza\b', ur'\1átssza'), #szó végén!; érdemes külön is futtatni
(ur'[óÓ]rakkor', ur'órakor'),
(ur'(n|N)incsennek', ur'\1incsenek'), #2 volt, de wikinévtérben még egy csomó
(ur'\b(m|M)innél', ur'\1inél'), #Hamis találatok szó belsejében, van értelme?
(ur'(m)iat\b', ur'miatt'), #Nagybetűvel nem várható.
(ur'(u|U)tánna(?![lk])', ur'\1tána'), # butánnak, vitadélutánnak
(ur'\b(ö|Ö)n+ál+ó', ur'\1nálló'), #szóhatár, fönnálló nem (megfogott egy önálllót is)
(ur'(a|A)s?szim+etr', ur'\1szimmetr'),
(ur'(s|S)zimetr', ur'\1zimmetr'),
(ur'(e|E)ggyüt{1,2}', ur'\1gyütt'),
(ur'\b(e|E)ggy([^eé])', ur'\1gy\2'), #meggyes nem; eggyé vált, eggyel több sem (ebből sok van!)
(ur'\b(e|E)ggyez', ur'\1gyez'), #Ilyenek vannak, megeggyező stb., az előző miatt külön kell.
(ur'\b(e|E)hez', ur'\1hhez'),
(ur'(?<!női )(k|K|m|M)ellet\b', ur'\1ellett'), #szó végén!
#A következő hibát okozott múlt időben: átépítetették --> átépíttetették, építetette-->építtetette
(ur'(é|É)pítetett', ur'\1píttetett'), #Wikipédia:Botgazdák üzenőfala/Archív 7 (tényleg van pár!)
(ur'(a|A)aut[oó]gram+', ur'\1utogram'), #kiv. autogrammal -- talán nem gyakori (Autogram, Steven Gerrard)
(ur'(k|K)il[óo]gram\]\]m', ur'\1ilogramm]]'), #A ]]-t is szóhatárnak veszi a következő.
(ur'(k|K)il[óo]gram\b', ur'\1ilogramm'), #A kilogramm szócikkben van egy kivétel! (Már nincs, hiba volt.)
(ur'(k|K)ontrol(?!l)', ur'\1ontroll'),
(ur'(f|F)utbalist', ur'\1utballist'),
(ur'(h|H)amarossan', ur'\1amarosan'), #2012. jan.: 14 db
(ur'(m|M)ili(méter|gramm|liter)', ur'\1illi\2'),
#Kell majd egyszer egy millennium, de most kimarad (2009. okt.).
#Milleneum: 0 találat, millenium: sok hamis találat, képek stb., nem gazdaságos.
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside': [
r'Daniel Mellet(\|Mellet)?', #ez valami focista
r'Gloria Calderon Kellet',
ur'(?i)(fej|il)lessz',
],
'title': [
# Sok régi idézet és "mellet" (de most már hatékonyabb lesz)
ur'^Esterházy Antal$',
ur'^Filológia$',
ur'^Szlovák nyelv$',
ur'^Román ábécé$',
ur'^Aráni nyelv$',
ur'^Téglás$',
ur'^Margit-sziget$',
ur'^Feketeerdő$',
ur'^Halászi$',
ur'^Damietta$',
ur'^Fűző$',
ur'^Nemi szelekció$',
ur'^Monica Geller$',
ur'^Rez-tető$',
ur'^Házigalamb$',
ur'^Szumó$',
ur'^Fájl:Királyi uvartartás\.JPG$',
ur'^Karimáscsőrű réce$',
ur'^Pápai vár$',
ur'^Samarjai Máté János$',
ur'^Új hullám \(zene\)$',
ur'^Sablon:Hargita megye települései$',
ur'^Vívóakciók$',
ur'^Makalu$',
ur'^Richard Chase$',
ur'^Bigas Luna$',
ur'^Szaídi$',
ur'^A nagy zabálás$',
ur'^Érzelmek csoportosítása$',
ur'^Tákosi református templom$',
ur'^Tárcsapajzs$',
ur'^Lázár Gyula \(labdarúgó\)$',
ur'^Sablon:Átirányítás hibás névről/doc/auto$',
ur'^Jövevényszavak a török nyelvben$',
ur'^Cigányvajda$',
ur'^A magyar labdarúgó-válogatott mérkőzései 1964-ben$',
ur'^Judy$',
ur'^Tészta$',
ur'^Magyar népviselet$',
ur'^Malomkő$',
ur'^Mondolat$',
ur'^Hyracodontidae$',
ur'^1764–65-ös pozsonyi országgyűlés$',
ur'^Jorge Torres Nilo$',
ur'^Eszperantó Akadémia$',
ur'^Pikkó herceg és Jutka Perzsi$',
ur'^Mellhártya$',
ur'^2011 a sportban$',
ur'^Musiqq$',
ur'^A Madagaszkár pingvinjei epizódjainak listája$',
ur'^Recept \(gasztronómia\)$',
],
'include': BaseExceptions,
},
},
'vegyesjav7': {
#Egybeírás/különírás
#Lásd még a "jo" és a "baloldal" fixet is!
#Ez most így egész gyors és hatékony lett. Leggyakoribb a "jónéhány", de nem érdemes különvenni.
#A legtöbb hamis találatot az egyetlen adja, esetleg azt lehet külön futtatni a közös találati listából.
#Konfliktusokat is okoz. A többi elég jól hasít.
#Kéne még egy olyan is, hogy az egyszerű számnevekkel egybeírjon, pl. egy bites --> egybites
#Ha lefutott, utána érdemes a vegul fixet futtatni.
#
'Kell': '''ezidőtájt, azidőtájt 3 szóba; nem utolsó sorban kettőbe
egycsapásra külön (64 találat), egyösszegben (3)''',
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (7. csoport: egybeírás/különírás)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'7. csoport: egybeírás és különírás',
},
'replacements': [
(ur'(e|E)gyetlen egy(?!ség|etem|ház|ed|en(es|let|súly)|értelmű|ezmény|iptom|éni|ütt|szer(ű|re)|szín|szavas|esít|más|bites|kor)', ur'\1gyetlenegy'), #szóközzel a végén több hibát hagy ki, mint javítana jót
#A Pogány Judit cikkben tényleg így írják az Akkor, egyetlen egyszer címét?
(ur'(a|A)lacsonyszintű', ur'\1lacsony szintű'),
(ur'(m|M)agasszintű', ur'\1agas szintű'),
(ur'(m|M)agasrangú', ur'\1agas rangú'), #hosszú távon: magas????[úű], kivéve magasságú, magasrendű
(ur'(a|A)lacsony rendű', ur'\1lacsonyrendű'),
(ur'(m|M)ásnéven', ur'\1ás néven'), # 2012. május: 179 találat cikknévtérben
(ur'(m|M)ég is\b', ur'\1égis'),
(ur'(m|M)égegyszer\b', ur'\1ég egyszer'), #2009. okt. 7-én 67-et javítottam főnévtérben. Sok!
(ur'(m|M)égegy\b', ur'\1ég egy'), #Ez tartalmazza a fentit is, nem látok olyant, ahol egybe kéne írni.
(ur'(m|M)éginkább\b', ur'\1ég inkább'),
(ur'(m|M)ostmár\b', ur'\1ost már'),
(ur'(a|A)mikoris', ur'\1mikor is'),
(ur'(n|N)agyonis', ur'\1agyon is'),
(ur'(v|V)égülis', ur'\1égül is'), #BÜ, 2009. 12. 28.: 172 szócikknévtérben, ld. a vegul fixet is!
(ur'(n|N)agyrészben', ur'\1agy részben'),
(ur'(t|T)öbb(száz|ezer|millió|milliárd|tucat)', ur'\1öbb \2'),
#Ld. még a tobbezer és a tobb100 fixet is!
(ur'(u|U)tolsóelőtti', ur'\1tolsó előtti'),
(ur'(k|K)oránt sem', ur'\1orántsem'),
(ur'(k|K)étség kívül', ur'\1étségkívül'), #Első javítás, 2011. július: 47 találat
#Szotyori József (orvos) és Keszőhidegkút: valami avítt idézetekben van külön szóba írva.
(ur'(j|J)ónéhány', ur'\1ó néhány'), #2009 októberében 167 találat volt szócikknévtérben.
(ur'(r|R)észtve(sz|tt)', ur'\1észt ve\2'),
(ur'(e|E)gészalakos', ur'\1gész alakos'), #Wikipédia:Botgazdák üzenőfala/Archív 7
(ur'(ú|Ú)gy szintén', ur'\1gyszintén'), #Ebben lesznek hamis találatok is
#2009. nov.: 123 sokminden és mindenek előtt
(ur'(m|M)indenek el[őö]tt', ur'\1indenekelőtt'),
(ur'(m|M)enetközben', ur'\1enet közben'),
(ur'(e|E)zutóbbi', ur'\1z utóbbi'),
(ur'(é|É)vr[őö]l\-évre', ur'\1vről évre'), #2009 novemberében 82 javítás, külön is futtatható.
#Az évről évre bekerült a naprolnapra fixbe, ami viszont lassú.
(ur'(s|S)okminden', ur'\1ok minden'),
(ur'(t|T)eltházas', ur'\1elt házas'), # 2011 decemberében külön kereséssel 119 cikk
(ur'(m|M)egyéspüspök', ur'\1egyés püspök'), #2011. aug.: külön 187 cikkben rengeteg (volt 19-20 is)
(ur'(b|B)alról\s*(-|–)\s*[jJ]obbra', ur'\1alról jobbra'), #2012. jan.: 45 találat
(ur'(j|J)obbról\s*(-|–)\s*[bB]alra', ur'\1obbról balra'), #2012. jan.: 12 találat
(ur'alakúl', ur'alakul'), #Itt csak előkészíti az alakúak javítását, volt belőle ütközés
#Vigyázat, erre be fog jönni a segédalakulat is, de az még nincs. Ja, már nem, mert a megalakulás-->meg alakúlás miatt kivettem az [uú]-t.
#A papagájalakúak stb. kizárása negatív előreolvasással
#(ur'([a-zióöőúüű])alakú(?!ak\]\]|ak\||ak rend)', ur'\1 alakú'),
#bármi, kivétel: két- stb./nagy-/kis-/sok-/többalakú, hangalakú; nagybetűk nem kellenek.
#Kikommentezve, mert még így is gyakorlatilag csak fals találatokat adott.
#Új koncepció: keressük csak az egyes számú alakot, ezzel a rendszertani kategóriákat kizárjuk. De így is figyelni kell!
#Javítjuk a kötőjeleseket is, pl. kör-alakú. Ha már kisbetűs a kezdet, legalább kiesnek a tulajdonnévi előtagok.
#A betűsök (x alakú, l alakú, f alakú stb.) is külön írandók!
(ur'([a-zióöőúüű])\-?alakú(?!ak)', ur'\1 alakú'),
#ezen kívül
#\be miat\b, \ba miat\b, mondat elején is!
(ur'([kK]ör|[nN]égyzet|[íÍ]v|[éÉ]k|[pP]or|[kK]ereszt)\-?alakban', ur'\1 alakban'),
],
'exceptions': {
'inside': [
ur'(?i)(egy|két|három|négy|sok|több|kis|nagy|hang|kül|jel|törzs| alap)alakú', #jelalakú (pl. Magnetofon), ... törzsalakú fák
ur'(?i)\bgyalakút', #Gyalakút, gyalakúti
ur'[Ff]élgömbalakú harmatgomba', #ld. KF-HE
],
'title': [
#Nyelvészeti cikkek:
u'Szóhasadás$',
ur'.*nímia', #homo, paro...
u'^Ómagyar Mária-siralom$', #idézet
#Rendszertani cikkek:
ur'.*alakúak', #Jó eséllyel fordul elő egyes számban is
],
'include': BaseExceptions,
}
},
'vegyesjav8': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (8. csoport: j/ly és az egyebek)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'8. csoport: j/ly és az egyebek',
},
'replacements': [
#j/ly
(ur'(m|M)uszály', ur'\1uszáj'),
(ur'(r|R)elytély', ur'\1ejtély'), #Ebből szócikknévtérben hármat látok, mind a Született feleséges cikkekben...
#Egyebek
(ur'(v|V)ákum', ur'\1ákuum'), #A vákuum szócikkben van egy kivétel!
(ur'(p|P)sziho', ur'\1szicho'),
(ur'(k|K)ülömb', ur'\1ülönb'), #Kivétel: Balassi Bálint, Verseghy Ferenc, Címerfestő
(ur'(k|K)álcium', ur'\1alcium'),
(ur'(k|K)alcium(karb|hidr)', ur'\1alcium-\2'), #Ideiglenes, kell egy külön vegyületfix
(ur'(e|E)gyenlőre', ur'\1gyelőre'),
(ur'(a|A)k{1,2}umlátor', ur'\1kkumulátor'),
(ur'(b|B)ocsájt', ur'\1ocsát'),
(ur'(b|B)ulgár(?!i)', ur'\1olgár'),
(ur'(t|T)ejhatal', ur'\1eljhatal'), #-om, -mú
(ur'\b(e|E|a|A)z mellett\b', ur'\1mellett'), #nem "nagylemez mellett"!
(ur'(l|L)i(c|sz)ensz', ur'\1icenc'),
# (ur'(l|L)i(c|sz)en(c|sz)-(\w)', ur'\1icenc\4'), Licenc-szerződés stb. esetén futtatandó
# (ur'(m|M)eteoriteket', ur'\1eteoritokat'), #Hatékonyabb lenne kiemelni.
# (ur'(m|M)eteoritekről', ur'\1eteoritokról'),
# (ur'(m|M)eteoriteknek', ur'\1eteoritoknak'),
# (ur'(m|M)eteoritekkel', ur'\1eteoritokkal'),
# (ur'(m|M)eteoritek', ur'\1eteoritok'),
# (ur'(m|M)eteoritet', ur'\1eteoritot'),
(ur'(t|T)erületete', ur'\1erülete'), #Külön javítottam 77 előfordulást. :-O
(ur'(v|V)ietnám', ur'\1ietnam'),
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside': [
],
'include': BaseExceptions,
},
},
'repeta': {
#Iszonyú gyors és hatékony csomag. 421-ből 334 javítás,
#Amikor lefutott, még 90 lap várt mentésre, és negyedóráig tartott a munkanapló mentése után!
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Helyesírási javítások (repeta: ami a többi kilenc csomag futtatása közben feltűnt: működés, óvoda, kitűnő, címke, Vlagyimir)]] kézi ellenőrzéssel',
},
'munka': {
'activity': u'Helyesírási javítás',
'targetlink': u'/vegyes',
'target': u'Vegyes javítások: repeta',
},
'replacements': [
(ur'Vszelovod', ur'Vszevolod'), #Az óvodások kapcsán bukott ki. :-) Úgy tűnik, kiirtottam.
(ur'[óo]v[oó]d(?=[aá])', ur'óvod'), #óvoda, óvodás; az előreolvasós még nincs tesztelve
(ur'[ÓO]v[oó]d(?=[aá])', ur'Óvod'), #óvoda, óvodás
(ur'(k|K)it[üű]n[öőoó]', ur'\1itűnő'), #kitűnő
(ur'(k|K)itün(ik|t|tek|ni|het)\b', ur'\1itűn\2'), #kitűnik, kitűnt, de nem kitüntet
(ur'(k|K)itűntet', ur'\1itüntet'), #kitüntet, -és, -ő stb.
(ur'(c|C)imk', ur'\1ímk'), #címke, címkét, mit talál még? :-)
(ur'(m|M)[üű]k[öő]dö\b', ur'\1űködő'), #működő
(ur'(m|M)[üű]k[öő]d', ur'\1űköd'), #működés, működik, működött, működ (hátha :-)) (nem találta meg: műkődőtt)
],
'exceptions': {
'inside': [
#ur'[kK]rasznovodszk', #Valamiért nem zárta ki az összeset.
#ur'Novodomszk', #y Éva
#ur'Çorovod', #albán város
#Az előreolvasós változat feleslegessé teszi a fenti hármat, teszt után törölhetők.
],
'include': BaseExceptions,
},
},
# ***********************************************************************************************************
# *** ***
# *** Itt végződnek a vegyes javítások. A korábbi egybeépített vegyesjav hatékonysági okból megszűnt! ***
# *** ***
# ***********************************************************************************************************